Искусственный интеллект Google с глубоким обучением знает, где вы живете, и может взломать CAPTCHA


Некоторое время назад мы сообщали о попытках Google создать машинное зрение, достаточное для считывания номеров домов, сфотографированных в режиме просмотра улиц. Производительность теперь намного улучшилась, так как команда перешла на глубокую сверточную нейронную сеть.

Опробовав стандартные «инженерные» подходы к машинному зрению, Google, похоже, обнаружил, что сверточные нейронные сети не только хорошо распознают котят в видеороликах на YouTube, но и могут выполнять полезную работу.
В Google есть много фотографий фасадов домов с номерами домов, и идея состоит в том, что, если можно прочитать номер дома, фотография может быть геолокации еще более точно.
Еще в 2011 году исследовательская группа начала работу над созданием модуля OCR, который мог бы работать с неструктурированными фотографиями, отправляемыми автомобилем Google StreetView. Идея заключалась в том, что OCR — это довольно хорошо решенная проблема в том смысле, что оно может достигать точности сканирования документов не хуже людей. Однако иметь дело с номерами домов, разбросанными в разных местах на фотографиях, — гораздо большая проблема. Команда сначала попыталась решить проблему, создав алгоритмы, которые локализовали номер дома на небольшом участке фотографии, а затем можно было использовать стандартные алгоритмы OCR. Используя созданные вручную функции, они достигли точности 85%, а с помощью машинного обучения — 90% точности, что можно сравнить с точностью человека в 98%. Ясно, что это хорошо, но есть куда лучше по крайней мере на 8%.

Номера домов, где что-то пошло не так — расшифрованные номера v неопровержимая правда.
Новый подход отказывается от «инженерного» подхода к объединению подсистем в пользу того, чтобы позволить глубокой нейронной сети узнать, что нужно сделать, чтобы распознать и прочитать номера домов. Глубокие нейронные сети — это системы слоев искусственных нейронов, которые обучаются простым «показом» фотографий. Примечательно то, что система достигла точности более 96% при распознавании полных номеров домов и почти 98% точности для однозначных чисел.
Это по сути решает проблему, с которой все началось, и теперь Street View «знает» адреса большинства домов, которые он фотографирует. Я оставляю других более параноидальными, чем я, чтобы разобраться с любыми последствиями этого для конфиденциальности или безопасности.
После решения проблемы с номером дома команда обратила свою нейронную сеть на проблему reCAPTCHA — где людям предлагается прочитать искаженные символы, чтобы доказать, что они действительно люди. Если вы попробовали этот тест, то обнаружите, что 99,8% успешных ответов на сложнейшую категорию головоломок даже более впечатляющи, чем результат с номером дома. Большинство людей испытывают трудности с некоторыми из более простых головоломок. Теперь кажется, что неспособность преуспеть в reCAPTCHA является доказательством того, что вы человек, а не умением их читать.

CAPTCHA, которые сеть смогла прочитать

Google утверждает, что это не проблема для его бот-фильтра reCAPTCHA, потому что он больше не полагается на распознавание искаженных изображений. Кажется, что к головоломке добавляется своего рода поведенческий анализ, который идентифицирует ботов по тому, как они взаимодействуют с головоломкой, а не только по тому, правильно ли они получают ответ.
Об этом результате стоит задуматься на минутку. После попытки разработать систему, которая специально решает конкретную проблему, гораздо лучшая производительность была достигнута путем обучения универсальной обучающей системы, то есть глубокой нейронной сети. Конечно, это стало возможным благодаря очень большому количеству обучающих данных и вычислительной мощности для реализации обучения.
Мы знали о нейронных сетях много десятилетий, и они всегда казались многообещающими, но никогда не давали полезных результатов. Кажется, что у нас всегда был правильный ответ, но не хватало данных и вычислительной мощности для обучения достаточно сложных сетей. Сеть, используемая для чтения номеров улиц, показала свою лучшую производительность, когда у нее было 6 или более слоев, поэтому глубокая часть действительно необходима.
В инженерных системах из модулей, предназначенных для решения конкретных задач, вроде бы нет смысла. Теперь все, что вам нужно сделать, это передать данные глубокой нейронной сети. В исследовательской статье делается вывод:
«Возможно, самым интересным нашим открытием является то, что нейронные сети могут научиться выполнять сложные задачи, такие как одновременная локализация и сегментация упорядоченных последовательностей объектов. Такой подход использования одной нейронной сети в качестве всей сквозной системы может быть применим к другим проблемы, такие как общая транскрипция текста или распознавание речи «.


Добавить комментарий