Google использует ИИ, чтобы узнать, где вы живете


В недавнем исследовательском документе Google описывается, как он может использовать ИИ для чтения цифр на естественных изображениях, в частности на фотографиях Street View.

У Google огромная база данных фотографий городской (и некоторых не очень городской) среды. Помимо любопытства, в изображениях содержится много данных, и явно заставить агента ИИ просмотреть весь корпус и получить полезную информацию — отличная идея.
В статье «Чтение цифр в естественных изображениях» с помощью функции «Обучение без учителя» команда Google / Стэнфорд объясняет, как они приступили к извлечению номеров домов из изображений Street View.
В то время как конкретная проблема OCR была достаточно хорошо решена, сложность чтения даже цифр на общем изображении является сложной и нерешенной. Если это удастся сделать, это позволит Google создавать гораздо более точные карты и, следовательно, навигационные сервисы. Также предлагается, чтобы, зная номера домов на фотографии, геокодирование можно было улучшить, чтобы обеспечить точное представление о целевом пункте назначения, то есть не только общее представление о том, куда вы собираетесь, но и вид на дом, который вы пытаются поехать в.
Существующие методы, как правило, основаны на функциях, созданных вручную, которые точно адаптированы к контексту, в котором находится текст. В более общих условиях эти методы вряд ли будут работать, если вообще будут работать. Используемый подход заключается в том, чтобы сначала определить, где на изображении может быть табличка с номером дома. Затем обнаруженные области подвергаются алгоритмам распознавания цифр.

Чтобы проверить свои методы, они сначала создали подмножество данных, состоящее из 600 000 изображений с помеченными цифрами, созданных с помощью Amazon Mechanical Turk.

Сначала они попробовали созданные вручную функции, которые обычно используются при распознавании текста, и обнаружили, что этот подход не работает. Затем они попробовали алгоритмы изучения функций — составные разреженные автокодировщики и систему на основе K-средних. Функции, созданные вручную, достигли точности 63% и 85% по сравнению с примерно 90% для двух классификаторов функций обучения, что следует сравнить с точностью человека в 98%.
Большой размер обучающей выборки оказался очень важным для достижения хорошей производительности, и это еще раз подтверждает идею о том, что многие методы искусственного интеллекта, используемые в прошлом, могли просто неэффективно работать, потому что большие обучающие наборы были недоступны.


Добавить комментарий