Планета Хороша В Геолокации Фотографий


Можно ли обучить систему определять место, где была сделана фотография, без каких-либо дополнительных входных данных? Команда исследователей Google решила эту проблему и придумала решение, которое превосходит человеческие эксперты. 

Модель под названием PlaNet выполняет геолокацию фотографий с помощью глубокого обучения. Это работа команды, возглавляемой Тобиасом Вейандом, специалистом по компьютерному зрению в Google.

Согласно аннотации статьи с изложением проекта:

В компьютерном зрении проблема геолокации фотографий обычно решается с использованием методов поиска изображений. Напротив, мы ставим задачу классификации, разделяя поверхность земли на тысячи многомасштабных географических ячеек, и обучаем глубокую сеть, используя миллионы изображений с геотегами.

При предъявлении фотографии планета выводит распределение вероятностей по карте, где масштаб от темного до светлого проходит через красный в качестве промежуточных значений. Обратите внимание, что сетка не покрывает всю карту. Такие районы, как Центральная Африка и Китай, где доступно мало фотографий с тегами, не учитываются, как и большая часть Канады и Австралии. Вот объяснение результатов приведенного выше отбора из трех фотографий. 

В то время как Эйфелева башня (а) уверенно приписывается Парижу, модель считает, что фотография фьорда (б) могла быть сделана либо в Новой Зеландии, либо в Норвегии. Для пляжной фотографии (c) Планета присваивает самую высокую вероятность южной Калифорнии (правильно), но некоторая масса вероятности также присваивается местам с похожими пляжами, таким как Мексика и Средиземное море. 

Планета получила 2,3 миллиона изображений с геотегами от Flickr, чтобы проверить, может ли она правильно определить их местоположение, в результате чего удалось локализовать 3,6 процента изображений с точностью на уровне улиц и 10,1 процента с точностью на уровне города. Он определяет страну происхождения еще в 28,4 процентах фотографий и континент в 48,0 процентах из них. 

Исследователи придумали новый способ сравнения производительности модели с работой людей. Он использовал GeoGuesser, онлайн-игру, которая представляет игроку случайную панораму вида улицы (взятую из всех панорам Google street view по всему миру) и просит их разместить маркер на карте в том месте, где была захвачена панорама. Это трудная задача, учитывая, что большинство панорам находятся в сельской местности и практически не содержат географических подсказок. Как только вы сделаете предположение, GeoGuesser покажет, где была сделана фотография, и начислит очки на основе расстояния между предположением и истинным местоположением.

В режиме вызова двум игрокам показывается один и тот же набор из 5 панорам и планета, сыгранная против 10 человеческих объектов с разным набором фотографий каждый раз. Планета выиграла 28 из 50 раундов со средней ошибкой локализации 1131,7 км по сравнению с 2320,75 км для игроков-людей. Процент панорам, локализованных в пределах этого расстояния людьми и планетой соответственно, показан на этой диаграмме, которая показывает, что планета локализовала 17 панорам с детализацией по стране (750 км), в то время как люди локализовали только 11 панорам в пределах этого радиуса.

Исследователи комментируют:

 Мы думаем, что планета имеет преимущество перед людьми, потому что она видела гораздо больше мест, чем любой человек может когда-либо посетить, и научилась тонким намекам на различные сцены, которые даже хорошо путешествующему человеку трудно различить.

Будучи нейронной сетью, когда планета иногда ошибается, тот факт, что это нейронная сеть, означает, что в будущем можно ожидать ее улучшения.

Исследователи также расширили планету, чтобы использовать информацию из последовательностей фотографий, содержащихся в фотоальбомах, что позволяет ей достичь на 50% более высокой производительности, чем модель с одним изображением. 

Вейанд и его коллеги, похоже, находятся на пути к обеспечению полезного решения проблемы геолокации на основе фотографий. Это очень востребованная возможность. Еще в 2011 году мы сообщали, что IARPA, деятельность по передовым исследовательским проектам разведки США, искала помощи у разработчиков для Finder, программного обеспечения, которое могло бы рассказать вам, где была сделана фотография.

В случае успеха система Finder предоставит тщательно протестированное технологическое решение для задач геолокации изображений и видео в любом открытом наземном местоположении.

В следующем году мы последовали за премией IARPA в размере 15,6 миллиона долларов, чтобы Найти, Где была сделана Фотография, отметив, что первая фаза проекта, по оценкам, будет завершена в 2014 году. Проект, похоже, все еще продолжается, но, возможно, поскольку целью является борьба с терроризмом, мы не услышим о его успешном завершении.

Тем временем Google удается многое сделать с фотографиями. Недавно мы сообщили о том, как компьютерная фотография собирает фотографии со всего мира, сделанные разными людьми в разное время, и собирает их вместе, чтобы сделать замедленные видеоролики популярных мест.

Как только вы соберете воедино постоянно растущее количество изображений с геотегами, которые являются общедоступными, с возможностями классификации, предоставляемыми глубоким обучением, скоро не будет места для укрытия.  


Добавить комментарий