Google Research выпускает Google-Landmarks, набор данных для распознавания рукотворных и природных достопримечательностей. Это также открытый исходный код Deep Local Features (DELF), внимательный дескриптор локальной функции, подходящий для задачи распознавания ориентиров.
Google Research продолжает оставаться одним из лидеров в области технологий компьютерного зрения и классификации изображений, а также имеет отличный послужной список в предоставлении доступа к разработанным им инструментам для других.
В своем сообщении в блоге, анонсирующем Google-Landmarks, Андре Араужо и Тобиас Вейанд объясняют причины своих последних вкладов:
Чтобы продолжить развитие современного компьютерного зрения, многие исследователи теперь уделяют больше внимания мелкозернистым проблемам распознавания на уровне экземпляра — вместо того, чтобы распознавать общие объекты, такие как здания, горы и (конечно) кошки, многие разрабатывают алгоритмы машинного обучения, способные определять Эйфелеву башню, гору Фудзи или персидских кошек. Однако серьезным препятствием для исследований в этой области было отсутствие больших аннотированных наборов данных.
Набор данных Google-Landmark содержит более 2 миллионов изображений, на которых изображено 30 тысяч достопримечательностей со всего мира. Как показано на этой карте, они распределены по всему миру в 4872 городах 187 стран:
Набор данных был собран для оценки DEFL (DEep Local Feature) — нового инструмента, основанного на сверточных нейронных сетях, разработанного в Google и описанного в статье, написанной в соавторстве с Андре Араужо, Тобиасом Вейандом вместе с другим инженером Google Джеком Симом и двумя другими, Хёнву. Но и Бохён Хан, теперь аффилированные с POSTECH Korea.
DELF — это локальный дескриптор функции, который был разработан специально для крупномасштабных приложений поиска изображений. Общая архитектура системы поиска изображений и ее конвейера для извлечения и выбора DELF резюмирована на этой диаграмме, взятой из статьи:
Часть, выделенная желтым цветом слева от диаграммы, представляет собой механизм внимания, который обучен назначать высокие баллы соответствующим функциям и выбирать функции с наивысшими баллами. Извлечение и выбор признаков можно выполнить за один прямой проход с использованием модели. Справа от диаграммы изображен крупномасштабный конвейер поиска на основе функций. DELF для изображений базы данных индексируются в автономном режиме. Индекс поддерживает запросы путем извлечения функций ближайшего соседа (NN), которые можно использовать для ранжирования изображений в базе данных на основе геометрически проверенных совпадений.
Мало того, что новый набор данных намного больше, чем существующие, с более разнообразным набором ориентиров, он намеренно создает проблемы.
По мнению исследователей:
В то время как большинство изображений в существующих наборах данных ориентированы на ориентиры, что обеспечивает хорошую работу дескрипторов глобальных функций, наш набор данных содержит более реалистичные изображения с дикими вариациями, включая беспорядок переднего плана / фона, загорание, частично скрытые объекты и т. Д.
Это иллюстрирует визуализацию соответствия функций между изображениями в запросе и использование их подхода:
Для каждой пары изображения запроса и базы данных отображаются рядом. DELF успешно сопоставляет ориентиры и объекты в сложной среде, включая частичное перекрытие, отвлекающие объекты и фоновый беспорядок. Оба конца красных линий обозначают центры совпадающих объектов.
Вывод к статье таков:
DELF значительно превосходит современные глобальные и локальные дескрипторы в крупномасштабной среде.
DELF находится на GitHub — это репозиторий тензорных потоков / моделей, а набор данных Google Landmarks был выпущен в рамках двух конкурсов Kaggle, конкурса Google Landmark Recognition Challenge для обозначения известных (и не очень известных) достопримечательностей на изображениях и конкурса Google Landmark Retrieval Challenge. , цель которого — найти все изображения определенного ориентира на данном изображении. Несмотря на то, что обе задачи находятся в стадии разработки, крайний срок подачи заявок для них обоих — 15 мая 2019 г., что также является крайним сроком для объединения команд, последнего дня, когда участники могут присоединяться к командам или объединяться в них. Окончательные заявки должны быть поданы до 22 мая, и командам рекомендуется попробовать и то и другое, а также принять участие в семинаре по признанию достопримечательностей на CVPR 2018. Это ежегодное мероприятие по компьютерному зрению, включающее конференцию, несколько связанных семинаров и краткосрочных курсов, проходит в этом году в Солт-Лейк Город с 18-22 июня.
Эти соревнования открыты для всех через веб-сайт Kaggle, где вы найдете подробную информацию о правилах и призах на их специальных страницах Kaggle, вместе с обсуждениями, таблицами лидеров, данными о тренировочных наборах, предоставленными Google, и существующими вилками.