У Google есть еще один прорыв в области машинного зрения?


Google Research только что опубликовал подробную информацию о технике машинного зрения, которая может обеспечить мощное визуальное распознавание на простых настольных и даже мобильных компьютерах. Он утверждает, что способен распознавать 100000 различных типов объектов на фотографии за несколько минут — и при этом не упоминается DNN глубокой нейронной сети.

В работе с машинным зрением всегда был фундаментальный раскол. Инженерный подход пытается решить проблему, рассматривая ее как задачу обнаружения сигнала с использованием стандартных технических методов. Более «мягкий» подход заключался в попытке построить системы, которые больше походили бы на то, как делают что-то люди. В последнее время, похоже, на первое место пришел именно человеческий подход: DNN научились распознавать важные особенности в примерах видео. Это очень впечатляет и очень важно, но, как это часто бывает, инженерный подход также имеет пару хитростей.
В этом случае у нас есть улучшения довольно стандартной техники применения сверточных фильтров к изображению для выделения интересующих объектов. Большая проблема со сверточными фильтрами заключается в том, что вам нужен хотя бы один для каждого типа объекта, который вы ищете — должен быть фильтр для кошек, фильтр для собак, фильтр для людей и так далее. Учитывая, что время, необходимое для применения фильтра, не зависит от размера изображения, большинство подходов, использующих этот метод, ограничиваются небольшим количеством категорий объектов.
В этом году победитель премии CVPR Best Paper Award, соавторами которой являются гуглеры Том Дин, Марк Рузон, Марк Сигал, Джонатон Шленс, Судхендра Виджаянарасимхан и Джей Ягник, описывает технологию, которая ускоряет процесс, позволяя использовать многие тысячи категорий объектов и результаты могут быть получены за несколько минут на стандартном компьютере.
Этот метод сложен, но по сути он использует хеширование, чтобы избежать необходимости вычислять все каждый раз. Хеширование с учетом местоположения используется для поиска результатов каждого шага свертки, то есть вместо применения маски к пикселям и суммирования результата пиксели хешируются, а затем используются для поиска в таблице результатов. Они также используют метод ранжирования, который указывает, какой фильтр лучше всего подходит для дальнейшей оценки. Использование порядковой свертки для замены линейной свертки кажется таким же важным, как и использование хеширования.
Результатом изменения основного алгоритма является ускорение примерно в 20 000 раз, что поразительно. Метод был протестирован на 100000 детекторов объектов на основе модели деформируемых частей, для которой требовалось применить более миллиона фильтров к нескольким масштабам разрешения целевого изображения, которые были вычислены менее чем за 20 секунд с использованием только одной многоядерной машины с 20 ГБ оперативной памяти.

Как указывается в документе, средний человек может распознать около 10 000 категорий объектов высокого уровня, поэтому в этом случае машинный подход может быть способом предоставить базовые функции классификатору более высокого уровня.
Ясно одно: отказываться от подхода в ИИ никогда не безопасно. В этом случае возможность реализовать такие сложные методы обнаружения объектов на высокой скорости, вероятно, приведет не только к реальным приложениям, но и к усовершенствованию самих детекторов. Возможность быстро протестировать и увидеть результаты является предпосылкой для создания еще более сложных методов.


Добавить комментарий