Нейронные сети Google видны еще лучше


Недавно команда нейронных сетей Google продемонстрировала систему, которая может распознавать много разных вещей на фотографиях. В этом году на конкурсе ILSRVC у них есть нейронная сеть, которая может распознавать несколько вещей на одной фотографии.

Ежегодная крупномасштабная задача визуального распознавания ImageNet, ILSRVC, является испытательной площадкой для всех видов методов компьютерного зрения, но в последнее время в ней преобладают сверточные нейронные сети, которые обучаются распознавать объекты, просто показывая множество примеров на фотографиях. . В этом году конкурс отличался тем, что допускал участие в «черном ящике». Если команда или, что более вероятно, компания хотела сохранить работу своего алгоритма в секрете, они могут оставить исходный код при себе. ,
Было бы интересно предположить, что какая-то секретная компания может поразить всех нас черным ящиком, который распознает все, что может человек, не говоря уже о том, как это работает. Менее сенсационно, большинство записей предпочитают быть открытыми и делятся своим исходным кодом и методами, и в большинстве используются некоторые вариации сверточной нейронной сети.
В 2012 году произошел большой скачок в точности, когда глубокая сверточная сеть, разработанная Алексом Крижевским, Ильей Суцкевером и Джеффри Э. Хинтоном, впервые доказала, что нейронные сети действительно работают, если у вас достаточно данных и достаточно вычислительной мощности. Это нейронная сеть, которую Google использовал в своем алгоритме поиска фотографий, и, конечно же, команда, которую они наняли для ее реализации.
Конкурс в этом году также принес скачок в выступлениях. GoogLeNet от Google, названный в честь LeNet, созданного Яном ЛеКуном, выиграл испытание на классификацию и обнаружение, в то же время удвоив качество по сравнению с прошлогодними результатами. В этом году GoogLeNet набрал 44% средней точности по сравнению с лучшим показателем прошлого года в 23%.
GoogLeNet сделал свой код доступным для всех.
Задача классификации просто требует, чтобы программное обеспечение правильно пометило фотографии, а коэффициент ошибок GoogLeNet составляет 6,65%, что близко к уровню ошибок, связанных с человеческим фактором. Похоже, нам нужен более жесткий тест, и в этом вся задача обнаружения.

Задача обнаружения требует локализации различных объектов на фотографии, т. Е. Классификации и рисования ограничительной рамки. Это продвигается в направлении нейронной сети, способной выполнять анализ и описание сцены — давняя цель систем компьютерного зрения.
Архитектура GoogLeNet еще не была подробно описана, но команда говорит:
«В основе подхода лежит радикально переработанная сверточная сетевая архитектура. Его внешне сложная структура (типичные воплощения которой состоят из более чем 100 уровней с максимальной глубиной более 20 уровней параметров) основана на двух идеях: принципе Хебба и масштабная инвариантность. Как следствие тщательного балансирования, глубина и ширина сети значительно увеличиваются за счет небольшого увеличения времени оценки. Результирующая архитектура приводит к более чем 10-кратному сокращению количества параметров по сравнению с большинством современные сети технического зрения. Это сокращает переобучение во время обучения и позволяет нашей системе выполнять логический вывод с минимальным объемом памяти ».
Даже с 10-кратным уменьшением параметров сети по-прежнему требовалась помощь инфраструктуры DistBelief, которая может задействовать десятки тысяч ядер ЦП — это проблема обучения с использованием распределенных алгоритмов.
В записи блога Google Research, описывающей систему, есть очень удачный последний абзац:
«Эти технологические достижения позволят нам еще лучше понимать изображения, и прогресс будет напрямую перенесен на продукты Google, такие как поиск фотографий, поиск изображений, YouTube, беспилотные автомобили и любое другое место, где полезно понять, что находится в имидж, а также где находятся вещи «.
Я бы добавил роботов в список, и, поскольку над этим работает Google, он очень хорошо вписывается в линейку продуктов Google.


Добавить комментарий