Google обнаруживает, что нейронным сетям просто нужно больше данных


В недавнем исследовательском отчете подчеркивается тот факт, что мы просто недостаточно кормим их — точнее, данных. Нейронным сетям просто нужно больше данных, чтобы стать еще лучше.

Мне вспоминается завод в «Магазинчике ужасов» с постоянным рефреном «накорми меня, Сеймур» или, может быть, Джонни Файв в фильме «Короткое замыкание» — «Больше информации!» . Я также теперь уверен, что большинство нейронных сетей, которые я когда-либо пытался тренировать, были истощены до жестокости.
Нам нравится думать, что мы сделали большой прорыв в дизайне нейронных сетей, но по сути мы все еще придерживаемся тех же идей, которые были популярны в 1980-х годах и даже раньше. Существует вполне реальный аргумент в пользу того, что все, что изменилось, — это доступность больших наборов данных, подходящих для обучающих сетей, и оборудования, позволяющего выполнять работу в разумные сроки.

Мы исследовали влияние сложности модели и мощности графического процессора с течением времени, но размер набора данных остался прежним.

Чен Сан, Абхинав Шривастава, Саураб Сингх и Абхинав Гупта из Carnegie Mellon и Google Research решили выяснить, как обучение масштабируется с размером набора данных. Прорывным набором данных, без сомнения, был 1 миллион помеченных изображений в ImageNet. Это использовалось для обучения AlexNet еще в 2012 году и до сих пор используется для обучения более глубоких и сложных сетей.
Вопрос в том, почему у нас нет больших наборов данных? Ответ заключается в том, что довольно сложно расширить ImageNet, скажем, до чего-то в 100 раз большего размера. Такой набор данных необходим, если мы собираемся ответить на вопрос о масштабировании.
Первой задачей было построить набор данных, состоящий из 300 миллионов фотографий с 18291 категориями:
«Изображения маркируются с использованием алгоритма, который использует сложную смесь необработанных веб-сигналов, связей между веб-страницами и отзывов пользователей. В результате получается более одного миллиарда меток для 300 миллионов изображений (одно изображение может иметь несколько меток). Из миллиарда метки изображений, приблизительно 375M выбираются с помощью алгоритма, направленного на максимизацию точности этикеток выбранных изображений. Тем не менее, в этикетках все еще присутствует значительный шум: примерно 20% этикеток для выбранных изображений зашумлены. Поскольку исчерпывающие аннотации отсутствуют, у нас нет возможности оценить отзыв этикеток «.
Используя этот набор данных, измеряли производительность различных задач зрения в зависимости от количества данных. Наиболее важные выводы:
Наше первое наблюдение заключается в том, что крупномасштабные данные помогают в обучении представлению, о чем свидетельствует повышение производительности по каждой изучаемой нами задаче видения.
Возможно, самым удивительным элементом нашего открытия является взаимосвязь между эффективностью выполнения задач по зрению и объемом обучающих данных (логарифмическая шкала), используемых для обучения репрезентации. Мы обнаруживаем, что эта связь по-прежнему линейна! Даже с 300M обучающих изображений мы не наблюдаем никакого эффекта плато для изучаемых задач.
То есть сети могли бы съесть даже больше данных, если бы они были доступны.

Также интересно то, что это не были попытки создания оптимальных моделей. Было замечено, что вам нужны более глубокие модели, чтобы использовать дополнительные данные, но предполагается, что с большей работой производительность может быть улучшена. Это означает, что влияние увеличения объема данных, вероятно, недооценено. Несмотря на то, что они не были оптимизированы, сети дали новые результаты.
Поэтому все, что нам нужно сделать, чтобы наши нейронные сети стали еще лучше, — это сделать их глубже и обучить их, используя больше данных. Здесь мы наткнулись на некоторые препятствия. С полным набором данных обучение обычно занимало два месяца с использованием 50 графических процессоров K-80. Очевидно, что у нас есть некоторые проблемы с оборудованием, если мы собираемся серьезно отнестись к последнему предложению:
«Мы считаем, что получение крупномасштабных данных для конкретных задач, хотя и является сложной задачей, должно стать предметом будущих исследований. Кроме того, создание набора данных из 300 миллионов изображений не должно быть конечной целью — как сообщество, мы должны изучить, будут ли модели продолжать улучшаться. в режиме еще больших (1 миллиард + изображения) наборов данных «.


Добавить комментарий