Нейронные сети выполняют задачи, которые создают впечатление, что сильный ИИ, то есть машины, которые думают, как мы, вполне возможен и, возможно, даже не так уж далек. Но существует проблема. Недавно было обнаружено, что все нейронные сети обладают удивительной способностью приходить к неверным выводам.
Нейронная сеть — это очень сложная сеть обучающих элементов. В случае сверточных нейронных сетей, применяемых к зрению, вы показываете сети множество фотографий с классификацией, и постепенно они учатся правильно классифицировать обучающий набор.
В этом нет ничего удивительного, потому что все, что вам нужно, чтобы правильно классифицировать любой обучающий набор, — это большая память. Если машина может определить, какая фотография в обучающем наборе представлена, она может найти ее классификацию в таблице. Что действительно интересно, так это то, что происходит, когда вы показываете обучающей машине фотографию, которую она раньше не видела. В случае запоминания или заучивания наизусть очевидно, что машина просто пожала бы плечами и сказала — никогда раньше ее не видела.
Что интересно и важно в нейронных сетях, так это то, что они способны правильно классифицировать изображения, которые они никогда раньше не видели и не были частью обучающей выборки. То есть нейронные сети учатся обобщать, и многим кажется, что они обобщают так, как это делают люди. Часто самое впечатляющее в нейронных сетях — это то, как они ошибаются. Когда в сети говорят, что на фотографии кошка на самом деле собака, вы смотрите на фотографию и думаете: «Да, я понимаю, как она может так думать».
Потом все пошло не так.
В начале 2014 года статья Кристиана Сегеди, Войцеха Зарембы, Ильи Суцкевер, Джоан Бруна, Думитру Эрхан, Яна Гудфеллоу и Роба Фергуса «Интригующие свойства нейронных сетей», группы авторов исследования глубокого обучения Google, показала, что нейронные сети не не совсем похожи на нас — и, возможно, мы тоже не совсем такие, как мы.
Было обнаружено, что с помощью небольшого алгоритма оптимизации вы можете найти примеры изображений, которые были очень близки к исходному изображению, которые сеть могла бы неправильно классифицировать. Это был шок. Вы можете показать сети изображение автомобиля, и на нем будет написано «автомобиль», а затем вы покажете ему изображение, которое для человека идентично, и он скажет, что это что-то другое.
Существование таких состязательных изображений вызвало много споров в сообществе нейронных сетей, но многие надеялись, что их можно будет по большей части проигнорировать — до тех пор, пока состязательные изображения были изолированными «уродами» классификации. Вы даже можете использовать их для улучшения работы сети, добавив их в обучающий набор. Во многих отношениях наличие враждебных изображений рассматривалось как свидетельство того, что мы недостаточно обучили сеть.
Теперь мы знаем, что все не так просто.
В новой статье «Изучение пространства состязательных изображений» Педро Табакоф и Эдуардо Валле из Университета Кампинаса приводят несколько очень хороших и простых для понимания доказательств того, что состязательные изображения могут быть более серьезной проблемой.
Слева направо правильные надписи: «Абая», «Скорая помощь», «Банан», «Кит Фокс», «Вулкан». Состязательные ярлыки для всех: «Болеут» (разновидность грибов). Средний ряд — это разница между двумя изображениями.
Если вы думаете, что входные изображения образуют многомерное пространство, то различные классификации делят пространство на регионы. Долгое время считалось, что эти регионы сложны. Состязательные изображения — это изображения, которые очень близки к границе такой области. Вопрос в том, как распространялись состязательные изображения:
Являются ли они изолированными точками в пиксельном пространстве, доступными только с помощью управляемой процедуры с полным доступом к модели? Или они населяют большие «враждебные карманы» в космосе? Эти вопросы имеют практическое значение: если состязательные изображения изолированы или обитают в очень тонких карманах, они заслуживают гораздо меньшего беспокойства, чем если бы они образовывали большие компактные области.
Используемые методы на удивление просты для понимания. Сначала найдите состязательное изображение и выясните, насколько оно далеко от исходного изображения. Затем сгенерируйте случайные изменения в состязательном изображении, чтобы отойти на такое же расстояние и определить, является ли оно по-прежнему состязательным. Использование простого распределения Гаусса позволяет «исследовать» сферическую область:
«мы подходим к проблеме косвенно, исследуя пространство вокруг изображений с небольшими случайными возмущениями. В областях, где многообразие хорошее — круглое, компактное, занимающее большую часть пространства — классификатор будет согласованным (даже если он ошибается). области, где многообразие проблематично — разреженные, прерывистые, занимающие небольшие флуктуирующие подпространства — классификатор будет неустойчивым ».
Они использовали рукописные цифры MNIST и базы данных ImageNet, и, что интересно, были некоторые различия в природе пространств состязательных изображений. Важным показателем является процент изображений, классифицируемых в соответствии с возмущением. Кажется, что состязательные изображения не изолированы, но они близки к границам исходной классификации.
Ключевой вывод заключается в том, что данные MNIST менее уязвимы для состязательных изображений, чем данные ImageNet. Для MNIST состязательные искажения изображения были более очевидными, и они переключаются на правильную классификацию быстрее, чем данные ImageNet.
Чтобы исследовать геометрию более точно, источник шума был изменен так, чтобы он имел такое же распределение, как и искаженные пиксели в состязательном наборе. Это исследовало несферические области, которые, как ожидается, будут ближе к форме противостоящих зон. Проблема в том, что по данным MNIST модифицированные распределения обнаружили более крупные области, чем гауссиане, но для данных ImageNet они обнаружили меньшие области. Однако ни в том, ни в другом случае эффект не кажется большим.
Несмотря на то, что это преподносится как недостаток нейронных сетей, кажется, что это характерно для ряда методов обучения. Действительно, для данных MNIST использовался классификатор логистической регрессии, и это могло быть источником обнаруженных различий.
«Любопытно, что слабый неглубокий классификатор (логистическая регрессия) в простой задаче (MNIST) кажется менее восприимчивым к состязательным изображениям, чем сильный, глубокий классификатор (OverFeat) в сложной задаче (ImageNet). Состязательное искажение для MNIST / логистическая регрессия более очевидна и различима для человека. Она также более хрупкая, с большим количеством состязательных изображений, возвращающихся к исходным при относительно более низких уровнях шума. Является ли восприимчивость к состязательным изображениям неизбежной ахиллесовой пятой мощных сложных классификаторов? »
Все это означает, что в некоторой степени сложные классификаторы, такие как нейронные сети, создают области классификации, которые являются более сложными, возможно, более сложными, и это позволяет существовать очагам враждебных образов.
Как отмечалось ранее, это также могло быть еще одним проявлением проклятия размерности. По мере увеличения числа измерений объем гиперсферы становится все более концентрированным около ее поверхности. В терминах классификации это означает, что по мере увеличения размера классификационного пространства любая точка в выбранной в пределах области, вероятно, будет близка к границе и, следовательно, возможно, области состязательного примера.
Процитируем последнее предложение из статьи:
«Спекулятивные аналогии с иллюзиями визуальной системы человека соблазнительны, но самый честный ответ заключается в том, что мы все еще знаем слишком мало. Мы надеемся, что эта статья продолжит обсуждение враждебных изображений и поможет в дальнейшем изучении этих интригующих свойств».
Так есть ли у людей враждебные образы или мы работаем таким образом, чтобы их подавлять?