Нейронные сети отлично реагируют на сложные данные, но не настолько хороши в медленном мышлении, необходимом для решения такой проблемы, как добраться из пункта А в пункт Б с помощью метро или расшифровывать головоломку с раздвижными блоками. Теперь DeepMind, кажется, обнаружил, как заставить нейронные сети думать медленно и глубоко.
Два года назад DeepMind опубликовал информацию о своей нейронной машине Тьюринга — умной идее, которая объединила нейронную сеть с памятью таким образом, чтобы получившаяся машина могла обучаться, используя тот же подход, что и простая нейронная сеть.
Ключ к способу обучения нейронной сети — это дифференцируемость. В ранних попытках построения нейронных сетей нейроны были либо включены, либо выключены, и такой подход «все или ничего» делал невозможным использование методов оптимизации для повышения их производительности. Прорыв заключался в использовании более плавного перехода от «выкл» к «включенному», имеющего производную — в смысле исчисления. Возможность использовать производную сети означает, что можно определить, как нужно отрегулировать веса сетей, чтобы переместить всю сеть в направлении, улучшающем ее производительность. Это алгоритм обратного распространения, и, хотя он был революционным по своему влиянию на глубокое обучение, на самом деле это просто стандартный классический алгоритм оптимизации.
Добавление памяти к нейронной сети дает вам новые возможности, но стандартная память — это все или ничего. Если вы добавите один в нейронную сеть, у нее сразу же больше не будет производной функции, и вы не сможете использовать обратное распространение для ее обучения. Умная идея с нейронной машиной Тьюринга заключалась в том, чтобы постепенно избавляться от памяти. Когда сеть писала в местоположение, оно не менялось с 0 на 1, а немного увеличивалось в соответствии с параметром веса. Это мгновенно превращает всю машину во что-то, что снова имеет производную и, следовательно, может быть обучено с использованием обратного распространения.
Нейронные машины Тьюринга были впечатляющими, но, помимо их первоначального воздействия, с их использованием не произошло ничего особенного. Теперь у нас есть статья в Nature, описывающая дифференцируемый нейронный компьютер (DNC), который похож на нейронную машину Тьюринга, но с более сложной памятью. Такой же постепенный подход используется для записи в память, но теперь есть механизмы, которые контролируют, где активна память.
Есть три разных механизма внимания. Поиск содержимого — это когда выходные данные сети сравниваются с содержимым каждой ячейки памяти, и результат используется для направления головок чтения / записи к областям памяти с аналогичным содержимым. Второй использует порядок, в котором были записаны данные, а третий, используемый для записи, повышает вероятность того, что запись будет производиться в относительно неиспользуемую область памяти.
«Дизайн механизмов внимания был в значительной степени мотивирован вычислительными соображениями. Поиск содержимого позволяет формировать ассоциативные структуры данных; временные ссылки обеспечивают последовательное извлечение входных последовательностей; а распределение предоставляет головке записи неиспользуемые местоположения. Однако между ними есть интересные параллели. механизмы памяти ДНК и функциональные возможности гиппокампа млекопитающих ».
Самым важным в каждом из этих механизмов внимания является то, что они дифференцируемы, и, следовательно, весь механизм все еще можно обучать классическими методами оптимизации.
Чтобы убедиться, что DNC лучше справляется с медленными логическими задачами, которые он должен был решать, команда попробовала выполнить три задачи. Первая задача логического мышления:
«Джон на детской площадке. Джон взял мяч в руки ».
за которым следует вопрос «
Где футбол? »
DNC лучше, чем обычный подход к такого рода задачам последовательности, то есть долговременная краткосрочная память (LSTM), и лучше, чем нейронная машина Тьюринга.
Вторая задача заключалась в изучении маршрутов через графы. Это идентично проблеме обучения тому, как совершать путешествие от одной станции к другой в сложной сети железнодорожных линий, и команда использовала карту лондонского метро и генеалогическое древо. В подпольной задаче DNC достиг в среднем 98,8% точности после миллиона обучающих примеров. Альтернативный стандартный подход с использованием нейронной сети LSTM не смог выйти за пределы первого уровня обучения с ошибкой 37% после двух миллионов примеров.
Вы можете увидеть, как это работает на примере генеалогического древа, в этом видео:
Третья задача заключалась в решении головоломки со скользящими блоками, на этот раз обучение было основано на обучении с подкреплением. Проблемы такого рода часто решаются с помощью подхода к планированию и бумажных заметок:
Мы заметили, что в то время, когда цель была написана, но требовалось много шагов до ее выполнения, первое действие можно было декодировать из памяти. Это указывает на то, что DNC записал свое решение в память, прежде чем действовать по нему; таким образом, что примечательно, DNC научился составлять план.
Опять же, DNC работал лучше, чем обычная рекуррентная нейронная сеть. В документе также отмечается, что в каждом случае характер данных изменял процедуры доступа к памяти, используемые DNC.
Последний абзац стоит прочитать:
Наши эксперименты были сосредоточены на относительно небольших синтетических задачах, преимущество которых заключается в простоте создания и интерпретации. Для таких задач было достаточно матриц памяти до 512 ячеек. Для работы с реальными данными нам потребуется масштабирование до тысяч или миллионов ячеек, после чего память сможет хранить больше информации, чем может содержаться в весах контроллера. Такие системы должны иметь возможность непрерывно получать знания через доступ к большим натуралистическим источникам данных, даже без адаптации сетевых параметров. Мы стремимся к дальнейшему развитию DNC, чтобы они служили репрезентативными механизмами для однократного обучения, понимания сцены, языковой обработки и когнитивного картирования, способных интуитивно понимать изменчивую структуру и масштаб мира в рамках единой общей модели.
Что действительно разочаровывает, так это то, что газета в Nature находится за стеной платных, и ее чтение будет стоить от 4,99 до 32 долларов.