Мы все еще находимся на очень ранней стадии нашего понимания глубокого обучения с подкреплением, и один из важных вопросов — как исследовать возможный диапазон действий. Некоторые новые результаты Deep Mind предполагают, что это может быть проще, чем мы думали.
Прошло чуть больше двух лет с тех пор, как Deep Mind объявила о том, что обучила нейронную сеть игре в игры Atari — DeepMind от Google учится играть в аркадные игры. Что было особенным в достижении, так это то, что входом в нейронную сеть были только пиксели, составляющие игру, и единственное руководство, которое получила сеть, — это сигнал вознаграждения, генерируемый выигрышем или проигрышем. Обучение с подкреплением — это способ обучения большинства живых существ. Мы делаем больше вещей, которые приносят удовлетворение, и меньше дел, которые приносят меньше удовольствия.
Глубокое обучение с подкреплением, вероятно, окажет наибольшее влияние из всех методов искусственного интеллекта, потому что в этом случае нам даже не нужно выяснять, что должна делать сеть. Нам не нужно указывать его результаты и обучать его производить их. Все, что нам нужно сделать, это позволить сети заняться задачей и применить полученные в результате вознаграждения. Сеть будет придумывать собственные действия, чтобы получить максимально возможное вознаграждение.
Единственная проблема заключается в том, что если алгоритм должен просто двигаться в направлении текущего максимального вознаграждения — так называемый жадный алгоритм — тогда возможный диапазон действий не будет исследован, и сеть почти наверняка окажется в неоптимальном состоянии. . Он максимизирует награды, которые можно получить с помощью своей первоначальной стратегии, но я могу найти гораздо лучшую стратегию.
Исследователи обучения с подкреплением испробовали всевозможные методы, в основном связанные с предложением дополнительных вознаграждений за новое поведение, но теперь исследование Deep Mind предполагает, что немного случайности может быть всем, что нужно. Это объясняется в новой статье Мейре Фортунато, Мохаммада Гешлаги Азара, Билала Пиота, Джейкоба Меника, Яна Осбанда, Алекса Грейвса, Влада Мниха, Реми Муньоса, Демиса Хассабиса, Оливье Пьетквина, Чарльза Бланделла и Шейна Легга. Однако это не случайность случайного блуждания пьяницы, а нечто более направленное. Идея состоит в том, чтобы использовать случайные возмущения в весах нейронных сетей. Это означает, что система будет исследовать действия, которые близки к действиям, которые, как известно, приносят вознаграждение. Второе нововведение — использование метода обучения для определения необходимого количества шума. Это типично для общего подхода Deep Mind «все должно быть дифференцируемым и, следовательно, оптимизируемым».
Результаты впечатляют:
«Мы представили общий метод исследования глубокого обучения с подкреплением, который показывает значительное улучшение производительности во многих играх Atari в трех разных архитектурах агентов. В частности, мы наблюдаем, что в таких играх, как Asterix и Freeway, стандартные DQN и A3C плохо сравниваются с человеческим игроком, NoisyNet-DQN и NoisyNet-A3C достигают сверхчеловеческой производительности ».