У Google есть еще один прорыв в области искусственного интеллекта, и он достаточно велик для статьи в Nature — так о чем именно?
Когда Google купил DeepMind, казалось, что он действовал исходя из веры в то, что из этого может получиться что-то хорошее. Было много расплывчатых разговоров о том, что ИИ делает большой шаг вперед, создавая новые способы работы — такие разговоры часто делают ИИ дурной славой. Оказывается, DeepMind выдвинул как минимум две хорошие идеи, но они не революционны. Это просто шаги, заметьте, хорошие шаги, по тому же пути, по которому ИИ шел некоторое время.
Не будет большим сюрпризом, если я скажу вам сейчас, что здесь задействована нейронная сеть. Но другой компонент — Q Learning, возможно, заставит вас броситься в Википедию. Важным фактом является то, что Q Learning является частью стандартного канона обучения с подкреплением.
Обычно говорят, что существует три основных типа обучения — контролируемое, неконтролируемое и подкрепление, но между всеми тремя есть оттенки серого.
Ключевым элементом обучения с подкреплением является то, что система что-то делает, и вместо того, чтобы ей сказали, что она должна была сделать — обучение с учителем или вообще ничего не сказать — обучение без учителя, она получает вознаграждение. Вознаграждение может быть искусственно получено руководителем, который оценивает, насколько хорошо работает система, или оно может быть естественной частью задачи. Животные, в том числе люди, много обучаются с подкреплением и, вообще говоря, получают вознаграждение, если поступают правильно, и наказание, если поступают неправильно.
Обычно мы моделируем обучение с подкреплением, используя набор состояний и действий. Действия переводят систему из одного состояния в другое, обычно с некоторой вероятностью, и в результате перемещения система получает награду — числовое значение. Поскольку система работает медленно, она формирует представление о ценности или качестве каждого действия и состояния, а затем может выбирать действия, которые максимизируют ее вознаграждение.
Как видите, существует множество возможных стратегий. Вы можете совершать случайные действия, пока не обнаружите ценность каждого состояния, это фаза исследования. Затем вы можете использовать эту информацию, чтобы получить самое большое вознаграждение — фазу эксплуатации. Однако в большинстве случаев лучше сочетать две стратегии, чтобы получить максимальное вознаграждение как можно быстрее.
Что вам нужно, так это оценка качества каждого действия и состояния, и это то, что такое Q-обучение. Это оценка качества состояния с использованием текущего вознаграждения и ваших текущих знаний об оценках качеств всех штатов, которые вы посетили до сих пор.
Проблема в том, что в принципе может быть много-много состояний, и вам придется вести очень большую таблицу всех значений, которые вы оценили на сегодняшний день. Лучше использовать нейронную сеть, чтобы изучить таблицу и найти шаблоны состояний и действий, которые работают.
Это то, что сделала команда DeepMind, и они соединили это с рядом классических аркад. Все нейронные сети имеют на входе пиксели экрана. Система может выбрать действие из набора разрешенных игровых ходов. Единственное руководство о том, как играть в игру, — это обратная связь, которую он получает через счет, то есть оценка используется в качестве награды в обучении с подкреплением.
Таким образом, нейронная сеть сочетает в себе глубокую нейронную сеть и Q-обучение и поэтому называется DQN.
Применение DQN к ряду хорошо известных аркадных игр дало производительность, которая была оценена как лучшая, чем у профессионального тестировщика игр на наборе из 49 игр.
Синие столбцы показывают, насколько хорош DQN по сравнению с человеком-экспертом со 100% -ным значением, таким же хорошим, как и у человека.
Серые полосы на диаграмме показывают, насколько хорошо работает традиционная программа Q-обучения, основанная на аппроксиматоре линейных функций. Один из оставшихся без ответа вопросов — почему DQN не справился с задачами, в которых старый аппроксиматор линейных функций работал хорошо.
Важным моментом является то, что во всех играх использовалась одна и та же нейронная сеть и одни и те же методы обучения, что делает подход очень общим. Конечно, в играх не наблюдалось большого разнообразия шрифтов. У нас есть шутеры с боковой прокруткой, бокс, 3D-автогонки, космические захватчики и прорыв, но нет игр на логику или стратегию.
То, как система обнаруживает, казалось бы, сложные стратегии, можно проиллюстрировать тем, как она учится пробивать дыру в стене в Breakout, чтобы получить высокий балл, отскакивая мячом на заднем ряду. Это весело, но обратите внимание, что все, что он сделал, — это нашел набор действий, за который есть высокая награда — здесь нет ничего страшного.
Это хорошая работа, но она не является революционной, поскольку многие аккаунты создают ее. Все элементы работы были стандартными методами искусственного интеллекта в течение нескольких лет. Они даже использовались вместе примерно одинаковым образом.
Также интересно то, что в некоторых играх подход DQN не очень хорошо работает. Что в них особенного? Я предполагаю, что у всех у них были награды, которые не особенно хорошо соотносились с отдельными действиями, что делало проблему присвоения кредита слишком сложной.
Хорошая работа, но еще не прорыв и слишком много шумихи.