Последняя программа DeepMind, AlphaZero, использовала обучение с подкреплением в игре против самого себя, чтобы овладеть игрой в шахматы. Учитывая важную роль, которую шахматы сыграли в информатике, это большой прорыв для нейронных сетей.
Еще в марте 2016 года Майк Джеймс объяснил, почему AlphaGo меняет все, и теперь мы можем повторить мнение в отношении AlphaZero, последней в линейке программ от DeepMind.team.
Информация об AlphaZero появилась в опубликованной на этой неделе статье, написанной Дэвидом Сильвером, Томасом Хьюбертом, Джулианом Шриттвизером и другими членами DeepMind, включая ее основателя и генерального директора Демиса Хассабиса. Самая важная деталь заключается в том, что AlphaZero — это полностью общий алгоритм, который:
заменяет созданные вручную знания и специфические для предметной области дополнения, используемые в традиционных игровых программах, на глубокие нейронные сети и алгоритм обучения с подкреплением tabula rasa.
Алгоритм AlphaZero применялся к шахматам, сёги (японская версия шахмат, играемых на большой доске) и го, насколько это возможно, одинаковые настройки алгоритма, сетевая архитектура и гиперпараметры использовались для всех трех игр, каждая из которых использовалась. отдельный экземпляр AlphaZero. Начиная с случайной игры и не имея никаких знаний в предметной области, кроме правил игры, AlphaZero убедительно победила программу чемпиона мира в каждой игре, Stockfish для шахмат, Elmo для сёги и две версии AlphaGo, в течение 24 часов, используя самостоятельную игру. обучение с подкреплением.
(щелкните диаграммы, чтобы увеличить)
На диаграммах выше показан рейтинг Эло (т. Е. Относительный уровень навыков игроков в играх «конкурент против конкурента»), достигнутый за количество шагов. Он показывает типичную кривую обучения для обучения с подкреплением: быстрое улучшение, за которым следует плато.
В документе уточняется:
В шахматах AlphaZero превзошла Stockfish всего за 4 часа (300 тысяч шагов); в сеги AlphaZero превзошла Elmo менее чем через 2 часа (110 тыс. шагов); а в Go AlphaZero превзошла AlphaGo Lee через 8 часов (165 тыс. шагов).
В 50 партиях игры белыми в шахматы AlphaZero выиграла 25 партий и сыграла вничью в остальных 25; играя черными, он записал на свой счет 3 победы и 47 ничьих.
Мы рады этому?
А как насчет того времени, которое было потрачено на альфа / бета алгоритмы отсечения и эвристику для оценочных функций. Теперь мы можем их выбросить — и не только в шахматы. Поскольку это общий алгоритм, его можно применить к другим сценариям. Пока вычислительные мощности доступны для интересующей нас области, просто начните с tabula rasa и позвольте обучению с подкреплением взять верх.
Но да, мы, конечно, счастливы. Искусственный интеллект сделал поразительные успехи всего за несколько лет, и есть надежда, что он сможет решать действительно сложные проблемы. Это еще не все, что нам нужно, и еще есть над чем поработать и изобрести, но способность нейронных сетей фиксировать иерархическую структуру, получая только вознаграждение за руководство, выходит далеко за рамки того, что мы могли ожидать совсем недавно. У нас еще нет искусственного интеллекта, но мы собираем компоненты и видим, как наконец появляются основные инструменты.