DeepMind раскрыл подробности последней эволюции компьютерной программы, которая играет в древнюю китайскую настольную игру с черными и белыми камнями. В отличие от предыдущих версий. которые были обучены на данных из игр людей, AlphaGo Zero начинала без каких-либо предварительных знаний и училась, просто играя в себя.
AlphaGo Zero продвигалась быстро. Всего через три дня игры он превзошел возможности версии AlphGo, победившей 18-кратного чемпиона мира Ли Седола в марте 2015 года. Через три недели он достиг уровня AlphaGo Master, версии, которая, как таинственный игрок, победила. 60 профессионалов онлайн в начале 2017 года, а затем победили чемпиона мира Ке Цзе со счетом 3: 0 в мае 2017 года. Через 40 дней он достиг последней вехи в этом графике, когда он смог превзойти все другие версии AlphaGo и, следовательно, Go игрок с наивысшим рейтингом Эло.
В этом видео Дэвид Сильвер, ведущий исследователь в команде DeepMind AlphaGo, объясняет, как успех программ был достигнут благодаря тому, что они начали, совершенно не имея представления о том, как играть в игру, и учились с нуля, всегда играя с идеально подобранным противником — самим собой — и развивая более принципиальные принципы. алгоритмы в результате:
Идея о том, что AlphaGo Zero — это собственный учитель, который начинает с нейронной сети, которая ничего не знает об игре Go, является его новой особенностью. Он продолжает использовать обучение с подкреплением и объединяет свою нейронную сеть с мощным поисковым алгоритмом. Во время воспроизведения нейронная сеть настраивается и обновляется, а затем обновленная нейронная сеть рекомбинируется с алгоритмом поиска для создания новой, более сильной версии. На каждой итерации производительность системы улучшается на небольшую величину, а качество игр с самостоятельным воспроизведением увеличивается, что приводит к появлению все более точных нейронных сетей и все более сильных версий AlphaGo Zero.
Согласно сообщению в блоге DeepMind:
Этот метод более мощный, чем предыдущие версии AlphaGo, потому что он больше не ограничен рамками человеческих знаний. Вместо этого он может изучать tabula rasa у самого сильного игрока в мире: самого AlphaGo.
Система также более эффективна, чем предыдущие версии:
Как мы уже сообщали, карьера AlphaGo как игрока в го закончилась. Как говорит Дэвид Сильвер в конце этого видео, продемонстрировав, насколько многого можно достичь в такой сложной области, как Go, пришло время применить его в реальном мире для решения самых сложных и серьезных проблем, с которыми сталкивается человечество.
Похожая идея выражена в статье Дэвида Сильвера и большого числа соавторов, включая Демиса Хассабиса, которая была опубликована в журнале Nature:
Go во многих отношениях является образцом трудностей, с которыми сталкивается искусственный интеллект: сложная задача принятия решений, неразрешимое пространство поиска и оптимальное решение, настолько сложное, что кажется невозможным напрямую аппроксимировать его с помощью функции политики или ценности. Предыдущий крупный прорыв в компьютерном Go, введение MCTS (поиск по дереву по методу Монте-Карло), привело к соответствующим достижениям во многих других областях; например, общая игра, классическое планирование, планирование с частичным соблюдением, планирование и удовлетворение ограничений. Объединив поиск по дереву с политиками и сетями ценностей, AlphaGo наконец-то достигла профессионального уровня в Go, вселяя надежду, что производительность человеческого уровня теперь может быть достигнута в других, казалось бы, неразрешимых областях искусственного интеллекта.