Дэвид Сильвер, наиболее известный по AlphaGo, является последним лауреатом премии ACM в области вычислительной техники. Она присуждается за его прорывные достижения в области компьютерных игр и вклад в «растущую и эффективную область глубокого обучения с подкреплением».
Основанная в 2007 году, когда она была известна как премия Фонда ACM-Infosys в области компьютерных наук, премия ACM в области вычислительной техники признает:
фундаментальный инновационный вклад в вычислительную технику на раннем и среднем этапах карьеры, который благодаря своей глубине, влиянию и широким последствиям является примером величайших достижений в этой дисциплине.
Премия присуждается в размере 250 000 долларов США при финансовой поддержке Infosys Ltd.
Дэвид Сильвер-профессор Лондонского университетского колледжа и главный научный сотрудник DeepMind, лондонской компании искусственного интеллекта, принадлежащей Google с 2014 года. В нашем отчете о приобретении Google покупает Недоказанную ИИ-компанию, о которой мы спекулировали:
Возможно, лучшим ключом к пониманию того, что могло заинтересовать Google в компании, является недавняя статья, опубликованная командой, работающей в DeepMind, в которой демонстрируется использование глубокой нейронной сети для игры в ряд игр Atari 2600, включая Breakout.
Ссылаясь на эту статью, написанную в соавторстве с Дэвидом Сильвером, Майк Джеймс написал:
Что нового в этой работе, так это то, что она использует не контролируемое или неконтролируемое обучение для обучения сети, а обучение с подкреплением. Сеть обучается с использованием модифицированной формы Q-обучения, которая является единственным допустимым подходом к машинному обучению с подкреплением. В этом случае машине не говорят, насколько хорошо она справляется с каждым ходом или просто остается найти закономерности в данных, которые она изучает, в соответствии с вознаграждением, которое она получает во время игры, и особенно в конце, когда она получает вознаграждение за выигрыш/проигрыш.
Это «глубокое обучение с подкреплением», которое Сильвер и команда, которую он возглавляет, начали с Atari Games, а затем продолжили разработку с помощью AlphaGo, алгоритма, который объединил идеи глубокого обучения, обучения с подкреплением, традиционного поиска по дереву и крупномасштабных вычислений и прославился тем, что победил Ли Сидола в телевизионном матче 2016 года «человек против машины», AlphGo побеждает лучшего в мире игрока в Го, которым все еще можно наслаждаться в виде свободно доступного видео. Для нашего объяснения важности этого прорыва см. Почему AlphaGo Меняет Все.
Следующий год ознаменовался будущим саммита Go в Китае, на котором AlphaGo взяла верх и одержала победу в нескольких показательных матчах. Он также увидел официальную отставку машины в качестве конкурентоспособного игрока, объявленную в блоге Деми Хассабиса, генерального директора DeepMind и Дэвида Сильвера, в котором они сказали::
Серия захватывающих игр на этой неделе с лучшими игроками мира в стране, где возник Go, стала самой высокой возможной вершиной для AlphaGo в качестве соревновательной программы. По этой причине будущее Go Summit-это наш финальный матч с AlphaGo.
Исследовательская группа, стоящая за AlphaGo, теперь направит свою энергию на следующий набор грандиозных задач, разрабатывая передовые общие алгоритмы, которые однажды могут помочь ученым в решении некоторых из наших самых сложных проблем, таких как поиск новых лекарств от болезней, резкое снижение потребления энергии или изобретение революционных новых материалов. Если системы искусственного интеллекта докажут, что они способны открыть значительные новые знания и стратегии и в этих областях, прорывы могут быть поистине замечательными.
Вскоре выяснилось, что AlphaGo был всего лишь ступенькой. Он был инициализирован обучением экспертным человеческим играм с последующим обучением подкреплению для повышения его производительности. Чтобы добиться большей производительности и общности, Сильвер продолжил разработку алгоритма AlphaZero, который полностью учился, играя в игры против самого себя, начиная без каких-либо человеческих данных или предварительных знаний, кроме правил игры. Как сообщается в книге DeepMind «AlphaZero Triumphs At Chess», новый алгоритм достиг сверхчеловеческой производительности в играх в шахматы, Сеги и Го, продемонстрировав беспрецедентную общность методов игры.
Недавно мы сообщили о прорывах, сделанных командой Дэвида Сильвера в применении алгоритма AlphaGo/AlphaZero к другим проблемам,см. Прорыв в структуре белка AlphaFold DeepMind для отчета о его применении в области биологии.
Комментируя присуждение премии ACM в области вычислительной техники в 2019 году Дэвиду Сильверу, президент ACM Черри М. Блин сказал::
«Немногие другие исследователи вызвали такой ажиотаж в области искусственного интеллекта, как Дэвид Сильвер. Состязания между людьми и машинами уже давно стали мерилом для ИИ. Миллионы людей по всему миру наблюдали, как AlphaGo победил чемпиона мира по Го Ли Седола по телевидению в марте 2016 года. Но это было только начало воздействия Сильвера. Его идеи в области глубокого обучения с подкреплением уже применяются в таких областях, как повышение эффективности энергосистемы Великобритании, снижение энергопотребления в центрах обработки данных Google и планирование траекторий космических зондов для Европейского космического агентства.»
Планируется, что Сильвер официально получит премию ACM в области вычислительной техники на ежегодном банкете ACM awards 20 июня 2020 года в Сан-Франциско, штат Калифорния, вместе с победителями других наград ACM.