OpenAI запустила конкурс по обучению передаче с использованием серии игр Sonic The Hedgehog для SEGA Genesis. Задача состоит в том, чтобы создать лучший агент для воспроизведения пользовательских уровней игр Sonic — без доступа к этим уровням во время разработки.
В конкурсе используется Gym Retro, оболочка для ядер эмуляторов видеоигр, которая включает поддержку нескольких классических игровых консолей и набор данных различных игр, включая 30 игр SEGA Genesis.
Gym Retro — это попытка OpenAI второго поколения создать большой набор данных обучающих сред с подкреплением. Он основан на Юниверсе, о котором мы сообщали, когда он был выпущен в 2016 году, который, поскольку его среды работали асинхронно, мог работать только в режиме реального времени и страдал от ненадежности из-за обнаружения состояния игры на экране. Gym Retro расширяет модель аркадной обучающей среды на гораздо больший набор потенциальных игр.
Представляя конкурс, блог OpenAI объясняет:
В типичных исследованиях RL алгоритмы тестируются в той же среде, где они были обучены, что благоприятствует алгоритмам, которые хорошо запоминаются и имеют много гиперпараметров. Вместо этого наш конкурс тестирует алгоритм на ранее невидимых уровнях видеоигр.
Кредит: блог OpenAI
Конкурс, который открылся 5 апреля и продлится до 5 июня, предоставляет обучающий набор уровней из игр Sonic The Hedgehog и оценивает алгоритмы участников на тестовом наборе пользовательских уровней, созданных для конкурса. Чтобы помочь вам начать работу, OpenAI выпустила несколько алгоритмов RL, которые вы можете настроить в репо retro-baselines на GitHub.
Как вы можете видеть из базовых результатов, алгоритмы RL значительно ниже производительности человека — красная пунктирная линия — даже несмотря на то, что человек играл в течение одного часа против восемнадцати для алгоритмов.
Некоторые из базовых результатов и новый эталонный показатель, предназначенный для измерения эффективности обучения передаче и алгоритмов обучения с несколькими выстрелами в области RL, подробно описаны в техническом документе Open AI.
Для участия в конкурсе вам необходимо зарегистрироваться в OpenAI, а также иметь имя пользователя и пароль Steam. Подробная информация о настройке Gym Retro и создании простого агента на Python приведена на странице конкурса Ретро. В настоящее время у лидера есть два кластера баллов — пять команд с баллами около 3700 и еще 15-около 13 500. Но через восемь недель все еще нужно играть — или, по крайней мере, тренироваться.
Есть две категории наград: «Лучший результат» и «Лучшая работа». Чтобы иметь право на победу, вы должны опубликовать свою заявку с открытым исходным кодом в конце конкурса. Победители, занявшие 1-е, 2-е и 3-е места в каждой категории, получат трофей. Кроме того, будет разыграна единая награда за «Лучшие вспомогательные материалы». Все победители будут приглашены в соавторстве с OpenAI написать технический отчет о конкурсе.