OpenAI Gym дает тренировку для обучения с подкреплением


Когда ранее в этом году было объявлено об OpenAI, инициативе ИИ с открытым исходным кодом, поддерживаемой Илоном Маском, Сэмом Альтманом и Ильей Суцкевер, я сомневаюсь, что кто-то ожидал, что что-то будет произведено так быстро, и уж точно не что-то, связанное с обучением с подкреплением. OpenAI Gym — это то, на что это похоже — тренажерный зал для обучения с подкреплением.

После успеха обучения Deep Q Deep Mind в играх и, в частности, го, предмет обучения с подкреплением (RL) превратился из академической глуши в передовой ИИ.
Большая проблема в том, что обучение с подкреплением сложно охарактеризовать. Проще говоря, RL-система учится не благодаря тому, что ей говорят, насколько она близка к желаемому результату, а путем получения вознаграждения в зависимости от своего поведения. Конечно, именно так мы учимся, и если его можно заставить работать эффективно, это обещает нам не только эффективный ИИ, но и новые знания. Например, AlphaGo научилась играть в го и в процессе открыла для себя подходы к игре, которые люди игнорировали.
OpenAI утверждает, что RL сдерживается:

Потребность в лучших тестах. В контролируемом обучении прогресс был обеспечен большими помеченными наборами данных, такими как ImageNet. В RL ближайшим эквивалентом будет большой и разнообразный набор сред. Однако существующие коллекции сред RL с открытым исходным кодом недостаточно разнообразны, и их часто сложно даже настроить и использовать.
Отсутствие стандартизации сред, используемых в публикациях. Незначительные различия в определении проблемы, такие как функция вознаграждения или набор действий, могут кардинально изменить сложность задачи. Этот выпуск затрудняет воспроизведение опубликованных исследований и сравнение результатов из разных статей.

Мотивация OpenAI Gym состоит в том, чтобы предоставить набор сред, в которых можно тестировать различные программы RL. Это:

Классический контроль и игрушечный текст: выполняйте небольшие задания, в основном из литературы по RL. Это те, о которых вы читаете в литературе — балансировка полюсов и тому подобное.
Алгоритмический: выполнение вычислений, таких как добавление многозначных чисел и изменение последовательностей.
Atari: играйте в классические игры Atari.
Настольные игры: играйте в Go на досках 9×9 и 19×19. В этом выпуске есть фиксированный оппонент, основанный на хорошем алгоритмическом методе.
2D и 3D роботы: управляйте симуляцией робота, используя точную физику.

На данный момент вы можете подключить свою систему RL к тренажерному залу с помощью Python. Конечно, необходимо сопоставить систему RL с окружающей средой — как сказано в документации:
«Мы обеспечиваем среду; вы предоставляете алгоритм.
Вы можете написать свой агент, используя существующую библиотеку численных вычислений, такую как TensorFlow или Theano ».
Идея состоит в том, чтобы собрать и обработать набор результатов, которые показывают, насколько хорошо разные подходы делают обобщение своих результатов.
Приятно видеть, что имитация с открытым исходным кодом делает нечто иное, чем просто воспроизводит то, что делается в мире закрытого программного обеспечения. Для OpenAI было бы очень легко создать собственный Tensorflow или альтернативу, но OpenAI Gym является новым и необходимым.


Добавить комментарий