Соревновательная игра с самими собой хорошо тренирует ИИ


OpenAI дает некоторые результаты, которые интересны, даже если вы не являетесь экспертом в области искусственного интеллекта. Настройте агентов ИИ, чтобы они играли друг против друга, и они спонтанно изобретают отбор, уклонение, симуляцию и ныряние — просто посмотрите видео.

OpenAI, похоже, разрабатывает свой собственный подход к этому предмету. Он специализируется на форме обучения с подкреплением, которая включает самостоятельную игру.
«Мы организовали соревнования между несколькими смоделированными трехмерными роботами в различных базовых играх, обучили каждого агента простым целям (вытолкнуть противника из ринга сумо, добраться до другой стороны ринга, не позволяя другому агенту сделать то же самое, ударить по мячу в сетку или помешать другому агенту сделать это и т. д.), а затем проанализировали различные возникшие стратегии «.
Чтобы получить какое-то начало обучения, сначала роботов награждают за простые достижения, такие как стоять и двигаться вперед, но постепенно награда корректируется, чтобы полностью зависеть от победы или поражения. Это все, что получают роботы в процессе обучения, и ни один учитель не показывает им, как себя вести. Что удивительно, так это то, что даже с простыми вознаграждениями роботы вырабатывают то, что нам кажется стратегией.

Роботы участвуют в четырех играх с контактами — «Беги к цели», «Ты не сможешь пройти», «Сумо» и «Ударь и защищайся»:

Также кажется, что некоторые из приобретенных навыков можно перенести в другие ситуации. Например, было обнаружено, что роботы-сумо могут вставать, когда их ударяет ветер. В отличие от этого роботы, которых просто обучили ходить с помощью классического обучения с подкреплением, как правило, сразу падали.
Если вы думаете, что все это выглядит интересно или забавно, вы можете получить весь код (на Python и с использованием TensorFlow) на странице проекта GitHub. В блоге OpenAI также говорится:
Если вы хотите работать над системами самостоятельной игры, мы приглашаем вас!

На этом проект не останавливается:
«Мы представили несколько новых конкурентных многоагентных трехмерных физически смоделированных сред. Мы демонстрируем развитие очень сложных навыков в простых средах с простыми вознаграждениями. В будущей работе было бы интересно проводить более масштабные эксперименты в более сложных средах, которые поощряют агентов чтобы соревноваться и сотрудничать друг с другом ».
Лично я думаю, что такого рода исследования достигают точки, когда было бы неплохо увидеть некоторые физические реализации в ближайшем будущем.


Добавить комментарий