Microsoft Research улучшает ИИ в играх


Microsoft Research объявила о нескольких улучшениях в использовании обучения с подкреплением в играх. Усовершенствования включают разработку игровых агентов, которые учатся сотрудничать в командах с игроками-людьми.

Первым объявлением от Microsoft Research является проект Padia, результат сотрудничества Microsoft Research Cambridge и Ninja Theory. Есть надежда, что Падиа позволит создавать агентов, которые научатся сотрудничать с игроками-людьми.

Исследователи говорят, что традиционные методы программирования требуют, чтобы разработчик предвидел все возможные игровые ситуации и то, что игровые персонажи должны делать в этих ситуациях. Если вы используете обучение с подкреплением, в этом нет необходимости. Вместо этого разработчики управляют сигналом вознаграждения, который игровой персонаж затем учится оптимизировать, реагируя на то, что происходит в игре. Результат
«детализированная ситуация и непредвиденное поведение, которое было бы сложно или непозволительно достичь с помощью традиционного игрового ИИ»

Целью проекта Paidia является сотрудничество с игроками-людьми. Исследователи говорят, что из-за того, что игроки-люди известны своей творческой способностью и их трудно предсказать, настоящее сотрудничество для достижения общих целей очень затруднено. Команда использует последнюю игру Ninja Theory, Bleeding Edge, чтобы проверить свою работу, поскольку она основана на команде и включает в себя ряд персонажей, которые должны работать вместе, чтобы набирать очки и побеждать своих противников. В своей последней демонстрации команда демонстрирует, как обучение с подкреплением позволяет агентам научиться координировать свои действия.
Первая область, которую изучает проект, — это как сделать обучение с подкреплением эффективным и надежным для разработчиков игр (например, сочетая его с оценкой неопределенности и имитацией). Они также рассматривают, как создавать архитектуры глубокого обучения, которые дают агентам нужные способности. такие как долговременная память, и как задействовать агентов, которые могут быстро адаптироваться к новым игровым ситуациям.
Оценка неопределенности использует версию случайной сетевой дистилляции (RND) для оценки достоверности модели глубокого обучения. Используемая версия RND поддерживает модель неопределенности, отдельную от модели, делающей прогнозы, с двумя типами нейронных сетей: прогнозирующей и априорной. Грубо говоря, разрыв между предшествующим и предсказывающим является хорошим показателем того, насколько уверенной должна быть модель в отношении своих результатов.
Вторая часть исследования направлена на то, чтобы помочь агентам вспомнить предметы, места и других игроков, которые в настоящее время находятся вне поля зрения, но были замечены ранее в игре. Третья область исследований предназначена для того, чтобы агенты лучше обучались и адаптировались к новым задачам, таким как исследование неизвестных сред с помощью байесовского адаптивного глубокого RL и метаобучения. Все исследовательские работы с описанием работы доступны для скачивания.


Добавить комментарий