До сих пор нейронная сеть работала по так называемой схеме контролируемого обучения, которая снабжала ее миллионами предварительно классифицированных данных, в результате чего нейронные сети изучали только то, что мы им приказывали.
Но есть еще одна техника — обучение с подкреплением, когда вы позволяете ИИ самому обнаруживать, что он должен делать, без предварительного знания его окружения или каких-либо других данных, переданных ему.
Microsoft была одной из первых, кто применил эту технику в игровой среде, пытаясь заставить персонажа Minecraft подняться на виртуальный холм в так называемом AIX Minecraft Project. Здесь вы позволяете алгоритму исследовать мир Minecraft, в который он был брошен, позволять ему свободно перемещаться и взаимодействовать с окружением, и заставляете его учиться, награждая его, когда он делает что-то правильно, чтобы он понимал цель игры, цель, к которой он должен стремиться. Конечно, для нас, людей, легко понять, что мы должны взобраться на этот холм или что когда Супер Марио касается тролля, он мгновенно умирает; но не так для алгоритма. Его сила, напротив, заключается в том, что он может испробовать миллиард комбинаций за микросекунду, чтобы обнаружить то же самое, что интуитивно люди уже обладали.
Таким образом, для алгоритма это невинное восхождение на холм более или менее эквивалентно сбросу Bear Grylls с канала Discovery Channel на удаленный и изолированный остров, которому нужно выжить только с компасом и веревкой, а затем необходимо взаимодействовать с окружающей средой и изобретать свой выход, просто полагаясь на свой опыт и интуицию.
OpenAI Universe не только строит, но и расширяет эту идею, предоставляя «Вселенную», наполненную компьютерными играми и набором инструментов под названием Gym, который позволяет ИИ взаимодействовать со Вселенной привычным для людей способом с помощью мыши и клавиатуры.
(Редактор: Universe устарел и заменен Gym Retro, который позволяет превращать классические видеоигры в тренажерный зал для обучения с подкреплением и поставляется с интеграцией для ~ 1000 игр — https://github.com/openai/retro)
Таким образом, благодаря этому простому интерфейсу агент может взаимодействовать, не требуя эмулятора или доступа к внутренним компонентам программы, поэтому он может играть в любую компьютерную игру, взаимодействовать с терминалом или просматривать веб-страницы.
Конечная цель:
«обучать системы искусственного интеллекта всему спектру задач или любой задаче, которую человек может выполнить с помощью компьютера, тем самым позволяя обычно интеллектуальным агентам выполнять широкий набор задач, чтобы они могли развивать мировые знания и стратегии решения проблем, которые могут быть эффективно повторно использованы в новое задание.»
Это еще одна попытка в нынешней тенденции раздвинуть границы общего ИИ, поскольку достижения в этой области будут иметь гораздо более широкое влияние на общество и отрасль в целом, в отличие от узкого ИИ, который занимается определенным видом. задач.
Это то, что Watson в последнее время собирается делать с Project Intu, цель которого:
«преобразование транзакции, которая происходит между человеком-оператором и машиной, будь то устройство, робот или что-либо еще, способное переносить интеллектуальный программный агент, в состояние разговора или более глубокого взаимодействия»,
или короче вести себя как человек. Но, опять же, для этого ИИ должен уметь действовать в целом, учиться сам по себе и уметь переносить знания, полученные от одного опыта к другому.
Следующим шагом будет обретение общего ИИ здравого смысла, но для этого ему сначала нужна способность предсказывать, а это произойдет только в состоянии неконтролируемого обучения, а не в рамках текущего контролируемого обучения, которое использует людей для аннотировать данные, с которыми работают машины. Это то, над чем Янн ЛеКун и его команда в Facebook работают над своим программным обеспечением для прогнозирования видео. В случае с Universe и Gym варианты использования выходят за рамки, поскольку ИИ может выполнять сложные задачи, такие как поиск вещей, которых он не знает в Интернете, управление электронной почтой или календарем, выполнение онлайн-классов или даже получение инструкций и выполнить последовательность действий на веб-сайте, например предоставить агенту информацию о рейсе, а затем наблюдать за ней, манипулируя пользовательским интерфейсом для поиска рейса.
Конечно, другим вариантом использования будет тренировка его для ведения войны, поскольку тренажерный зал не столкнется с проблемами при быстром ознакомлении с элементами управления имитатора полета, как описано в статье «Достижение автономного ИИ ближе, чем мы думаем», где ИИ летают бок о бок с людьми. пилоты.
Инструментарий OpenAI Gym, а также Universe выпущены на Github с открытым исходным кодом, а все, что требуется для их использования, — это сначала создать агента в Gym, затем импортировать его и среду Universe, а затем вызвать доступную игру, процедуру этого можно достичь с помощью следующих нескольких строк кода Python:
импортный тренажерный зал
import universe # регистрируем среды юниверса
env = gym.make (‘flashgames.DuskDrive-v0’)
env.configure (пульты = 1)
наблюдение_n = env.reset ()
в то время как True:
# ваш агент генерирует action_n со скоростью 60 кадров в секунду
action_n = [[(‘KeyEvent’, ‘ArrowUp’, True)] для ob в наблюдении_n]
наблюдение_n, reward_n, done_n, info = env.step (action_n)
env.render ()