Согласно новому исследованию компьютерных ученых USC, чтобы помочь роботу добиться успеха, вам, возможно, потребуется проявить к нему некоторую жесткую любовь.
В компьютерной моделировании манипуляции исследователи обнаружили, что обучение робота с человеком-противником значительно улучшило его понимание объектов.
«Это первая попытка обучения роботов с использованием злоумышленников-людей», — сказал соавтор исследования Стефанос Николаидис, доцент кафедры информатики.
«Представьте себе это как спорт: если вы играете в теннис с кем-то, кто всегда позволяет вам побеждать, вам не станет лучше. То же самое с роботами. Если мы хотим, чтобы они научились задаче манипулирования, такой как хватание, чтобы они могли помочь людям, нам нужно бросить им вызов ».
Исследование «Обучение роботов через состязательные игры людей» было представлено 4 ноября на Международной конференции по интеллектуальным роботам и системам. Аспиранты Университета Калифорнии Цзяли Дуань и Цянь Ван являются ведущими авторами, советником которых является профессор К. С. Джей Куо, а также соавтор Леррел Пинто из Университета Карнеги-Меллона.
Учимся на практике
Николаидис, который присоединился к инженерной школе Университета Калифорнии в Витерби в 2018 году, и его команда используют обучение с подкреплением — технику, с помощью которой программы искусственного интеллекта «учатся» на повторяющихся экспериментах.
Вместо того, чтобы ограничиваться выполнением небольшого набора повторяющихся задач, таких как промышленные роботы, роботизированная система «учится» на основе предыдущих примеров, теоретически увеличивая круг задач, которые она может выполнять.
Но создание универсальных роботов — задача, как известно, отчасти из-за необходимого количества обучения. Роботизированным системам необходимо увидеть огромное количество примеров, чтобы научиться манипулировать объектом по-человечески.
Например, впечатляющая роботизированная система OpenAI научилась собирать кубик Рубика гуманоидной рукой, но для того, чтобы научиться управлять кубиком, потребовалось 10 000 лет имитационного обучения.
Что еще более важно, ловкость робота очень специфична. Без обширного обучения он не может брать объект, манипулировать им другим хватом или захватывать и обрабатывать другой объект.
«Как человек, даже если я знаю местоположение объекта, я не знаю точно, сколько он весит, как он будет двигаться или вести себя, когда я поднимаю его, но мы делаем это успешно почти всегда, «сказал Николаидис.
«Это потому, что люди очень интуитивно понимают, как себя ведет мир, а робот похож на новорожденного ребенка».
Другими словами, робототехнические системы трудно обобщить, а люди считают этот навык само собой разумеющимся. Это может показаться тривиальным, но может иметь серьезные последствия. Если вспомогательные роботизированные устройства, такие как захватывающие роботы, должны выполнить свое обещание по оказанию помощи людям с ограниченными возможностями, роботизированные системы должны иметь возможность надежно работать в реальных условиях.
Человек в курсе
Одно направление исследований, которое было весьма успешным в преодолении этой проблемы, — это «человек в курсе». Другими словами, человек обеспечивает обратную связь с роботизированной системой, демонстрируя способность выполнить задачу.
Но до сих пор эти алгоритмы основывались на сильном предположении о взаимодействии человека-супервизора, помогающего роботу.
«Я всегда работал над взаимодействием человека и робота, но на самом деле люди не всегда будут сотрудничать с роботами в дикой природе», — сказал Николаидис.
В качестве примера он приводит исследование, проведенное японскими исследователями, которые выпустили робота на свободу в общественном торговом комплексе и несколько раз наблюдали, как дети «прибегали к насилию» по отношению к нему.
Итак, подумал Николаидис, что, если мы воспользуемся человеческими наклонностями, чтобы усложнить задачу роботу? Вместо того, чтобы показывать, как лучше схватить объект, что, если бы мы попытались его оторвать? Считается, что добавив проблемы, система научится быть более устойчивой к сложности реального мира.
Элемент вызова
Эксперимент проходил примерно так: в компьютерном моделировании робот пытается схватить объект. Человек за компьютером наблюдает за хваткой смоделированного робота. Если захват успешен, человек пытается вырвать объект из рук робота, используя клавиатуру, чтобы указать направление.
Добавление этого элемента вызова помогает роботу понять разницу между слабым хватом (например, удерживая бутылку наверху) и крепким хватом (удерживая ее посередине), что значительно усложняет задачу для противника-человека. вырвать.
Это была немного сумасшедшая идея, признает Николаидис, но она сработала.
Исследователи обнаружили, что система, обученная противнику-человеку, отклоняла нестабильные захваты, и быстро научились надежным захватам для этих объектов. В ходе эксперимента модель показала 52% успешных попыток схватывания с противником-человеком по сравнению с 26,5% успеха схватывания с человеком-соавтором.
«Робот научился не только более надежно захватывать объекты, но и чаще добиваться успеха с новыми объектами в другой ориентации, потому что он научился более устойчивому захвату», — сказал Николаидис.
Они также обнаружили, что модель, обученная противником-человеком, работает лучше, чем симулированный противник, у которого показатель успешности схватывания составляет 28%. Итак, роботизированные системы лучше всего учатся у противников из плоти и крови.
«Это потому, что люди могут понять стабильность и надежность лучше, чем образованные противники», — пояснил Николаидис.
«Робот пытается подобрать что-то, и, если человек пытается его прервать, это приводит к более стабильному захвату. А поскольку он научился более стабильному захвату, он будет добиваться успеха чаще, даже если объект находится в другая позиция. Другими словами, ее научили обобщать. Это большое дело «.
Как найти баланс
Николаидис надеется, что система будет работать на реальном манипуляторе робота в течение года. Это представит новую проблему — в реальном мире малейшее трение или шум в суставах робота может испортить ситуацию. Но Николаидис надеется на будущее состязательного обучения робототехнике.
«Я думаю, мы только что коснулись поверхности потенциальных приложений обучения через состязательные человеческие игры», — сказал Николаидис.
«Мы рады исследовать состязательное обучение человека в цикле для решения других задач, таких как предотвращение препятствий для роботизированного оружия и мобильных роботов, таких как беспилотные автомобили».
Возникает вопрос: насколько далеко мы готовы зайти в обучении соперничеству? Хотели бы мы пинать и избивать роботов до подчинения? По словам Николаидиса, ответ заключается в том, чтобы найти баланс жесткой любви и поддержки с нашими коллегами из робототехники.
«Я чувствую, что жесткая любовь — в контексте предлагаемого нами алгоритма — снова похожа на спорт: она подпадает под определенные правила и ограничения», — сказал Николаидис.
«Если человек просто сломает захват робота, робот будет постоянно терпеть неудачу и никогда не учиться. Другими словами, роботу нужно бросить вызов, но все же дать ему возможность добиться успеха, чтобы научиться».