Робот учится делать что-то, используя глубокую нейронную сеть


Кажется, мы начинаем путь к автономным роботам, которые учатся делать что-то и обобщают. Посмотрите, как робот учится пользоваться молотком и приспосабливается к изменениям в настройке.

Глубокие нейронные сети (DNN) известны тем, что делают удивительные вещи, но почему они больше не используются в робототехнике? Если у вас есть нейронная сеть, которая может распознавать объекты, почему бы не связать ее с камерой робота и позволить ей управлять роботом?
На данный момент мы достигли точки, когда, если вы посмотрите на лаборатории и различные выполняемые работы, вы придете к выводу, что необходима консолидация и интеграция для создания чего-то большего, чем сумма частей.
Это начинает происходить.
Команда из Калифорнийского университета в Беркли внедрила архитектуру DNN, которая позволяет роботу учиться выполнять простые задачи. Здесь важно то, что, хотя вы можете запрограммировать робота для выполнения простых задач и даже научить его выполнять эти задачи на примере, DNN обладает способностью к обобщению.
В других областях применения DNN, как правило, ведут себя так, как человек считает «понятным». То есть, когда они терпят неудачу, человек может понять, почему они потерпели неудачу, и считать неудачу необоснованной. Например, если вы показываете DNN фотографию миниатюрной лошади, и на ней написано, что это собака — вы можете видеть, что это почти промах, а не катастрофическая ошибка, как это часто бывает со многими классическими цифровыми системами.
Итак, если вы учите робота выполнять работу с использованием DNN, вы должны надеяться, что те же возможности обобщения позволят роботу выполнять ту же задачу в немного разных ситуациях, и это то, что продемонстрировала команда Калифорнийского университета в Беркли, действительно происходит.

На фото слева направо: Челси Финн, Питер Аббил, Тревор Даррелл и Сергей Левин … и БРЕТТ.

Они взяли Willow Garage PR2, названный BRETT, для робота Беркли для устранения утомительных задач, оборудованный одной двухмерной видеокамерой, и поместили довольно сложную DNN между камерой и ее контроллерами двигателя.
DNN — интересный дизайн. Необработанное изображение RGB подается в три слоя сверточных DNN, а затем в softmax, который принимает решение о том, какие объекты в каких местах находятся. Активации последнего уровня сети обработки видео преобразуются в явные 2D-позиции в поле зрения, а затем передаются еще трем полностью связанным DNN. Вход во второй DNN включает информацию о текущем положении робота, а окончательный DNN выводит сигналы, которые приводят в действие двигатели роботов.
Обратите внимание, что в этой настройке нет заранее запрограммированного компонента, который определяет, что делает робот. Обучение выполняется в основном путем обучения с подкреплением — награда предоставляется, когда робот приближается к выполнению того, что ему нужно. Робот также изучает полезные визуальные функции, используя трехмерную позиционную информацию от руки робота — камера никак не откалибрована.

Конечно, обучение в любой DNN обходится дорого, поэтому, чтобы сделать всю схему обучения разумной, слои раннего видения были инициализированы с использованием весов из нейронной сети, обученной на наборе данных ImageNet. Это хорошая отправная точка для общего распознавания признаков. Затем робот обучился распознавать объект, задействованный в задаче. Для этого он держал объект захватом и поворачивал его, чтобы получить разные виды с известных положений. Чтобы нейронная сеть не включала манипулятор робота в задачу распознавания, он был покрыт тканью! Аналогичная инициализация предварительного обучения использовалась, чтобы сузить области поведения, которые можно было изучить. Наконец, вся сеть была обучена этой задаче.
Достаточно удивительно, что робот научился выполнять задачу, но что действительно интересно, так это обобщение, наблюдаемое, когда задача отличается от обучающих примеров. Взгляните на видео:

Впечатляет, но предстоит еще долгий путь. Как отмечается в документе:
«Политики демонстрируют умеренную терпимость к отвлекающим факторам, которые визуально отделены от целевого объекта. Однако, как и ожидалось, они имеют тенденцию плохо работать при резких изменениях фона или когда отвлекающие факторы примыкают к управляемым объектам или закрывают их, как показано на дополнительное видео «.
Решение, вероятно, заключается в большем обучении в более широком диапазоне сред. Также предлагается включить в нейронные сети больше информации — тактильные, слуховые и так далее. Также предполагается, что рекуррентная нейронная сеть, то есть сеть с обратной связью, могла бы предоставить память, необходимую, чтобы позволить роботу продолжить работу, если элементы задачи на мгновение скрыты.
Очевидно, что требуется еще много работы, но это демонстрация того, что может случиться, когда вы используете нейронные сети как часть системы с органами чувств и двигателем.
Это на шаг ближе к тому роботу, которого представляли в научной фантастике со времен I Robot и раньше.


Добавить комментарий