Алгоритм помогает системам искусственного интеллекта избегать враждебных действий


В идеальном мире вы получаете то, что видите. Если бы это было так, работа систем искусственного интеллекта была бы удивительно простой.

Возьмем системы предотвращения столкновений в беспилотных автомобилях. Если визуальному входу в бортовые камеры можно полностью доверять, система ИИ могла бы напрямую сопоставить этот вход с соответствующим действием — повернуть направо, повернуть налево или продолжить движение прямо — чтобы избежать столкновения с пешеходом, которого камеры видят на дороге. .

Но что, если в камерах есть сбой, из-за которого изображение немного сдвигается на несколько пикселей? Если автомобиль слепо доверяет так называемым «злоумышленникам», он может предпринять ненужные и потенциально опасные действия.

Новый алгоритм глубокого обучения, разработанный исследователями Массачусетского технологического института, призван помочь машинам ориентироваться в реальном несовершенном мире путем формирования здорового «скептицизма» в отношении получаемых ими измерений и входных данных.

Команда объединила алгоритм обучения с подкреплением с глубокой нейронной сетью, которые использовались отдельно для обучения компьютеров игре в видеоигры, такие как го и шахматы, чтобы построить подход, который они называют CARRL, для сертифицированной состязательной устойчивости для глубокого обучения с подкреплением.

Исследователи протестировали этот подход в нескольких сценариях, включая имитационный тест предотвращения столкновений и видеоигру Pong, и обнаружили, что CARRL работает лучше — избегая столкновений и выигрывая больше игр Pong — по сравнению со стандартными методами машинного обучения, даже в лицо сомнительных, враждебных действий.

«Вы часто думаете, что противник — это кто-то, кто взламывает ваш компьютер, но также может быть, что ваши датчики не очень хороши или ваши измерения не идеальны, что часто бывает», — говорит Майкл Эверетт, постдок из Массачусетского технологического института. Кафедра воздухоплавания и космонавтики (АэроАстро). «Наш подход помогает учесть это несовершенство и принять безопасное решение. В любой критически важной для безопасности области это важный подход, о котором следует подумать».

Эверетт является ведущим автором исследования, описывающего новый подход, который отражен в документе IEEE Transactions on Neural Networks and Learning Systems . Исследование было инициировано кандидатской диссертацией аспиранта Массачусетского технологического института Бьорна Лютьенса и проведено под руководством профессора MIT AeroAstro Джонатана Хау.

Возможные реалии

Чтобы сделать системы ИИ устойчивыми к злоумышленникам, исследователи попытались реализовать средства защиты для контролируемого обучения. Традиционно нейронная сеть обучается связывать определенные ярлыки или действия с заданными входными данными. Например, нейронная сеть, которая получает тысячи изображений, помеченных как кошки, вместе с изображениями, помеченными как дома и хот-доги, должна правильно обозначить новое изображение как кошку.

В надежных системах искусственного интеллекта одни и те же методы контролируемого обучения могут быть протестированы со многими слегка измененными версиями изображения. Если сеть попадает на один и тот же ярлык — кошка — для каждого изображения, есть большая вероятность, что, измененное или нет, изображение действительно является изображением кошки, и сеть устойчива к любому враждебному влиянию.

Но прохождение всех возможных изменений изображения является вычислительно исчерпывающим процессом, и его трудно успешно применить к чувствительным ко времени задачам, таким как предотвращение столкновений. Кроме того, существующие методы также не определяют, какую метку использовать или какие действия предпринять, если сеть менее надежна и помечает некоторые измененные изображения кошек как дом или хот-дог.

«Чтобы использовать нейронные сети в критически важных для безопасности сценариях, нам нужно было выяснить, как принимать решения в реальном времени на основе предположений наихудшего случая относительно этих возможных реалий», — говорит Лютьенс.

Лучшая награда

Вместо этого команда стремилась использовать обучение с подкреплением, другую форму машинного обучения, которая не требует связывания помеченных входов с выходами, а скорее направлена ​​на усиление определенных действий в ответ на определенные входные данные, на основе получаемого вознаграждения. Этот подход обычно используется для обучения компьютеров игре и выигрышу в таких играх, как шахматы и го.

Обучение с подкреплением в основном применялось в ситуациях, когда предполагается, что входные данные верны. Эверетт и его коллеги говорят, что они первыми привнесли «сертифицированную надежность» в неопределенные, враждебные исходные данные в обучении с подкреплением.

Их подход, CARRL, использует существующий алгоритм обучения с глубоким подкреплением для обучения глубокой Q-сети или DQN — нейронной сети с несколькими уровнями, которая в конечном итоге связывает входные данные со значением Q или уровнем вознаграждения.

Подход принимает входные данные, такие как изображение с одной точкой, и учитывает враждебное влияние или область вокруг точки, где оно может быть на самом деле. Каждое возможное положение точки в этой области передается через DQN, чтобы найти связанное действие, которое привело бы к наиболее оптимальному вознаграждению в худшем случае, на основе методики, разработанной недавним аспирантом Массачусетского технологического института Цуй-Вэй «Лили» Венг, доктором философии. 20.

Состязательный мир

В тестах с видеоигрой Pong, в которой два игрока управляют ракетками по обе стороны экрана, чтобы передавать мяч вперед и назад, исследователи представили «противника», который тянул мяч немного ниже, чем он был на самом деле. Они обнаружили, что CARRL выигрывал больше игр, чем стандартные методы, поскольку влияние противника росло.

«Если мы знаем, что измерению нельзя точно доверять и мяч может находиться где угодно в пределах определенного региона, тогда наш подход сообщает компьютеру, что он должен поместить ракетку в середину этой области, чтобы убедиться, что мы попали в точку. мяч даже в самом худшем случае », — говорит Эверетт.

Этот метод был столь же надежен в тестах предотвращения столкновений, где команда смоделировала синего и оранжевого агентов, пытающихся поменять позицию без столкновения. Поскольку команда нарушила наблюдение оранжевого агента за позицией синего агента, CARRL направил оранжевого агента вокруг другого агента, занимая шире, поскольку противник становился сильнее, а позиция синего агента становилась более неопределенной.

Наступил момент, когда CARRL стал слишком консервативным, из-за чего оранжевый агент предположил, что другой агент может быть где угодно поблизости, и в ответ полностью уклонился от пункта назначения. По словам Эверетта, этот крайний консерватизм полезен, потому что исследователи могут использовать его как предел для настройки устойчивости алгоритма. Например, алгоритм может учитывать меньшее отклонение или область неопределенности, которая по-прежнему позволяет агенту получить высокое вознаграждение и достичь места назначения.

По словам Эверетта, CARRL может не только преодолеть несовершенные датчики, но и начать помогать роботам безопасно справляться с непредсказуемыми взаимодействиями в реальном мире.

«Люди могут быть враждебными, например, оказаться перед роботом, чтобы заблокировать его датчики, или взаимодействовать с ними, не обязательно из лучших побуждений», — говорит Эверетт. «Как может робот думать обо всех вещах, которые люди могут попытаться сделать, и пытаться их избегать? От каких моделей соперничества мы хотим защищаться? Мы думаем о том, как это сделать».

Это исследование было частично поддержано Ford Motor Company в рамках альянса Ford-MIT.


Добавить комментарий