Исследования показывают, как ИИ видит сквозь зеркало


По ту сторону зеркала все по-другому.

Текст перевернут. Часы идут против часовой стрелки. Машины едут по неправильной стороне дороги. Правые руки становятся левыми.

Заинтригованные тем, как отражение изменяет изображения тонким и не очень тонким образом, группа исследователей Корнельского университета использовала искусственный интеллект, чтобы исследовать, что отличает оригиналы от отражений. Их алгоритмы научились улавливать неожиданные подсказки, такие как части волос, направление взгляда и, что удивительно, бороды — результаты, которые имеют значение для обучения моделей машинного обучения и обнаружения поддельных изображений.

«Вселенная несимметрична. Если перевернуть изображение, есть различия», — сказал Ноа Снавели, доцент кафедры информатики Корнельского технологического института и старший автор исследования «Визуальная хиральность», представленного на конференции 2020 года. по компьютерному зрению и распознаванию образов, который прошел практически 14-19 июня. «Я заинтригован открытиями, которые вы можете сделать с помощью новых способов сбора информации».

Чжи Линь — первый автор статьи; соавторами являются Абэ Дэвис, доцент информатики, и научный сотрудник Корнеллского технологического института Джин Сун.

Различение исходных изображений и отражений — удивительно простая задача для ИИ, сказал Снейвли: базовый алгоритм глубокого обучения может быстро научиться классифицировать, если изображение было перевернуто с точностью от 60% до 90%, в зависимости от типа. изображений, используемых для обучения алгоритма. Многие подсказки, которые он обнаруживает, трудно заметить людям.

Для этого исследования команда разработала технологию создания тепловой карты, которая указывает части изображения, которые представляют интерес для алгоритма, чтобы понять, как он принимает эти решения.

Неудивительно, что они обнаружили, что наиболее часто используемым ключом к разгадке был текст, который в разных языках выглядит по-разному. Чтобы узнать больше, они удалили изображения с текстом из своего набора данных и обнаружили, что следующий набор характеристик, на которых фокусировалась модель, включал наручные часы, воротники рубашек (кнопки, как правило, располагаются слева), лица и телефоны — что больше всего люди, как правило, носят в правой руке, а также другие факторы, указывающие на праворукость.

Исследователи были заинтригованы тенденцией алгоритма фокусироваться на лицах, которые не кажутся явно асимметричными. «В некотором смысле это оставило больше вопросов, чем ответов», — сказал Снавли.

Затем они провели еще одно исследование, сосредоточив внимание на лицах, и обнаружили, что тепловая карта освещает такие области, как прядь волос и взгляд — большинство людей, по неизвестным исследователям причинам, смотрят налево на портретных фотографиях. и бороды.

Снейвли сказал, что он и члены его команды понятия не имеют, какую информацию алгоритм находит в бородах, но они выдвинули гипотезу, что то, как люди расчесываются или бреются, может указывать на руки.

«Это форма визуального открытия», — сказал Снавели. «Если вы сможете запустить машинное обучение в масштабе на миллионах и миллионах изображений, возможно, вы сможете начать открывать новые факты о мире».

Каждая из этих подсказок по отдельности может быть ненадежной, но, как показали результаты, алгоритм может повысить надежность, объединив несколько подсказок. Исследователи также обнаружили, что алгоритм для принятия решений использует низкоуровневые сигналы, возникающие из того, как камеры обрабатывают изображения.

Хотя необходимы дополнительные исследования, результаты могут повлиять на способ обучения моделей машинного обучения. Этим моделям требуется огромное количество изображений, чтобы научиться классифицировать и идентифицировать изображения, поэтому компьютерные ученые часто используют отражения существующих изображений, чтобы эффективно удвоить свои наборы данных.

Изучение того, чем эти отраженные изображения отличаются от оригиналов, может выявить информацию о возможных предубеждениях в машинном обучении, которые могут привести к неточным результатам, сказал Снавели.

«Это приводит к открытому вопросу для сообщества специалистов по компьютерному зрению, а именно: когда можно делать это для увеличения набора данных, а когда — нет?» он сказал. «Я надеюсь, что это заставит людей больше задуматься над этими вопросами и начать разрабатывать инструменты, чтобы понять, как это влияет на алгоритм».

Понимание того, как отражение меняет изображение, также может помочь использовать ИИ для выявления подделанных или подделанных изображений — проблема, вызывающая растущее беспокойство в Интернете.

«Возможно, это новый инструмент или новый подход, который можно использовать во вселенной судебной экспертизы изображений, если вы хотите определить, реально что-то или нет», — сказал Снавели.

Исследование было частично поддержано филантропами Эриком Шмидтом, бывшим генеральным директором Google, и Венди Шмидт.


Добавить комментарий