Решая проблемы предвзятости в искусственном интеллекте, компьютерщики из Принстонского и Стэнфордского университетов разработали методы получения более достоверных наборов данных, содержащих изображения людей. Исследователи предлагают усовершенствовать ImageNet, базу данных из более чем 14 миллионов изображений, сыгравшую ключевую роль в развитии компьютерного зрения за последнее десятилетие.
ImageNet, который включает изображения объектов и ландшафтов, а также людей, служит источником обучающих данных для исследователей, создающих алгоритмы машинного обучения, которые классифицируют изображения или распознают элементы в них. Беспрецедентный масштаб ImageNet потребовал автоматизированного сбора изображений и краудсорсинговых аннотаций изображений. Хотя категории людей из базы данных редко использовались исследовательским сообществом, команда ImageNet работает над устранением предубеждений и других проблем, связанных с изображениями людей, которые являются непреднамеренными последствиями создания ImageNet.
«Компьютерное зрение сейчас работает очень хорошо, а это значит, что оно развертывается повсюду в самых разных контекстах», — сказала соавтор Ольга Русаковская, доцент кафедры информатики в Принстоне. «Это означает, что сейчас самое время поговорить о том, какое влияние это оказывает на мир, и подумать о такого рода проблемах справедливости».
В новом документе команда ImageNet систематически определила невизуальные концепции и оскорбительные категории, такие как расовые и сексуальные характеристики, среди категорий лиц ImageNet и предложила удалить их из базы данных. Исследователи также разработали инструмент, который позволяет пользователям определять и извлекать наборы изображений людей, сбалансированные по возрасту, гендерному выражению или цвету кожи — с целью облегчения алгоритмов, которые более справедливо классифицируют лица и действия людей на изображениях. Исследователи представили свою работу 30 января на конференции Ассоциации вычислительной техники по справедливости, подотчетности и прозрачности в Барселоне, Испания.
«Исследователи и лаборатории, обладающие ключевыми техническими знаниями, очень нуждаются в таких беседах», — сказал Русаковский. «Учитывая реальность того, что нам нужно собирать данные в масштабе, учитывая реальность того, что это будет осуществляться с помощью краудсорсинга, потому что это наиболее эффективный и хорошо налаженный конвейер, как нам сделать это более справедливым способом, Вы не попадете в подобные ловушки? Основная идея данной статьи — конструктивные решения «.
Группа компьютерных ученых из Принстона и Стэнфорда запустила ImageNet в 2009 году как ресурс для академических исследователей и преподавателей. Возглавлял эту работу выпускница Принстона и преподаватель Фей-Фей Ли, ныне профессор компьютерных наук в Стэнфорде. Чтобы побудить исследователей создавать более совершенные алгоритмы компьютерного зрения с помощью ImageNet, команда также создала конкурс ImageNet Large Scale Visual Recognition Challenge. Задача была сосредоточена в основном на распознавании объектов с использованием 1000 категорий изображений, только в трех из которых были изображены люди.
Некоторые проблемы справедливости в ImageNet проистекают из конвейера, используемого для создания базы данных. Его категории изображений взяты из WordNet, старой базы данных английских слов, используемых для исследования обработки естественного языка. Создатели ImageNet переняли существительные в WordNet — некоторые из них, хотя и являются четко определенными словесными терминами, плохо переводятся в визуальный словарь. Например, термины, описывающие религию или географическое происхождение человека, могут приводить к поиску только наиболее характерных результатов поиска изображений, что может привести к созданию алгоритмов, закрепляющих стереотипы.
Недавний арт-проект под названием ImageNet Roulette привлек повышенное внимание к этим проблемам. Проект, выпущенный в сентябре 2019 года в рамках художественной выставки по системам распознавания изображений, использовал изображения людей из ImageNet для обучения модели искусственного интеллекта, которая классифицирует людей словами на основе представленного изображения. Пользователи могут загрузить свое изображение и получить этикетку на основе этой модели. Многие классификации были оскорбительными или просто необоснованными.
Центральным нововведением, которое позволило создателям ImageNet собрать такую большую базу данных помеченных изображений, стало использование краудсорсинга, в частности платформы Amazon Mechanical Turk (MTurk), с помощью которой работникам платили за проверку изображений-кандидатов. Этот подход, хотя и преобразующий, был несовершенным, что привело к некоторым предубеждениям и неправильной классификации.
«Когда вы просите людей проверить изображения, выбрав правильные из большого набора кандидатов, люди чувствуют давление, чтобы выбрать некоторые изображения, и эти изображения, как правило, имеют характерные или стереотипные черты», — сказал ведущий автор Кайю Ян. , аспирант по информатике.
В ходе исследования Ян и его коллеги сначала отфильтровали категории потенциально оскорбительных или деликатных людей из ImageNet. Они определили оскорбительные категории как категории, содержащие ненормативную лексику или расовые или гендерные оскорбления; деликатные категории включают, например, классификацию людей по признаку сексуальной ориентации или религии. Чтобы аннотировать категории, они наняли 12 аспирантов из разных слоев общества, посоветовав им ошибиться в том, чтобы пометить категорию как деликатную, если они не уверены. Это исключило 1593 категории — около 54% из 2932 категорий лиц в ImageNet.
Затем исследователи обратились к сотрудникам MTurk с просьбой оценить «визуализируемость» оставшихся безопасных категорий по шкале от 1 до 5. Сохранение категорий с рейтингом 4 или выше привело к тому, что только 158 категорий были классифицированы как безопасные и пригодные для изображений. . Даже этот набор категорий с высокой степенью фильтрации содержал более 133 000 изображений — множество примеров для обучения алгоритмов компьютерного зрения.
В рамках этих 158 категорий исследователи изучили демографическое представление людей на изображениях, чтобы оценить уровень предвзятости в ImageNet и разработать подход к созданию более справедливых наборов данных. Контент ImageNet поступает из поисковых систем изображений, таких как Flickr, и, как было показано, поисковые системы в целом выдают результаты, которые преобладают над мужчинами, светлокожими людьми и взрослыми в возрасте от 18 до 40 лет.
«Люди обнаружили, что распределение демографических данных в результатах поиска изображений сильно предвзято, и именно поэтому распределение в ImageNet также предвзято», — сказал Янг. «В этой статье мы попытались понять, насколько это предвзято, а также предложить способ сбалансировать распределение».
Среди атрибутов, защищенных антидискриминационным законодательством США, исследователи рассмотрели три атрибута, которые можно отображать: цвет кожи, гендерное выражение и возраст. Сотрудников MTurk попросили аннотировать каждый атрибут каждого человека на изображении. Они классифицировали цвет кожи как светлый, средний или темный; и возраст как ребенок (до 18), взрослый 18-40, взрослый 40-65 или взрослый старше 65. Гендерная классификация включала мужской, женский и неуверенный — способ включить людей с различными гендерными выражениями, а также аннотировать изображения, на которых пол не мог быть определен с помощью визуальных подсказок (таких как множество изображений младенцев или аквалангистов).
Анализ аннотаций показал, что, как и результаты поиска, контент ImageNet отражает значительную предвзятость. Люди, отмеченные как темнокожие, женщины и взрослые старше 40 лет, были недопредставлены по большинству категорий.
Хотя процесс аннотации включал контроль качества и требовал, чтобы аннотаторы достигли консенсуса, из опасения потенциального вреда неправильных аннотаций исследователи решили не публиковать демографические аннотации для отдельных изображений. Вместо этого они разработали инструмент веб-интерфейса, который позволяет пользователям получать набор изображений, демографически сбалансированных в соответствии с указаниями пользователя. Например, полная коллекция изображений в категории «программист» может включать около 90% мужчин и 10% женщин, в то время как в США около 20% программистов — женщины. Исследователь может использовать новый инструмент для получения набора изображений программиста, представляющих 80% мужчин и 20% женщин — или даже разделение, в зависимости от цели исследователя.
«Мы не хотим говорить, как правильно сбалансировать демографические данные, потому что это не очень простой вопрос», — сказал Ян. «Распределение может быть разным в разных частях мира — распределение цветов кожи в США отличается, например, от стран Азии. Поэтому мы оставляем этот вопрос нашему пользователю и просто предоставляем инструмент для получения сбалансированное подмножество изображений «.
Команда ImageNet в настоящее время работает над техническими обновлениями своего оборудования и базы данных, в дополнение к реализации фильтрации категорий лиц и инструмента ребалансировки, разработанного в этом исследовании. ImageNet скоро будет перевыпущен с этими обновлениями и призывом к обратной связи от сообщества исследователей компьютерного зрения.
Принстонский доктор философии Студент Клинт Цинами и доцент кафедры компьютерных наук Цзя Дэн выступили соавторами статьи вместе с Яном, Ли и Русаковским. Исследование было поддержано Национальным научным фондом.