В документе, написанном большой группой бывших и настоящих исследователей Microsoft, который будет представлен на этой неделе на 15-й ежегодной конференции Североамериканского отделения Ассоциации вычислительной лингвистики (NAACL 2016), представлен набор данных повествования последовательного изображения Microsoft (SIND) и как его можно использовать для визуального повествования.
Визуальное рассказывание историй — это стандартное занятие для дошкольников, которое можно найти в любой учебной программе. Детям предлагают несколько небольших бумажных рамок, каждая из которых содержит фрагмент истории, которые они должны правильно сложить от начала до конца, чтобы раскрыть скрытую историю, историю с началом, серединой и концом.
Однако это не элементарно. Способность рассказывать — это многопрофильный навык, приобретаемый на самых ранних этапах, и чтобы малыши могли описать событие, они должны сначала уметь обрабатывать ряд аспектов, таких как контекст, хронологическое упорядочение, определение персонажей и местоположение.
По прошествии лет и накопления опыта наши возможности рассказывать истории развиваются, так что мы можем использовать более обширные, богатые и универсальные описания, так что рассказывание историй было охарактеризовано как, пожалуй, самый действенный способ организации опыта людьми »
Учитывая нашу текущую заинтересованность в поиске способов искусственного интеллекта для воспроизведения человеческих способностей, во многих случаях даже превосходящих их, визуальное повествование — еще одна человеческая деятельность, требующая пристального внимания. Можно ли сделать нейронную сеть способной анализировать последовательность изображений и связывать их вместе, чтобы рассказать значимую историю?
Классификация и категоризация изображений, а также распознавание содержащихся в них физических объектов — это свойство, которое уже хорошо понимается нейронными сетями и используется во многих практических приложениях, таких как LaMem, рассмотренный в разделе Запоминаются ли ваши изображения? Мы также уже встречали идею компьютера, описывающего то, что он видит на фотографии, с помощью Caption.bot, еще одного интерактивного приложения, которое вы можете опробовать онлайн, также от Microsoft Cognition Group. Именно эта группа отвечает за приложение Seeing AI, представленное на Build 2016 Сатья Наделла, которое помогает слабовидящим людям знать, что происходит вокруг них. Часть «Видение ИИ» — это предоставление в реальном времени подписей к тому, что происходит в окружающей среде. Визуальное повествование — еще один шаг к тому, что люди делают, понимая контекст.
Проблема, которую не смогла решить одна классификация, заключается в установлении контекста и переходе от конкретного и изолированного (как дерево) к абстрактному и общему (как лес), чтобы получить более широкую картину.
Теперь Microsoft Research считает, что у нее есть ответ на вопрос на миллион долларов с помощью SIND, набора данных Microsoft Sequential Image Narrative Dataset, цель которого:
«двигать искусственный интеллект от базового понимания типичных визуальных сцен к все более и более человеческому пониманию обоснованной структуры событий и субъективного выражения»
Набор данных, над которым он работал, был взят из альбомов с изображениями, общедоступными на Flickr, которые были обработаны в рамках двухэтапного рабочего процесса краудсорсинга с использованием Amazon Mechanical Turk.
В первом толпе работника попросили выбрать подмножество фотографий из данного альбома, чтобы сформировать серию фотографий и написать о ней рассказ. На втором этапе другого работника попросили пересказать историю, написав рассказ на основе одной последовательности фотографий, созданных рабочими на первом этапе.
Затем набор данных обрабатывался в три этапа и три группы:
(1) Описание изображений в изоляции (DII)
(2) Описания непоследовательности изображений (DIS)
(3) Рассказы для образов без последовательности (SIS)
постепенный переход от простого рассмотрения содержимого одного изображения (DII) через набор изображений с временным контекстом к историям, которые используют более богатый язык повествования, а не простые описания сцены (SIS):
Набор данных с субтитрами был передан в нейронную сеть, где и происходила фактическая обработка языка. Результаты обработки, другими словами, качество историй, созданных ИИ, проверялось людьми, поскольку человеческое суждение по-прежнему является наиболее надежным способом, учитывая сложность характера задачи повествования.
Несмотря на то, что исследования все еще находятся на ранних стадиях, а качество сетевого интеллекта ИИ напоминает качество интеллекта маленького ребенка, первые результаты выглядели многообещающими и позволили установить несколько хороших исходных показателей.
Образцы работ можно найти на веб-странице проекта, где мы находим пример поразительной точности; попытка сбить диск с крыши дома футбольным мячом. Вот что придумал ИИ:
«Диск застрял на крыше. Почему бы не попробовать сбить его с помощью футбольного мяча? Футбольный мяч летит вверх. Это не сработало, поэтому мы попробовали волейбольный мяч. Теперь диск, футбольный мяч и волейбол — все это застрял на крыше «.
К сожалению, в отличие от LaMem или Caption.bot, веб-сайты которых позволяют загружать изображения и получать обратную связь с результатами обработки, веб-сайт проекта SIND еще не оснащен такой возможностью. Это позор, потому что я хотел бы увидеть, как он работает против таких альбомов Flickr, как Humpty Dumpty и Homeless. Может ли ИИ уловить контекст бездомности? Поймет ли он, что имущество человека — это единственный стул? Поймет ли он, что бездомный сначала заплатил за еду, потом съел ее, а потом попытался вздремнуть?
Даже если возможности визуального повествования искусственного интеллекта ограничены, у этой технологии есть множество практических применений. Идея помощи людям с нарушениями зрения уже была продемонстрирована в проекте Seeing AI, который использует Microsoft Vision и API-интерфейсы естественного языка, которые являются всего лишь двумя из API-интерфейсов (ранее называвшихся Project Oxford), доступных для использования на GitHub. Есть очевидные возможности для его использования в социальных сетях, и его можно настроить для интерпретации больших данных. Также можно представить себе его применимость в приложениях для охраны и наблюдения, где в систему загружаются серии изображений, снятых с различных камер наблюдения, а система упорядочивает и объединяет их, чтобы представить преступление или действия человека, за которым ведется наблюдение, на естественном языке. для суда или следствия. Но, возможно, это слишком футуристическое видение.