GANalyze — Что делает фотографии запоминающимися?


Хотя мы можем легко различить более запоминающиеся и менее запоминающиеся изображения, трудно точно определить, что влияет на это восприятие. Исследователи из Массачусетского технологического института разработали GANalyze, чтобы исследовать, как выглядят изменения в «запоминаемости»?

Старшими соавторами исследования являются Од Олива и Филип Изола, чьи предыдущие работы в MemNet мы сообщали еще в 2015 году в «Запоминаются ли ваши фотографии?». Теперь они расширили свои исследования визуальных характеристик и свойств изображений, лежащих в основе когнитивных атрибутов высокого уровня, таких как запоминаемость, эстетика и эмоциональная валентность.
Их новая структура использует генерирующие состязательные сети (GAN), с которыми мы неоднократно сталкивались в таких приложениях, как передача стилей, исправление / восстановление изображений и добавление речи к аватарам. В этом случае GAN применяются к проблеме понимания высокоуровневых когнитивных свойств изображения, таких как запоминаемость.

Чтобы получить результаты, представленные в их исследовании, исследователи Массачусетского технологического института Лоре Гетшалкс, Алекс Андонян, Од Олива, Филип Изола использовали генератор BigGAN, который был предварительно обучен на ImageNet. Его оценщиком была MemNet, CNN, предсказывающая запоминаемость изображений.

В дополнение к использованию двух популярных автоматических мер, начального расстояния Фреше (FID) и начального балла (IS), исследователи провели эксперимент по сбору баллов, полученных людьми. Они обнаружили, что изображения, которые запомнились людям лучше всего, имели яркие цвета, простой фон и предметы, расположенные по центру кадра. Они отметили, что чизбургер, переместившийся в дальний конец шкалы запоминаемости, не только выглядит толще и ярче, но и «вкуснее», в то время как панда выделяется на его фоне, а ее черные глаза, уши и лапы резко контрастируют с ее белым лицом. .

Убедившись, что их метод успешно обнаруживает манипуляции с изображениями, которые причинно влияют на производительность человеческой памяти, они продолжили применять ту же схему для анализа эстетики изображений и эмоциональной валентности. для этого они перенастроили GANanalyze для создания изображений различной эстетической и эмоциональной привлекательности. Они обнаружили, что изображения, получившие более высокий эстетический и эмоциональный статус, были ярче, красочнее и имели небольшую глубину резкости, которая размывала фон, как и самые запоминающиеся изображения. Однако не всегда самые эстетичные образы запоминались.
Если вы хотите узнать больше о GANalze, посетите его веб-сайт. Если вы хотите поэкспериментировать с ним, у него есть репозиторий проекта на GitHub.


Добавить комментарий