Каждый раз, когда вы публикуете изображение в социальных сетях, вы хотите знать, насколько хорошо оно будет принято и сколько твитов или лайков оно привлечет. Теперь алгоритм под названием MemNet, выпущенный в лабораториях Массачусетского технологического института, может показать, будет ли ваша фотография забыта в мгновение ока или запомнена на протяжении долгого времени.
Это впоследствии поможет вам лучше находить нужное изображение, которое будет выделяться среди остальных и идеально подходить для просмотра в Интернете.
Помимо забавного использования, эта технология может иметь серьезные и широко распространенные применения:
Реклама — используйте изображение, которое гарантирует коммерческий успех, увеличивая шанс совершения продажи.
Связи с общественностью — улучшите ваши шансы оказать влияние на такие сети, как Facebook и Flickr!
Учебно-мнемонические средства для обучения
Медицина — помощь людям с нарушениями памяти
Вычислительная техника / исследования — улучшения в других дисциплинах компьютерных наук, таких как компьютерное зрение и графика, а также основа для дальнейших исследований.
Согласно официальному заявлению, MemNet — это алгоритм, который может:
«объективно измерить человеческую память, что позволяет нам создать LaMem, крупнейший на сегодняшний день набор данных о запоминаемости аннотированных изображений (содержащий 60000 изображений из различных источников). Используя сверточные нейронные сети (CNN), мы показываем, что точно настроенные глубокие функции превосходят все другие функции на большой запас, достигающий ранговой корреляции 0,64, близкой к человеческой согласованности (0,68). Анализ ответов высокоуровневых слоев CNN показывает, какие объекты и регионы положительно и отрицательно коррелируют с запоминаемостью, что позволяет нам создавать карты запоминаемости для каждого изображения и предоставить конкретный метод выполнения манипуляций с запоминающимися изображениями «.
Настоящая проблема здесь в том, что, хотя долговременная зрительная память человека может хранить значительное количество визуальной информации, со временем она имеет тенденцию ухудшаться. Кроме того, обнаружено, что запоминаемость изображения — это свойство изображения, а не человеческого мозга, и его можно количественно оценить с помощью алгоритмов машинного обучения.
В нашей повседневной жизни нас засыпают огромным количеством изображений, которые ограничивают нашу память, поэтому проблема заключается в том, как помочь человеческой памяти. Можем ли мы сделать это, сделав изображения более запоминающимися, что позволит людям более эффективно потреблять информацию?
Но это может происходить в обоих направлениях, и один и тот же алгоритм может работать и в обратном направлении и определять причины, по которым некоторые части изображения, как правило, забываются, а не запоминаются!
Алгоритм возник как часть вычислительной архитектуры для визуальной обработки, в частности, сверточных нейронных сетей CNN. Итак, наука, лежащая в основе этого, уже существует, но для того, чтобы машина имела хоть какой-то успех, необходимо учитывать еще один очень важный компонент — большой массив данных.
В данном случае набор данных состоял из 60 000 изображений, взятых из различных источников, таких как MIR Flickr, AVA, SUN, набор данных о популярности изображений и других. Каждое изображение оценивалось по степени запоминаемости.
Набор данных содержал не только лица людей, которые были не только антропоцентричными, но также и сценарно-объектно-ориентированными, что означало, что алгоритм мог работать с изображениями, которые также содержат пейзажи и другие неодушевленные объекты.
После того, как у вас будет подходящий набор данных, следующим шагом будет обучение машины, начиная с самого основного принципа, как обнаруживать, классифицировать и связывать объекты, из которых состоит изображение.
Это происходит путем аннотирования или добавления метаданных к изображениям, которые направляют машину, т.е. уведомляют ее о наличии или отсутствии класса объекта на изображении, например, «на этом изображении есть автомобили», но «на этом изображении нет тигров», или с помощью аннотации на уровне объекта плотной ограничительной рамки и метки класса вокруг экземпляра объекта на изображении, например, «имеется отвертка с центром в позиции (20,25) с шириной 50 пикселей и высотой 30 пикселей».
Этого можно достичь с помощью сверточной нейронной сети Hybrid-CNN, используемой для классификации категорий объектов и сцен, которая была дополнительно настроена для удовлетворения потребностей MemNet, поскольку в отличие от визуальной классификации запоминающиеся или легко забываемые изображения даже не похожи друг на друга: слон кухня, абстрактная картина, лицо и рекламный щит могут иметь одинаковый уровень запоминаемости, но никакие алгоритмы визуального распознавания не объединят эти изображения вместе.
В исследовании использовалась краудсорсинговая архитектура, в которой работники платформы Amazon Mechanical Turk (AMT) нажимали клавишу, когда впервые сталкивались с изображением, и нажимали ее снова, когда сталкивались с ней снова (то есть, если они помнили, что видели ее в первый раз). место). Это служило показателем запоминаемости изображения.
Затем данные были аннотированы, как в примере, описанном выше, но с метаданными и такими атрибутами, как эстетика, популярность и эмоции, и впоследствии были переданы в MemNet, которая смогла набрать впечатляющие 0,64, что близко к ранговой корреляции согласованности человека для запоминаемости. 0.68, демонстрируя, что прогнозирование когнитивных способностей человека находится в пределах досягаемости для области компьютерного зрения.
Корреляция между этими атрибутами и запоминаемостью приводит к некоторым очень интересным наблюдениям, таким как:
изображения, вызывающие отвращение, по статистике более запоминаются, чем изображения, демонстрирующие большинство других эмоций, за исключением развлечения
изображения, изображающие такие эмоции, как трепет и удовлетворение, как правило, наименее запоминаются
общие изображения, которые вызывают негативные эмоции, такие как гнев и страх, как правило, более запоминаются, чем те, которые изображают позитивные.
эстетика изображения и его запоминаемость практически не взаимосвязаны!
Выученные репрезентации были затем визуализированы в тепловой карте запоминаемости, которая отражает значимость объектов, которые делают изображение запоминающимся или легко забываемым. Области с более горячими цветами обозначают запоминаемость, более холодные цвета обозначают забывчивость.
Эти карты затем можно было бы использовать в области обучения и образования для создания визуальных подсказок, которые усиливают легко забываемые аспекты изображения, а также сохраняют незабываемые.
Если вы хотите попробовать что-то, посетите веб-сайт LaMem, который содержит образцы работы алгоритма и позволяет загружать изображения и проверять, как они работают по шкале запоминаемости.