Speech2Face — Дай мне голос, и я дам тебе лицо


Нейронные сети хороши в обнаружении закономерностей и корреляций в данных, но достаточно ли они хороши, чтобы воссоздать лицо, создавшее определенный голос?

Нейронные сети часто выполняют полезную работу, например, распознают текст или произнесенные слова, кроме того, они часто могут сказать вам, сколько информации содержится в данных. Если вы можете обучить нейронную сеть предсказывать Y на основе X, то, по-видимому, в X достаточно информации, чтобы определить Y в какой-то степени. Проблема в том, что способность предсказывать часто воспринимается как указание на причинно-следственную связь в той или иной форме.

В этом случае у нас есть нейронная сеть, которая предсказывает, как кто-то выглядит, на основе образца голоса. Возьмите множество изображений разговаривающих людей и скармливайте их через нейронную сеть распознавания лиц и получите 4096-мерный вектор лица. Затем возьмите образец голоса и используйте его для обучения другой нейронной сети созданию вектора лица. Постепенно сеть учится воспроизводить лицо по голосу в обучающих данных, и, как это бывает с нейронными сетями, затем переходит к предсказанию лиц по голосу в данных, которых он не видит.
Так как же это сделать? Первый столбец изображений — это настоящее лицо, второй — это лицо, восстановленное из вектора лица, используемого для обучения сети, а третий — это лицо, восстановленное из образца голоса:
Не знаю, как вы, но считаю, что это потрясающе хорошо. Однако нам нужно четко понимать, чему мы научились. Ясно, что есть некоторые физические особенности лица, которые изменяют голос — изменяют частоту, скорость и т. Д. Предположительно высота звука является важной характеристикой при определении пола и, следовательно, таких вещей, как волосы и борода. Однако вполне вероятно, что социальные факторы также будут закодированы в речи, и это позволит сети предсказывать особенности, которые, как вы, возможно, не думали, могут изменить физическую природу голоса.
Исследователи приходят к выводу:
Мы представили новое исследование реконструкции лица непосредственно по аудиозаписи говорящего человека. Мы решаем эту проблему, научившись выравнивать пространство функций речи с пространством предварительно обученного декодера лиц, используя миллионы естественных видео с говорящими людьми. Мы продемонстрировали, что наш метод может предсказывать правдоподобные лица с атрибутами лица, соответствующими атрибутам реальных изображений.
Их также беспокоит этика и проблемы, присущие работе:
Как уже упоминалось, наш метод не может восстановить истинную личность человека по его голосу (то есть точное изображение его лица). Это связано с тем, что наша модель обучена улавливать визуальные особенности (связанные с возрастом, полом и т. Д.), Которые являются общими для многих людей, и только в тех случаях, когда есть достаточно веские доказательства, чтобы связать эти визуальные особенности с голосовыми / речевыми атрибутами в данные (см. «корреляцию голоса и лица» ниже). Таким образом, модель будет создавать только лица среднего вида с характерными визуальными особенностями, которые коррелируют с входной речью. Он не будет создавать изображения конкретных людей.
Это действительно так, но я могу представить, как какое-то правоохранительное учреждение использует это для создания подобия, скажем, террориста, основываясь на звонке с угрозой. Это нормально или слишком велика вероятность того, что галлюцинации нейронной сети пробьются к выходу? Большой проблемой является то, что нейронные сети имеют мало или обычно не дают оценок их точности. Это так же субъективно, как если бы человек-художник слушал голос, а затем рисовал лицо, но это производит впечатление более объективного, чем это.
Вот несколько ошибок из статьи:

Я впечатлен и думаю, что это могло бы быть полезно, но так легко могло пойти очень плохо.


Добавить комментарий