Этот конкретный прорыв звучит как мистификация, но, учитывая родословную вовлеченных исследователей — MIT, Microsoft и Adobe, — нам лучше отнестись к нему серьезно. Если серьезно отнестись к этому, у него есть определенный вау-фактор, который заставляет вас думать, что с правильным алгоритмом все возможно.,
Вы, вероятно, привыкли ко всем глупостям, которые компьютеры делают в фильмах и телешоу, но это похоже на что-то из плохого шоу CSI, которое оказывается реальным. Исследователи использовали видеокамеру для восстановления звуков по тому, как объекты движутся в ответ на звук. Это кажется простой технической задачей, пока вы не поймете, что это не специально подготовленный объект, а демонстрация включала пакет картофельных чипсов за звуконепроницаемым стеклом на высоте пятнадцати футов.
Другие успехи были связаны с алюминиевой фольгой, поверхностью стакана воды и листьями растения в горшке.
Конечно, физические принципы, о которых идет речь, довольно очевидны и хорошо известны. Звук-это просто вибрации в воздухе, и эти вибрации заставляют вибрировать объекты в той же комнате. Трудность заключается в том, что эти вибрации объекта очень малы, и их связь с исходным звуком сложна.
Существует также небольшой факт, что для улавливания звуковых частот необходимо иметь видеокамеру с высокой частотой кадров — требуется от 2000 до 6000 кадров в секунду. Большинство компьютерных видеокамер управляют примерно 60 кадрами в секунду. Тем не менее, и это очень умно, вы можете получить информацию о движении от стандартной видеокамеры со скоростью 60 кадров в секунду. Хитрость заключается в том, чтобы искать небольшие искажения по краям объектов во время сканирования кадра. Поскольку датчики освещенности считывают строку за раз, вы можете определить движения быстрее, чем частота кадров, ища сдвиги в положении края между каждой строкой пикселей.
Этот метод также использует небольшие изменения цвета пикселя на краю объекта. Если объект красный, а фон желтый, то по мере того, как край перемещается, чтобы покрыть большую или меньшую часть пикселя, цвет, который он воспринимает, меняется с красного на оранжевый, а затем на желтый.
В целом, однако, похоже, что ключевым методом в этом процессе является алгоритм наблюдения Эйлера, который мы описали несколько месяцев назад. Это фильтрует и усиливает изменения в визуальной сцене. Его первое применение состояло в том, чтобы определить пульс в венах или по изменению цвета лица пользователя. Алгоритм с некоторой специализацией используется для обнаружения движения краев объекта, и из этого выводится звук, который вызвал его вибрацию.
Чтобы увидеть это в действии, посмотрите Следующее видео, созданное исследователями:
Звук, восстановленный стандартной камерой, не так хорош, но все равно впечатляет.
Этот документ будет представлен на совещании ACM SIGGRAPH в этом году.
Как сказал один из исследователей, Алексей Эфрос из Калифорнийского университета в Беркли:
“Мы ученые, и иногда мы смотрим эти фильмы, как Джеймс Бонд, и думаем: «Это голливудский театр. Это невозможно сделать. Это просто смешно. И вдруг, вот оно. Это совершенно не похоже на какой-то голливудский триллер. Вы знаете, что убийца признал свою вину, потому что есть записи с камер наблюдения, на которых вибрирует его пакет с картофельными чипсами.”
Что еще можно сказать?
Особенно если рядом есть пакет с картофельными чипсами….