Возможно, вы слышали о супервидении или сверхвысоком разрешении, реализованном с помощью нейронной сети. Сверточные нейронные сети были изобретены для решения проблемы компьютерного зрения, но как насчет звука? Оказывается, нейронная сеть может узнать достаточно о звуке, чтобы сделать запись с низким разрешением и превратить ее в Hi-Fi.
Это действительно полезная идея. Возьмите аудиозапись или прямую трансляцию плохого качества и обработайте ее так, чтобы она выглядела как высококачественная. Это аудиоэквивалент масштабирования видео, чтобы преобразовать видео с низким разрешением, скажем, в видео 4K. Нейронные сети добились больших успехов в масштабировании, и они, похоже, могут вывести недостающую информацию после того, как научились масштабировать намеренно ухудшенные изображения. Теперь те же идеи были применены к аудио.
Владимир Кулешов, С. Зайд Энам и Стефано Эрмон из Стэнфорда использовали нейронные сети для непосредственной работы со звуком:
В этой статье мы исследуем новые облегченные алгоритмы моделирования звука. В частности, мы фокусируемся на конкретной проблеме генерации звука, называемой расширением полосы пропускания, в которой задача состоит в том, чтобы восстановить высококачественный звук из низкокачественного входного сигнала с пониженной дискретизацией, содержащего лишь небольшую часть (15-50%) исходного. образцы. Мы представляем новую технику на основе нейронных сетей для решения этой проблемы, основанную на алгоритмах сверхвысокого разрешения изображений, которые используют методы машинного обучения для интерполяции изображения с низким разрешением в изображение с более высоким разрешением. Методы, основанные на обучении, часто работают лучше в этом контексте, чем схемы интерполяции общего назначения, такие как сплайны, потому что они используют сложные предметно-ориентированные модели появления естественных сигналов.
Как и в случае со сверхвысоким разрешением изображения, наша модель обучается на парах образцов низкого и высокого качества; во время тестирования он предсказывает недостающие выборки входного сигнала с низким разрешением. В отличие от недавних нейронных сетей для генерации сырого звука, наша модель является полностью прямой и может работать в режиме реального времени. Помимо множества практических приложений, наш метод также предлагает новые способы улучшения существующих генеративных моделей звука.
Вы можете увидеть, насколько хорошо этот метод работает, посмотрев на спектрограммы исходного, деградированного, восстановленного традиционным способом и затем масштабированного нейронной сетью аудио:
Вы можете видеть, что в аудио, реконструированном нейронной сетью, происходит гораздо больше на высоких частотах. Вы также можете прослушать результаты по адресу: https://kuleshov.github.io/audio-super-res/.
Еще одна интересная особенность заключается в том, что техника также «галлюцинирует» звуки, которых не было, так же, как это делают визуальные нейронные сети. Возможно, это тоже можно использовать в творческих целях.
Код доступен на GitHub и использует TensorFlow.
Какие у этого могут быть приложения? Авторы предлагают:
Наша методика расширяет предыдущие работы по сверхвысокому разрешению изображения на область звука; он превосходит предыдущие подходы к расширению полосы пропускания как для речевой, так и для неголосовой музыки. Наш подход быстр и прост в реализации, и он имеет приложения в телефонии, сжатии и преобразовании текста в речь. Та же самая архитектура может использоваться во многих задачах временных рядов за пределами звуковой области. Мы успешно использовали его для вменения данных функциональной геномики и шумоподавления записей ЭЭГ. Следите за обновлениями!