WaveNet — это нейронная сеть, которая генерирует речь лучше, чем когда-либо прежде. Но прежде чем вы просто спишете это как еще одно в длинной череде успехов нейронных сетей, это может быть большим прорывом, чем просто голос.
Основная часть этой истории заключается в том, что фабрика искусственного интеллекта Google DeepMind успешно создала нейронную сеть, которая, помимо прочего, синтезирует речь лучше, чем любое другое программное обеспечение. Интересен способ, которым он это делает, но более важный момент заключается в том, что этот подход вполне может работать с любым изменяющимся во времени сигналом. То есть WaveNet — это новый подход к предсказанию временных рядов, имеющий множество приложений. Некоторые из приложений потенциально являются чисто практическими, например, прогнозирование колебаний фондового рынка — при условии, что на фондовом рынке есть какая-то закономерность — а некоторые — очень фундаментальные ИИ.
Основная идея состоит в том, чтобы использовать сверточную сеть, подобную сетям обработки изображений, которые недавно добились такого успеха, но только в одном измерении. В этом случае данные представлены в виде упорядоченного по времени ряда, а предыдущие выборки используются для прогнозирования текущей выборки.
Вы можете увидеть структуру WaveNet на анимации ниже:
Каждый раз, когда добавляется новый сэмпл, вся осциллограмма перемещается на одну позицию вверх. Также обратите внимание, что возможность подключения на каждом слое различается, чтобы обеспечить разнесенную свертку. Это очень похоже на гауссову пирамиду разрешений, используемую при обработке изображений, и позволяет сети выделять объекты в разных масштабах.
Сеть обучалась только на образцах речи, а затем запускалась как генеративная сеть, подавая выходные данные обратно на вход, чтобы создать следующую выборку. В результате получается лепет, который звучит очень по-человечески. Он включает звуки, похожие на речь, дыхание и другие артефакты. Полученные фрагменты соответствуют нескольким миллисекундам выборок, которые охватывает сеть.
Затем сеть была обучена добавлением обработанного текста, чтобы обеспечить ассоциации между символическим вводом и речевым выводом. В результате получается сеть, которая может синтезировать речь. Сеть была обучена английскому и мандаринскому языкам и улучшила предыдущие методы синтеза речи более чем на 50%, по оценке экспертной группы.
Помимо связывания текста с речью, была включена идентификация различных говорящих, что позволяет сети имитировать определенные человеческие голоса.
В качестве последнего выхода на бис, но менее интересного, чем другие результаты, телеканалу разрешили послушать фортепианную музыку. В результате он может воспроизводить своего рода лепет звуков и жестов фортепиано. Весело, но бесполезно. В статье говорится, что эта способность доказывает, что сеть может захватывать модель любых аудиоданных, и фортепианная музыка доказывает это.
Это только верхушка айсберга.
В аудиоданных нет ничего особенного, и похоже, что тот же подход будет работать с любыми временными рядами. Традиционно в моделях временных рядов используются модели авторегрессии, точно такие же, как для WaveNet. Большая разница в том, что модели имеют очень небольшое количество параметров по сравнению с типичной нейронной сетью. Похоже, что информации о размере сети нет, но твит исследователя DeepMind предполагает, что для генерации всего одной секунды звука с использованием фермы графических процессоров Google требуется 90 минут вычислений. Это не будет практическим предложением, пока оборудование не догонит, но, зная оборудование, это не займет много времени.
WaveNet достигает своей производительности за счет наличия большого количества параметров и использования алгоритма глубокого обучения. По сравнению с ним традиционные модели авторегрессии — это игрушки. Конечно, чтобы обучение работало, вам понадобится много данных, поэтому, возможно, этот метод не так просто применить к видам данных, для которых используются традиционные модели ARIMA и аналогичные модели. Но это должно быть эпоха больших данных.
Вы можете узнать больше из статьи и послушать образцы на веб-сайте DeepMind.