Голосовой ввод BING на базе глубокого обучения


Глубокие нейронные сети, похоже, вступают в новую фазу, и ИИ становится мейнстримом. Microsoft реализовала голосовой поиск BING с использованием искусственных нейронов, и система работает быстрее и точнее.

После того, как Google использовал DNN Deep Neural Networks для реализации поиска изображений в Google+, Microsoft теперь развернула систему распознавания голоса на основе DNN.

Как вы, наверное, догадались, основа была проделана Microsoft Research:
«За последние несколько лет Фрэнк Сейде, старший научный сотрудник Microsoft Research Asia, и Донг Ю, старший научный сотрудник Центра исследований разговорных систем в Microsoft Research Redmond, были в авангарде этого прогресса, работая с учеными и инженерами из Команда Bing Speech должна значительно улучшить скорость и точность голосового поиска Bing «.
Утверждается, что использование DNN сократило время распознавания вдвое и снизило частоту ошибок по словам на 15%. Кроме того, он менее чувствителен к фоновому шуму. Тип развернутой DNN — это контекстно-зависимая DNN, которая изучает скрытую марковскую модель (HMM). HMM имеет долгую историю почти успешного распознавания речи, но в сочетании с DNN он, кажется, оправдывает свои обещания. Неясно, какой именно дизайн DNN используется, но вы можете прочитать о некоторых системах-кандидатах в разделе «Транскрипция разговорной речи с использованием контекстно-зависимых глубинных нейронных сетей».
Как сообщает Дон Ю, результаты были впечатляющими и захватывающими:
«Я впервые осознал эффект DNN, когда мы успешно добились значительного снижения количества ошибок в наборе данных голосового поиска после реализации контекстно-зависимой скрытой марковской модели глубокой нейронной сети.
Я был так взволнован, что не спал той ночью. Я понял, что мы совершили прорыв, и позвонил Цян Хо [менеджеру по исследованиям Microsoft Research в Азии, который также работал над распознаванием речи] поздно ночью — днем в Китае — для описания идей и результатов ».

Видео: Bing делает голосовой поиск на Windows Phone более точным и в два раза быстрее

Это тот же подход к распознаванию речи, который использовался в демонстрации перевода голоса в реальном времени на конференции Computing in 21st Century, на которой Рич Рашид, главный исследователь Microsoft, говорил на английском языке, который был распознан и переведен на китайский язык в реальном времени.
Один странный вывод заключается в том, что обучение системы, использующей речь на одном языке, улучшает распознавание на другом языке. Это имеет не только практическое значение, когда доступность оцифрованного звука для языка невелико, но и должно что-то говорить об универсальности человеческой речи.
Где DNN сделают следующий прорыв?


Добавить комментарий