Группа исследований речи и диалога, входящая в состав Microsoft Artificial and Intelligence and Research, достигла нового рубежа в распознавании разговорной речи, снизив уровень ошибок в словах до 5,1 процента.
Первоначально мы сообщали о том, как Microsoft применяла глубокие нейронные сети для распознавания речи шесть лет назад, и с каждым годом все больше продвигается к цели, позволяющей компьютерам понимать, что говорят люди, и включать эту способность в такие технологии, как Cortana, Sykpe. Переводчик и другие когнитивные услуги, связанные с речью и языком.
В прошлом году Сюэдун Хуанг, главный специалист по речи Microsoft, объявил о крупном прорыве — системе распознавания речи, которая распознает слова в разговоре с коэффициентом ошибок 5,9 процента, что такое же или ниже, чем у профессиональных транскрипционистов. Это улучшение по сравнению с показателем ошибок в 6,3% по сравнению с предыдущим месяцем, о котором сообщалось в Microsoft 2016 Conversational Speech Recognition System.
Теперь команда, возглавляемая Хуангом, создала Систему распознавания разговорной речи Microsoft 2017, в которой подробно описаны улучшения, призванные заявить о новом рекордном уровне ошибок в 5,1%, опять же с задачей транскрипции разговорной речи Switchboard, которая использовалась более чем на 20 лет на тестирование систем распознавания речи.
Коммутатор — это корпус записанных телефонных разговоров между незнакомыми людьми, обсуждающими такие темы, как спорт и политика. Комментируя успехи этого года в блоге Microsoft Research, Сюэдун Хуанг заявляет:
Мы снизили уровень ошибок примерно на 12 процентов по сравнению с уровнем точности прошлого года, применив ряд улучшений наших акустических и языковых моделей на основе нейронных сетей. Мы представили дополнительную модель CNN-BLSTM (сверточная нейронная сеть в сочетании с двунаправленной долгосрочной краткосрочной памятью) для улучшенного акустического моделирования. Кроме того, наш подход к объединению прогнозов из нескольких акустических моделей теперь делает это как на уровне кадра / сенона, так и на уровне слова.
Более того, мы усилили языковую модель распознавателя, используя всю историю сеанса диалога, чтобы предсказать, что может произойти дальше, что позволило модели эффективно адаптироваться к теме и местному контексту разговора.
Подробности приведены в недавно опубликованном отчете, в котором представлена эта схема:
Хуанг объясняет недавний успех возможностью использовать Microsoft Cognitive Toolkit 2.1, который он описывает как «наиболее масштабируемое доступное программное обеспечение для глубокого обучения», и графические процессоры Azure, которые помогли повысить эффективность и скорость обучения моделей и тестирования новых идей.
Он отмечает, что хотя достижение точности, сопоставимой с человеческой, было целью исследования в течение последних 25 лет, его группа все еще работает над обучением компьютеров не только транскрибированию произнесенных слов, но и пониманию их значения и намерений, заключая :
Переход от распознавания речи к пониманию — следующий важный рубеж в развитии речевых технологий.