Представьте, что вы могли бы использовать поиск по аудио, а также по тексту. Ну, это не обязательно сон, благодаря MAVIS.
Исследовательский проект Microsoft используется для предоставления индексов к записям речи в ряде технических предварительных просмотров.
Система индексирования аудио-видео Microsoft Research (MAVIS) работает на экспериментальной основе в цифровых архивах штатов Джорджия, Монтана и Вашингтон, а также Министерства энергетики США, Британской библиотеки и, совсем недавно, ЦЕРНА, Европейской организации ядерных исследований.
Более интересно для разработчиков, что программные компоненты работают как служба в Windows Azure, как компоненты текстового поиска для SQL Server 2005 и 2008, а также некоторые клиентские инструменты PowerShell и .NET. Это открывает возможность предоставления в ваших приложениях инструментов, которые предоставили бы вашим пользователям средства для выполнения текстового поиска по цифровому аудиоконтенту.
MAVIS-это набор программных компонентов, использующих технологию распознавания речи для поиска оцифрованного речевого контента, такого как презентации, онлайн-лекции или записи телефонных звонков или встреч.
Пользовательский интерфейс MAVIS представляет собой набор страниц aspx, которые могут быть изменены в соответствии с различными приложениями. Средства на стороне клиента MAVIS позволят вам отправлять аудио-видеоконтент в приложение распознавания речи, работающее в службе Azure, с помощью файла в формате RSS и извлекать результаты, чтобы их можно было импортировать в SQL Server для полнотекстовой индексации. Это позволяет искать аудио-видео контент так же, как и любой другой текст.
Согласно исследованиям Microsoft, MAVIS позволяет осуществлять поиск не только в аудиофайлах, но и в видео. Кадры с совещаний, презентаций, онлайн-лекций и другого, как правило, не закрытого контента с субтитрами-все это выигрывает от подхода, основанного на речи.
В настоящее время МЭВИС является исследовательским проектом с ограниченной программой технического предварительного просмотра. Если вы развернули Microsoft SQL Server, имеете большие речевые архивы и заинтересованы в программе технического предварительного просмотра MAVIS, вы можете связаться с Microsoft Research, чтобы присоединиться к техническому предварительному просмотру. Подробности на сайте МЭВИС. Остальным из нас придется подождать, пока инструменты станут более общедоступными.
Одной из ключевых особенностей MAVIS является использование метода, разработанного исследователями из Microsoft Research Asia, под названием Вероятностное индексирование словесной решетки, которое повышает точность индексирования разговорной речи. Индексация решетки настраивается на рейтинг доверия системы для распознавания слова и альтернативных кандидатов на распознавание.
Когда мы распознаем звуковую дорожку видео
Фрэнк Сейде, старший научный сотрудник и руководитель исследований Microsoft Research Asia, объясняет
Мы сохраняем альтернативы. Если я скажу «Крымская война», система может подумать, что я сказал «преступление на войне», потому что ему не хватает контекста. Но мы сохраняем это в качестве альтернативы. Сохраняя несколько вариантов слов, а также слово с наибольшей степенью достоверности, мы получаем гораздо лучшие показатели отзыва на этапе поиска.
Мы представляем альтернативы слов в виде графовой структуры: решетки. Эксперименты показали, что, когда дело дошло до многословных запросов, индексация и поиск по этой словесной решетке значительно улучшили результаты для точности поиска документов по сравнению с обычными транскриптами преобразования речи в текст: улучшение на 30-60 процентов для запросов фраз и более чем на 200 процентов для запросов, состоящих из нескольких слов или фраз.
Вы можете ознакомиться с демонстрацией MAVIS на веб-сайте Microsoft Video Web, где было проиндексировано более 15 000 новостных видеороликов MSNBC, и вы можете прочитать больше о технических особенностях MAVIS на веб-сайте Microsoft Research.