Исследователи из Исследовательского института Honda в Японии работают над прослушиванием роботов — способностью роботов распознавать звуки и понимать их. Два видео показывают впечатляющий прогресс.
HEARBO (СЛЫШАЩИЙ робот) разрабатывается в Исследовательском институте Honda в Японии (HRI-JP), и на Международной конференции по интеллектуальным роботам и системам (IROS) в этом году были представлены документы, описывающие его последние функциональные возможности в области, называемой Вычислительным анализом слуховых сцен.
Согласно IEEE Spectrum, типичные подходы к прослушиванию роботов используют метод, называемый формированием луча, чтобы «сосредоточиться» на звуке, например, на говорящем человеке. Затем система принимает этот звук, выполняет некоторое шумоподавление, а затем пытается понять, что говорит человек, используя автоматическое распознавание речи.
Исследователи HEARBO делают шаг вперед в подходе к формированию луча, используя 3-ступенчатую парадигму локализации, разделения и распознавания. Эта система, называемая HARK, позволяет извлекать оригинальные звуки из смеси звуков в зависимости от того, откуда они исходят. Их рассуждения состоят в том, что «шум» должен не просто подавляться, а выделяться и затем анализироваться, поскольку определение шума сильно зависит от ситуации. Например, плач ребенка может считаться шумом, или он может передавать очень важную информацию.
На IROS 2012 Кейсуке Накамура из HRI-JP представил свой новый алгоритм локализации источника звука с суперразрешением, который позволяет обнаруживать звуки с точностью до 1 степени.
Используя методы, разработанные командой Кадзухиро Накадаи в HRI-JP, на практике можно обнаружить и распознать до четырех различных одновременных звуков или голосов. Теоретически, с помощью восьми микрофонов можно одновременно отделить и распознать до семи различных источников звука, чего не могут сделать люди с двумя ушами.
Как показано в этом видео, Накамура также научил ХИРБО понятиям музыки, человеческого голоса и звуков окружающей среды. Услышав песню, которую он никогда раньше не слышал, он может сказать: “Я слышу музыку!” Это означает, что HEARBO может отличить человека, отдающего ему команды, от певца по радио.
В этом видео различные источники звука расположены вокруг HEARBO, и мы видим, как робот распознает звуки, определяет местоположение, из которого они исходят, и фокусирует свое внимание на каждом источнике один за другим:
Еще одним направлением исследований Honda является подавление эго-шума — фильтрация внутреннего самогенерируемого шума, который издают их двигатели при движении,-что сродни тому, как человеческая слуховая система отфильтровывает звук сердцебиения.
Для этого микрофоны встроены в тело HEARBO, чтобы вычитать внутренний шум из звуков, поступающих через его головные микрофоны. В этом втором видео HEARBO не только демонстрирует свои танцевальные движения, но и свою способность обрабатывать множество звуков: