Решение ИИ для «проблемы коктейльной вечеринки», используемое в суде


Это извечная «проблема коктейльной вечеринки» — стоять в комнате, полной людей, с напитком в руке, пытаясь услышать, что говорит ваш сосед по комнате.

На самом деле, люди удивительно искусны в поддержании разговора с одним человеком, отфильтровывая конкурирующие голоса.

В группах люди отсеивают разговоры вокруг себя — и теперь технологии могут делать то же самое
В группах люди отсеивают разговоры вокруг себя — и теперь технологии могут делать то же самое

Однако, возможно, это удивительно, но это навык, который технологии до недавнего времени не могли воспроизвести.

И это важно, когда дело доходит до использования аудиодоказательств в судебных делах. Голоса на заднем плане могут затруднить определение того, кто говорит и что говорится, что потенциально делает записи бесполезными.

Инженер-электрик Кит МакЭлвин, основатель и главный технический директор Wave Sciences, заинтересовался этой проблемой, когда работал на правительство США над делом о военных преступлениях.

«Мы пытались выяснить, кто заказал массовое убийство мирных жителей. Среди доказательств были записи с кучей голосов, говорящих одновременно, — и вот тогда я понял, в чем заключалась «проблема коктейльной вечеринки»», — говорит он.

«Мне удалось удалить из речи шум, например, шум автомобиля, кондиционера или вентилятора, но когда я начал пытаться удалить из речи речь, это оказалось не только очень сложной задачей, но и одной из классических сложных проблем в акустике.

«Звуки отражаются в комнате, и математически решить эту проблему ужасно».

Кейт МакЭлвин основал Wave Sciences в 2008 году, чтобы сосредоточиться на «проблеме коктейльной вечеринки»
Кейт МакЭлвин основал Wave Sciences в 2008 году, чтобы сосредоточиться на «проблеме коктейльной вечеринки»

По его словам, ответ заключался в том, чтобы использовать ИИ для определения и отсеивания всех конкурирующих звуков на основе того, откуда они изначально исходили в комнате.

Это касается не только других людей, которые могут говорить, но также есть значительное количество помех из-за того, как звуки отражаются в комнате, при этом голос говорящего слышен как напрямую, так и косвенно.

В идеальной безэховой камере — полностью свободной от эха — одного микрофона на каждого говорящего было бы достаточно, чтобы уловить то, что говорят все; но в реальной комнате для решения этой проблемы требуется микрофон для каждого отраженного звука тоже.

МакЭлвин основал Wave Sciences в 2009 году, надеясь разработать технологию, которая могла бы разделять накладывающиеся голоса. Изначально фирма использовала большое количество микрофонов в так называемом массивном формировании луча.

Однако отзывы потенциальных коммерческих партнеров были таковы, что система требовала слишком много микрофонов для соответствующей стоимости, чтобы давать хорошие результаты во многих ситуациях, и вообще не работала бы во многих других ситуациях.

«Общим рефреном было то, что если бы мы могли придумать решение, которое устраняло бы эти проблемы, они были бы очень заинтересованы», — говорит МакЭлвин.

И он добавляет: «Мы знали, что должно быть решение, потому что вы можете сделать это всего с двумя ушами».

Компания наконец решила проблему после 10 лет исследований, финансируемых изнутри, и подала заявку на патент в сентябре 2019 года.

Wave Sciences потребовалось 10 лет, чтобы решить «проблему коктейльной вечеринки»
Wave Sciences потребовалось 10 лет, чтобы решить «проблему коктейльной вечеринки»

Они придумали ИИ, который может анализировать, как звук отражается в комнате, прежде чем достичь микрофона или уха.

«Мы улавливаем звук, когда он достигает каждого микрофона, возвращаемся, чтобы выяснить, откуда он пришел, а затем, по сути, подавляем любой звук, который не мог исходить оттуда, где сидит человек», — говорит МакЭлвин.

Эффект в некоторых отношениях сопоставим с тем, когда камера фокусируется на одном объекте и размывает передний и задний план.

«Результаты не кажутся кристально чистыми, когда для обучения можно использовать только очень шумную запись, но они все равно ошеломляют».

Впервые технология была использована в реальных криминалистических целях в деле об убийстве в США, где доказательства, которые она смогла предоставить, оказались центральными для обвинительных приговоров.

После того, как два киллера были арестованы за убийство человека, ФБР захотело доказать, что их наняла семья, переживающая спор об опеке над ребенком. ФБР устроило так, чтобы семья поверила, что их шантажируют за их участие, а затем откинулось назад, чтобы посмотреть на реакцию.

В то время как ФБР было достаточно легко получить доступ к текстовым сообщениям и телефонным звонкам, личные встречи в двух ресторанах были другим делом. Но суд разрешил использовать алгоритм Wave Sciences, что означало, что аудиозапись превратилась из недопустимой в ключевую часть доказательства.

С тех пор другие правительственные лаборатории, в том числе в Великобритания, провели ряд испытаний. Теперь компания продает технологию американским военным, которые используют ее для анализа сигналов гидролокатора.

По словам МакЭлвина, ее также можно применять в переговорах о заложниках и сценариях самоубийств, чтобы убедиться, что обе стороны разговора будут услышаны, а не только переговорщик с мегафоном.

В конце прошлого года компания выпустила программное приложение, использующее ее обучающий алгоритм для использования правительственными лабораториями, проводящими аудиоэкспертизу и акустический анализ.

В конечном итоге Wave хочет выпустить версии своего продукта для использования в интеллектуальных колонках
В конечном итоге Wave хочет выпустить версии своего продукта для использования в интеллектуальных колонках

В конечном итоге компания aito представила адаптированные версии своего продукта для использования в аудиозаписывающих устройствах, голосовых интерфейсах для автомобилей, интеллектуальных колонках, дополненной и виртуальной реальности, сонаре и слуховых аппаратах.

Так, например, если вы разговариваете со своим автомобилем или интеллектуальным колонкой, неважно, много ли шума вокруг вас, устройство все равно сможет разобрать, что вы говорите.

По словам преподавателя судебной экспертизы Терри Арменты из Академии судебной экспертизы, ИИ уже используется и в других областях криминалистики.

«Модели машинного обучения анализируют голосовые шаблоны для определения личности говорящих, что особенно полезно в уголовных расследованиях, где необходимо подтвердить подлинность голосовых доказательств», — говорит она.

«Кроме того, инструменты ИИ могут обнаруживать манипуляции или изменения в аудиозаписях, обеспечивая целостность доказательств, представленных в суде».

ИИ также проникает в другие аспекты аудиоанализа.

Самарджит Дас с SoundSee, который может предсказать неисправность автомобиля до того, как она произойдет
Самарджит Дас с SoundSee, который может предсказать неисправность автомобиля до того, как она произойдет

У Bosch есть технология SoundSee, которая использует алгоритм обработки аудиосигнала для анализа, например, звука двигателя, чтобы предсказать неисправность до того, как она произойдет.

«Традиционные возможности обработки аудиосигнала не позволяют понимать звук так, как это делаем мы, люди», — говорит доктор Самарджит Дас, директор по исследованиям и технологиям в Bosch USA.

«Звуковой ИИ позволяет глубже понимать и семантически интерпретировать звуки окружающих нас вещей лучше, чем когда-либо прежде, например, звуки окружающей среды или звуковые сигналы, исходящие от машин».

Более поздние испытания алгоритма Wave Sciences показали, что даже с двумя микрофонами технология может работать так же хорошо, как человеческое ухо, а при добавлении большего количества микрофонов — еще лучше.

И они также выявили кое-что еще.

«Математика во всех наших тестах показывает поразительное сходство с человеческим слухом. Есть небольшие странности в том, что может делать наш алгоритм и насколько точно он может это делать, которые поразительно похожи на некоторые странности, существующие в человеческом слухе», — говорит МакЭлвин.

«Мы подозреваем, что человеческий мозг может использовать ту же математику — что при решении задачи о коктейльной вечеринке мы, возможно, наткнулись на то, что на самом деле происходит в мозге».


Добавить комментарий