Похоже, что воздушная гитара — это следующая область, в которой ИИ собирается сокрушить хилых людей. В данном случае это «воздушная» скрипка и фортепиано, но принцип тот же. Думаю, настоящий вопрос в том, почему Facebook так заинтересован?
Это еще одна обратная проблема, то есть вернуться от данных к тому, как они были произведены. В этом случае данные — это музыка, а идея состоит в том, чтобы восстановить, как на инструменте играли для создания музыки. Команда исследователей из Вашингтона, Стэнфорда и Facebook взяла LSTM — нейронную сеть с почти парадоксальным названием Long Short Term Memory — и позволила ей смотреть на YouTube видео людей, играющих на пианино и скрипке, и обучила ее создавать правильные движения рук. включая положение запястий и пальцев.
Это не «сквозная» обработка, поскольку видео были уменьшены до набора положений тела с помощью MaskRCNN или OpenPose. Другими словами, входом в сеть LSTM была музыка плюс позиции, полученные от чего-то вроде скелета Kinect исполнителя. После обучения сеть выводит позиции на основе музыкального ввода, и они могут быть преобразованы в аватара, играющего музыку — ну, притворяющегося, что играет музыку.
Посмотрите, что вы думаете о результате:
Ясно, что его уже достаточно для многих приложений, но что это за приложения?
Обратите внимание, что все четверо исследователей связаны с Facebook. Какое возможное приложение может иметь аватар, играющий на музыкальном инструменте, для Facebook? Кроме того, что я не могу придумать, как использовать этот воздушный музыкальный инструмент, кроме порки нас, людей? Это забавный проект, и интересно знать, что эта конкретная обратная задача в значительной степени решается с использованием LSTM, но помимо этого, я не уверен, что знаю почему.
Возможно, отрывок из статьи даст вам пищу для размышлений;
«Мы представляем метод, который получает на входе звук игры на скрипке или фортепиано и выводит видео с предсказаниями скелета, которые в дальнейшем используются для анимации аватара. Ключевая идея — создать анимацию аватара, который двигает руками так же, как как бы поступил пианист или скрипач, просто по звуку. Конечная цель — стремление к полностью детализированному правильному движению рук и пальцев, однако неясно, можно ли вообще предсказать движение тела по музыке. В этой статье мы представляем Первый результат, который показывает, что естественная динамика тела может быть предсказана. Мы построили сеть LSTM, которая обучается на видео с концертов на скрипке и фортепиано, загруженных в Интернет. Предсказанные точки применяются к искусственному аватару для создания анимации ».
Неужели мы скоро увидим, как музыкантов заменят композиторы с искусственным интеллектом, работающие с оркестрами аватаров?