Уже были устройства для отслеживания рук, но они не произвели особого впечатления, но устройство для отслеживания рук, использующее только веб-камеру, может стать прорывом. Веб-камеры есть везде, и программное обеспечение может добавить отслеживание рук практически в любое приложение и почти без затрат.
Отслеживатели движения рук уже были — на ум приходит контроллер движения Leap. Но мы имеем обычную ситуацию с курицей и яйцом. Кто возьмет на себя труд включить отслеживание рук в свой код, если устройств так мало, и кто купит специализированное устройство, если программного обеспечения так мало. Подходы, не требующие специализированных устройств, по-прежнему требуют от пользователя наличия камеры глубины RGBD или, в лучшем случае, двух веб-камер RBG. Последние исследования, похоже, решили эту проблему с помощью одной веб-камеры RBG. Это устраняет проблему курицы и яйца, поскольку большинство ноутбуков, планшетов, телефонов и настольных компьютеров оснащены веб-камерой. Даже те, у которых нет веб-камеры, могут быть оснащены ею за очень небольшую плату, и она пригодится для других задач.
Команда из Института компьютерных наук Макса Планка, Стэнфордского университета и Университета короля Хуана Карлоса представляет свою работу на выставке Cebit, что несколько необычно для академического проекта. Можно догадаться, что метод основан на использовании конволюционной нейронной сети (CNN), но это не так просто — задать сеть и обучить ее. В дополнение к сети имеется кинематическая 3D-модель руки, что означает, что CNN всегда генерирует правдоподобные положения руки, т.е. не имеет пальцев в положениях, похожих на сломанную руку, и предсказания являются временной гладкостью — модель плавно переходит от одного правдоподобного положения руки к другому.
Проблема получения маркированных обучающих данных была решена с помощью генеративной процедуры, которая создавала синтетические изображения рук в известных положениях. Начиная с базы данных из 28 903 реальных изображений рук, нейронная сеть была использована довольно сложным способом для создания дополнительных синтетических изображений, которые затем были улучшены с помощью реального изображения, чтобы быть не хуже реальных.
Посмотрите на эту систему в действии — она выглядит быстрой и точной:
Единственная проблема заключается в том, что для реализации нет исходного кода для загрузки. На сайте есть примечание, в котором говорится, что модель CNN+весы и сгенерированный набор данных «скоро появятся». С моделью и весами было бы относительно легко реализовать трекер. Нет никаких указаний относительно статуса лицензии на программное обеспечение или модель, но тот факт, что она демонстрируется на Cebit, предполагает наличие коммерческих намерений.