Используя алгоритм, основанный на глубоком обучении, исследователи создали видеоролики, в которых неподготовленные любители, похоже, освоили танцевальные движения поп-звезд, выполняют удары ногами в боевых искусствах и изящно кружатся, как балерины.
Кэролайн Чан, Шири Гиносар, Тинхуэй Чжоу и Алексей А. Эфрос из Калифорнийского университета в Беркли придумали метод передачи движения «делай, как я». Имея два видео, один из целевого человека, выполняющего стандартные движения, который позже окажется выполняя действия, выходящие далеко за рамки их возможностей, и другой из исходного объекта, движение которого должно быть наложено на целевого человека, движение передается между этими субъектами через сквозной пиксельный конвейер.
Для покадровой передачи движения между исходным и целевым объектами требовалось сопоставление изображений двух людей. Однако отсутствуют соответствующие пары изображений двух субъектов, выполняющих одни и те же движения, для непосредственного наблюдения за изучением этого перевода. Даже если бы оба объекта выполняли одну и ту же процедуру, не было бы точного кадра для кадрирования соответствия позы тела из-за формы тела и стилистических различий, уникальных для каждого объекта. Вместо этого поза на основе ключевых точек, которая кодирует положение тела, но не внешний вид, может служить промежуточным представлением между любыми двумя объектами, и для этого использовались фигурки из палочек.
Из целевого видео были получены определения позы для каждого кадра, в результате чего был получен набор (фигурка позы, изображение целевого человека) соответствующих пар. Этих согласованных данных было достаточно для изучения модели преобразования изображения в изображение между фигурками поз и изображениями целевого человека под наблюдением.
Затем, чтобы передать движение от источника к цели, фигурки из палочек вводились в обученную модель для получения изображений целевого объекта в той же позе, что и исходный.
Два дополнительных компонента улучшают качество результатов: для временной плавности сгенерированных видео, прогноз для каждого кадра был предсказан на основе предыдущего временного шага. Чтобы повысить реализм лица, был включен специализированный GAN, обученный генерировать лицо целевого человека.
Исследователи пришли к выводу:
Наш метод позволяет создавать видеоролики, в которых движение передается между различными объектами видеосъемки, без необходимости использования дорогостоящих 3D-данных или данных захвата движения. Наш основной вклад — это основанный на обучении конвейер для передачи движений человека между видео и качество наших результатов, которые демонстрируют сложную передачу движения в реалистичных и детализированных видео. Мы также проводим исследование абляции компонентов нашей модели по сравнению с базовой структурой.
Посмотрите видео «Танцуют все сейчас» до самого конца, чтобы увидеть, как целевые испытуемые выполняют движения, которым балерина тренируется полжизни.
Это еще один пример переноса стиля, то, что ИИ, похоже, используется во многих сферах, как мы отметили только на прошлой неделе, см. Более эффективный алгоритм переноса стиля.