Если вы знаете Флинтстоунов, а если нет, то слишком долго пробыли под (Кроватью) скалой, тогда фраза «Фред разговаривает с Барни в гостиной» заставит вас представить себе эту сцену. Теперь система искусственного интеллекта может визуализировать это по-настоящему, создавая мультфильмы по размеру.
Это больше, чем просто еще один хитрый трюк с нейронными сетями. Это признак того, что ИИ движется к более крупным системам, в которых глубокие нейронные сети выполняют разные задачи и работают вместе для создания решения. Можно назвать это вторым этапом глубоких нейронных сетей. Команда исследователей из Института искусственного интеллекта Аллена и Университета Иллинойса в Урбане-Шампейн усердно работает над созданием первых новых серий «Флинтстоунов» за 50 лет, но имейте в виду, что они очень короткие.
Задача интересна не только потому, что она дает вам возможность создавать мультфильмы без каких-либо навыков или даже без каких-либо художников рисовать рамки, но и потому, что у нее есть набор различных навыков, которые нужно освоить. ИИ не только должен понимать описание, он также должен извлекать элементы мультфильма из данных и повторно собирать их, чтобы создать новый мультфильм. В этом случае система разбивается на три большие подсистемы — Composition, Retrieval и Fusion Networks, или сокращенно CRAFT. Система работает в виде законченных графических объектов, таких как «Фред» или «Барни».
Альтернативный подход — взять систему сквозного обучения и попытаться генерировать пиксели индивидуально. В этом случае сеть узнает расположение пикселей, необходимое для отображения «Фреда», выполняющего различные действия.
Для обучения сетей был создан новый набор данных Flintstones, плотно аннотированный набор данных на основе мультсериала The Flintstones, состоящий из более чем 25000 видеороликов, каждый длиной 75 кадров. Пример кадра:
Система была протестирована на видимых и невидимых данных и сравнена с пиксельным подходом. То есть система генерировала мультфильмы, которые были новыми из описаний, которые были новыми.
Вы можете увидеть результаты в следующем видео:
Итак, что все это значит — помимо того, что оно привлекает поклонников Флинтстоуна?
Да, я полагаю, что при наличии времени и усилий что-то вроде CRAFT можно было бы превратить в генератор мультфильмов и выбросить тысячи аниматоров без работы, но компьютерная графика уже уходит на этот рынок труда. Вполне может быть рынок для системы, которая может взять довольно подробный сценарий и в будущем превратить его в мультфильм или даже в реалистичное видео, но это не является важностью работы.
CRAFT представляет собой сложную систему искусственного интеллекта, включающую несколько сетей, которая делает шаг к представлению сцены по ее описанию. На данный момент эта сцена представляет собой плоскую двухмерную мультяшную картину, но только подумайте, для чего ее можно было бы использовать, если бы это была полная трехмерная модель. Как вы решаете проблемы визуально? AI будет делать аналогичные вещи в будущем.