Несмотря на годы шумихи, гарнитуры виртуальной реальности еще не вытеснили телевизоры или экраны компьютеров в качестве устройств для просмотра видео. Одна из причин: виртуальная реальность может вызывать у пользователей тошноту. В результате могут возникнуть тошнота и напряжение глаз, поскольку VR создает иллюзию трехмерного просмотра, хотя на самом деле пользователь смотрит на 2D-дисплей с фиксированным расстоянием. Решением для улучшения 3D-визуализации может стать технология 60-летней давности, переделанная для цифрового мира: голограммы.
Голограммы дают исключительное представление о трехмерном мире вокруг нас. К тому же они прекрасны. (Вперед — посмотрите на голографического голубя на своей карте Visa.) Голограммы предлагают меняющуюся перспективу в зависимости от положения зрителя, и они позволяют глазу регулировать глубину фокусировки, чтобы поочередно фокусироваться на переднем и заднем планах.
Исследователи давно стремились создать компьютерные голограммы, но для этого процесса традиционно требовался суперкомпьютер для обработки физических симуляций, что отнимает много времени и может давать менее чем фотореалистичные результаты. Теперь исследователи Массачусетского технологического института разработали новый способ создания голограмм практически мгновенно, а метод, основанный на глубоком обучении, настолько эффективен, что, по словам исследователей, его можно запустить на ноутбуке в мгновение ока.
«Раньше люди думали, что с существующим оборудованием потребительского уровня невозможно выполнять вычисления 3D-голографии в реальном времени», — говорит Лян Ши, ведущий автор исследования и аспирант кафедры электротехники и информатики Массачусетского технологического института (EECS). «Часто говорят, что коммерчески доступные голографические дисплеи появятся через 10 лет, но это заявление существует уже несколько десятилетий».
Ши считает, что новый подход, который команда называет «тензорной голографией», наконец, сделает эту неуловимую 10-летнюю цель достижимой. Прогресс может способствовать распространению голографии в такие области, как виртуальная реальность и 3D-печать.
Ши работал над исследованием, опубликованным в Nature, вместе со своим советником и соавтором Войцехом Матусиком. Среди других соавторов — Бейхен Ли из EECS и Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, а также бывшие исследователи Массачусетского технологического института Чангил Ким (сейчас в Facebook) и Петр Келлнхофер (сейчас в Стэнфордском университете).
В поисках лучшего 3D
Типичная фотография с объективом кодирует яркость каждой световой волны — фотография может точно воспроизводить цвета сцены, но в конечном итоге дает плоское изображение.
Напротив, голограмма кодирует как яркость, так и фазу каждой световой волны. Эта комбинация обеспечивает более точное изображение параллакса и глубины сцены. Таким образом, в то время как фотография «Водяных лилий» Моне может подчеркнуть цветовую гамму картин, голограмма может оживить работу, передавая уникальную трехмерную текстуру каждого мазка кисти. Но, несмотря на их реализм, голограммы сложно создавать и делиться ими.
Первые голограммы, впервые разработанные в середине 1900-х годов, записывались оптически. Это потребовало разделения лазерного луча, при этом половина луча использовалась для освещения объекта, а другая половина использовалась в качестве эталона для фазы световых волн. Эта ссылка создает уникальное ощущение глубины голограммы. Полученные изображения были статичными, поэтому они не могли уловить движение. И они были только бумажными, что затрудняло их воспроизведение и распространение.
Компьютерная голография позволяет обойти эти проблемы, моделируя оптическую схему. Но этот процесс может оказаться трудоемким в вычислительном отношении. «Поскольку каждая точка сцены имеет разную глубину, вы не можете применить одни и те же операции для всех», — говорит Ши. «Это значительно увеличивает сложность». Направление кластерного суперкомпьютера для запуска этих основанных на физике симуляций может занять секунды или минуты для одного голографического изображения. Кроме того, существующие алгоритмы не моделируют окклюзию с фотореалистичной точностью. Поэтому команда Ши пошла по другому пути: позволила компьютеру обучать физике самого себя.
Они использовали глубокое обучение для ускорения компьютерной голографии, что позволило создавать голограммы в реальном времени. Команда разработала сверточную нейронную сеть — метод обработки, который использует цепочку обучаемых тензоров для грубой имитации того, как люди обрабатывают визуальную информацию. Для обучения нейронной сети обычно требуется большой высококачественный набор данных, которого ранее не существовало для 3D-голограмм.
Команда создала собственную базу данных из 4000 пар изображений, сгенерированных компьютером. Каждая пара соответствовала изображению — включая информацию о цвете и глубине для каждого пикселя — с соответствующей голограммой. Чтобы создать голограммы в новой базе данных, исследователи использовали сцены со сложными и переменными формами и цветами, с глубиной пикселей, равномерно распределенной от фона к переднему плану, и с новым набором основанных на физике вычислений для обработки окклюзии. Такой подход привел к фотореалистичным тренировочным данным. Далее алгоритм приступил к работе.
Обучаясь на каждой паре изображений, тензорная сеть изменяла параметры своих собственных вычислений, последовательно увеличивая свою способность создавать голограммы. Полностью оптимизированная сеть работает на порядки быстрее, чем вычисления, основанные на физике. Эта эффективность удивила саму команду.
«Мы поражены тем, насколько хорошо он работает, — говорит Матусик. Всего за миллисекунды тензорная голография может создавать голограммы из изображений с информацией о глубине, которая предоставляется типичными компьютерными изображениями и может быть рассчитана с помощью многокамерной установки или датчика LiDAR (оба являются стандартными для некоторых новых смартфонов). Этот прогресс открывает путь к 3D-голографии в реальном времени. Более того, компактная тензорная сеть требует менее 1 МБ памяти. «Это ничтожно мало, учитывая десятки и сотни гигабайт, доступных на новейшем сотовом телефоне», — говорит он.
«Значительный скачок»
3D-голография в реальном времени улучшит множество систем, от VR до 3D-печати. Команда говорит, что новая система может помочь погрузить зрителей в более реалистичные пейзажи, устраняя при этом усталость глаз и другие побочные эффекты от длительного использования VR. Эту технологию можно легко развернуть на дисплеях, которые изменяют фазу световых волн. В настоящее время наиболее доступные дисплеи потребительского уровня регулируют только яркость, хотя стоимость фазомодулирующих дисплеев снизится в случае их широкого распространения.
По словам исследователей, трехмерная голография также может стимулировать развитие объемной 3D-печати. Эта технология может оказаться более быстрой и точной, чем традиционная послойная 3D-печать, поскольку объемная 3D-печать позволяет одновременно проецировать весь 3D-узор. Другие приложения включают микроскопию, визуализацию медицинских данных и дизайн поверхностей с уникальными оптическими свойствами.
«Это значительный скачок, который может полностью изменить отношение людей к голографии», — говорит Матусик. «Нам кажется, что нейронные сети созданы для этой задачи».
Работа была частично поддержана Sony.