Audio2Face: технология создания лицевых анимаций на базе ИИ

Компания NVIDIA давно зарекомендовала себя не только как производитель графических ускорителей, но и как разработчик любопытных программных инструментов. В 2020 году в открытую бету вышла облачная платформа Omniverse, предназначенная для физически корректного моделирования в виртуальной среде в режиме реального времени. Теперь NVIDIA готова представить миру новый инструмент Audio2Face, который позволяет создавать трёхмерные лицевые анимации, способные синхронизировать свои движения с заданными аудиодорожками.

Технология Audio2Face действует на базе платформы Omniverse. С её помощью пользователи смогут создавать анимированные модели, речевой аппарат которых будет синхронизироваться с содержанием выбранных аудиофайлов. Исходя из информации на официальном сайте NVIDIA, в бета-версии данный программный инструмент умеет работать с английским, французским, итальянским и русским языками. В будущем разработчики планируют не просто расширить список поддерживаемых языков, но научить искусственный интеллект адаптироваться к любому заданному языку.

Audio2Face: технология создания лицевых анимаций на базе ИИ — Принцип работы технологии Audio2Face

По словам представителей компании, сгенерированные лицевые анимации можно применять на любых реалистичных или стилизованных персонажах. В качестве примера на сайте Audio2Face представлена одна и та же анимация, наложенная на персонажа Digital Mark и на мультяшного носорога. Более того, платформа может поддерживать работу с неограниченным количеством героев, анимированных с применением одного или разных аудио. В обозримом будущем функционал технологии Audio2Face дополнит возможность управления эмоциями персонажей для калибровки выразительности анимаций.

Технология совместима с различными моделями

В основе инструмента Audio2Face лежит система глубокого обучения, которая подстраивает мимику и движения речевого аппарата выбранного персонажа к заданной звуковой дорожке в режиме реального времени. При первом открытии программы системе может потребоваться какое-то время для оптимизации нейросети под конкретное аппаратное обеспечение при помощи движка TensorRT. К слову, на официальном сайте Nvidia on Demand и на YouTube-канале компании имеется немало видеоуроков для ознакомления с особенностями работы платформы Omniverse и технологии Audio2Face. С их помощью пользователи могут научиться создавать собственные анимированные модели, переносить готовые анимации на различных персонажей, экспортировать результат на другие платформы вроде Epic Games Unreal Engine 4, а также импортировать персонажей, созданных при помощи других инструментов (MetaHuman, Epic Games Unreal Engine 4 и др.).

Стоит отметить, что на этапе бета-тестирования Audio2Face технология всё ещё не совершенна. В частности, правдоподобность синхронизации анимации с речью сильно зависит от качества оригинальной аудиодорожки. К примеру, в одном из роликов на YouTube-канале On Set Facilities представлен отрезок речи Чарли Чаплина из «Великого диктатора» (первого полностью звукового фильма в его карьере), перенесённый на базового персонажа Digital Mark. Из-за низкого качества аудиозаписи анимированная модель не может в полной мере повторить мимику и движения речевого аппарата цирюльника-лжедиктатора. Впрочем, в NVIDIA уверены, что в будущем качество звука перестанет быть препятствием для полноценной реализации технологии Audio2Face.

Источник изображений: NVIDIA