Transframer: ИИ генерирует видео на основе изображений

По мере развития искусственного интеллекта и машинного обучения специалисты продолжают исследовать и совершенствовать новые способы применения их возможностей. К примеру, команда учёных компании Google представила новую нейросеть Transframer, способную генерировать короткие видео на основе очень ограниченного объёма данных вплоть до единственного изображения.

Название Transframer является отсылкой к названию и принципу работы нейросети Transformer, инновационная архитектура которой позволяет генерировать оригинальный текст на основе слов, составляющих вводное предложение. Равно как Transformer использует свои лингвистические навыки для вывода нового текста, разработка команды Google полагается на ограниченные контекстные данные из аннотации и вводного изображения для создания видео. Готовый продукт Transframer представляет собой видео, в которых воображаемая камера двигается вокруг объекта оригинального изображения, рассчитывая и визуализируя правильные пропорции и перспективы, несмотря на отсутствие каких-либо геометрических данных во вводном изображении.

Разработанная Google технология действует на базе фирменной ИИ-платформы DeepMind. Алгоритм Transframer работает следующим образом: неройсеть анализирует оригинальное контекстное изображение, чтобы выделить основные объекты и сформировать «скелет» для генерирования дополнительных кадров. С большим количеством контекстных изображений ИИ сможет более точно предсказать, как объекты изображений будут выглядеть с разных углов зрения. Кроме того, при производстве видео нейросеть учитывает любые аннотации и комментарии, которые позволяют расширить контекст оригинального изображения.

Transframer является серьёзным шагом в развитии сферы видеотехнологий. По мере совершенствования алгоритма нейросеть сможет создавать всё более точные видео, основываясь на ограниченных исходных данных. Кроме того, ИИ продемонстрировал многообещающие результаты в задачах, связанных с семантической сегментацией, классификацией изображений и предсказанием оптического потока. Таким образом, наработки Google в этом направлении могут оказаться полезными в широком спектре отраслей, полагающихся на обработку видеоданных. В первую очередь Transframer может заинтересовать специалистов из области разработки видеоигр. Данная технология позволит расширить возможности традиционных решений для рендеринга, тем самым уменьшая количество времени и ресурсов, необходимых для построения виртуальных игровых сред. Кроме того, нейросеть можно будет использовать для развития и модернизации систем, полагающихся на семантическую сегментацию и классификацию объектов, например, систем автоматического управления транспортными средствами или систем оценки и описания исследований медицинской визуализации (рентгенографии, КТ, МРТ и т. п.).