Make-A-Video: ИИ-генератор видео от Meta

В последние месяцы мировые СМИ пестрят заголовками об ИИ-генераторах изображений, позволяющих синтезировать картинки на основе текстовых подсказок. Впрочем, исследователи в сфере машинного обучения решили не останавливаться на достигнутом и взялись за покорение нового рубежа – генераторов видео. Среди них Deep Learning-инженеры материнской организации Facebook, Instagram, WhatsApp и Oculus – Meta, которые разработали новую систему Make-A-Video.

Как следует из названия, ИИ-модель Make-A-Video позволяет генерировать короткие видео на основе краткого описания каких-либо сценариев. Произведённые таким образом видео пока выглядят достаточно сыро: объекты в кадре нередко получаются размытыми, а их движения – искажёнными. Тем не менее подобная технология представляет собой важный шаг в развитии отрасли синтезирования ИИ-контента. В рамках анонса системы представители Meta заявили, что исследование в этом направлении расширяет возможности творческого самовыражения, позволяя создавать уникальные визуальные работы на основе нескольких слов или фраз. По словам Марка Цукерберга, Make-A-Video олицетворяет собой невероятный прогресс в покорении современных технологий, ведь системе приходится не только правильно генерировать каждый пиксель, но также просчитывать, как они будут изменяться с течением времени.

Make-A-Video: Text-to-Video Generation without Text-Video Data / Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

На данном этапе развития Make-A-Video позволяет производить видео продолжительностью до 5 секунд без аудио. Помимо текстовых команд, для генерирования видеоконтента можно использовать статические изображения. Кроме того, нейросеть позволяет создавать многочисленные вариации сочетания кадров на основе одного видео. По словам разработчиков из Meta, выходные данные генератора будут постепенно совершенствоваться. Для сравнения: всего несколько лет назад генераторы изображений производили картинки, в которых с большим трудом узнавались заданные объекты, а сегодня они способны синтезировать фотореалистичный контент, очень близко отражающий даже мельчайшие детали текстового описания. Хотя прогресс в улучшении качества синтезируемого видеоконтента будет более медленным, учитывая больший объём данных, подлежащих обработке, конечный результат в виде возможности создавать видео по простым текстовым командам послужит мотивацией для многих компаний и организаций привлечь как можно больше ресурсов для ускорения этого процесса.

Пока что модель Make-A-Video не доступна для широкой публики, однако в скором времени в открытом доступе появится её демоверсия. Тем временем Meta опубликовала документ с описанием принципов обучения и работы нейросети. Согласно этому документу, тренировка системы происходила на основе двух баз данных WebVid-10M и HD-VILA-100M, которые содержат миллионы видео общей продолжительностью в сотни тысяч часов. Наполнение баз происходило за счёт веб-скрейпинга – получения веб-данных из открытых Интернет-ресурсов вроде личных блогов, агрегаторов контента и т. п.

По словам разработчиков, в текущем варианте модель имеет множество технических ограничений, помимо размытости объектов и искажения анимаций. К примеру, в видео с машущей рукой нейросеть пока не может определить направления её движений. Кроме того, Make-A-Video с большим трудом даются видео продолжительностью более 5 секунд, с несколькими сценами и/или событиями и в более высоком разрешении. Сейчас модель генерирует до 16 кадров видео с разрешением 64 × 64 пикселя, а затем другая ИИ-нейросеть увеличивает разрешение готового видео до 768 × 768 пикселей.

В Meta считают, что подобные ИИ-модели могут стать неоценимым инструментом для художников и создателей контента. Однако в то же время в компании признают, что, как и другие подобные проекты, Make-A-Video может оказаться средством дезинформации, пропаганды, мошенничества и даже преследования или шантажа. Кроме того, разработчики отметили, что обучение нейросети за счёт данных веб-скрейпинга делает её более склонной к отображению в генерируемом контенте социальных предрассудков. Потому в ходе развития подобных систем Deep Learning-инженеры также будут работать над методиками, которые позволят осуществлять более строгий контроль генерируемого контента, чтобы ограничить либо и вовсе предупредить их неправомерное использование.

Поділитися в соцмережах