Совсем недавно сгенерированные искусственным интеллектом видео выглядели абсолютно безнадёжно. Однако эта технология развивается невероятными темпами, и представленная OpenAI модель Sora способна на создание гораздо более впечатляющего и правдоподобного контента.
По данным разработчиков, Sora предназначена для генерирования как реалистичных, так и фантазийных сцен на основе текстового описания. Так, пользователи смогут прописать описание кадров с желаемой степенью детализации, а ИИ создаст видео в высоком разрешении, максимально точно отображающее его содержание. Другими словами, в плане концепции действия это модель практически неотличима от всех других видеогенераторов, представленных ИИ-энтузиастами в последние пару лет. Однако нельзя не отметить захватывающий темп прогресса развития технологии, позволяющий продукту OpenAI создавать пусть и не лишённые недостатков, но гораздо более удобоваримые видео.
Для сравнения, в марте 2023 года результаты работы модели ModelScope напоминали кадры из видеоигры с откровенно непроработанной или поломавшейся физикой. Даже на фоне модели Lumiere, представленной Google месяцем ранее, Sora впечатляет реалистичностью генерируемого контента. В частности, изучая опубликованные OpenAI образцы, пользователи отметили более высокий уровень проработки физики кадров. Так, в отдельных случаях работа модели оказалась настолько удачной, что даже видео с несуществующими объектами, например, бегущими навстречу «оператору» шерстистыми мамонтами, выглядит неожиданно правдоподобно. В OpenAI также заявили, что модель предоставляет юзерам возможность сохранять отдельных персонажей, локации и стили, чтобы позже их можно было применить для генерирования новых сцен. Это значит, что ИИ видеогенератор впервые позволит создавать последовательные истории, шоу и даже фильмы за счёт воспроизведения желаемых элементов.
Стоит отметить, что Sora пока нельзя назвать идеальным решением для генерирования ИИ видеоконтента. Как и в случае с другими моделями, результаты всё ещё бывают откровенно смешными и странными – особенно в случае использования несколько абсурдного текстового контекста. К слову, в настоящий момент OpenAI производит атаку «красной команды» на собственную модель, проверяя её с точки зрения кибербезопасности. В числе прочего, разработчики атакуют систему сбивающими с толку и потенциально опасными текстовыми подсказками, пытаясь заставить модель генерировать разного рода запрещённый контент. Данный процесс необходим для целенаправленного блокирования возможности использования всех лазеек. Эксперты не исключают, что подобные меры ограничат потенциал системы, но сделают её более «законопослушной», минимизируя вероятность генерирования опасного и незаконного контента.