GLIDE: нейросеть синтезирует и редактирует изображения по текстовым командам

Американская компания OpenAI представила нейросеть GLIDE, способную создавать фотореалистичные изображения с нуля либо редактировать существующие картинки, следуя произвольным текстовым командам.

Представьте себе сюрреалистическую картину маслом, на которой кот играет в шашки, футуристический город в стиле синтвейв или корги в красном галстуке-бабочке и фиолетовом колпаке. Если провести какое-то время в фотошопе, подобные фантазии можно попробовать воспроизвести в виде реальных изображений, однако OpenAI утверждает, что новая ИИ-модель GLIDE справится с этой задачей гораздо быстрее. По словам разработчиков, результаты работы нейросети говорят сами за себя: модель способна производить фотореалистичные изображения с тенями и отражениями, может совмещать различные стилистические концепты и синтезировать новые, руководствуясь текстовой командой.

Для достижения такой эффективности нейросети исследователи использовали управляемую диффузионную модель. Подобные модели тренируются путём искажения обучающих данных, постепенно повышая уровень Гауссовского шума, пока все детали изображения не скроются в непроглядной «ряби». Затем нейросеть поэтапно обращает искажения, восстанавливая детализацию. Достоинством диффузионных моделей является способность производить правдоподобный продукт высокого качества, порой практически неотличимый от реальных изображений или аудиофайлов. К слову, за счёт аналогичной модели работает фирменная нейросеть Google, которая производит полноценные изображения на основе небольшого низкокачественного прототипа.

Специалисты OpenAI произвели тренировку GLIDE на базе 3,5 миллиарда параметров, чтобы отточить умение нейросети сопоставлять изображения с произвольным текстовым описанием. Затем разработчики протестировали две техники управляемого взаимодействия с текстом – с классификатором (CLIP) и без него. Оценив эффективность обеих техник, они пришли к выводу, что диффузионная модель с автономным управлением (без классификатора) производит изображения более высокого качества.

Сравнение с другими программами ИИ, способными генерировать изображения на основе текстового описания / OpenAI

Хотя диффузионные модели способны синтезировать качественные изображения с нуля, иногда им нелегко показывать достаточно убедительные результаты в ответ на сложные текстовые команды. Потому команда OpenAI снабдила GLIDE возможностью не только создавать новые изображения, но и редактировать существующие картинки и фотографии. При этом вносимые нейросетью изменения соответствуют стилю и особенностям освещения оригинальных файлов. К примеру, в ответ на запрос «девочка обнимает корги на пьедестале» нейросеть найдёт уже существующую картину – «Портрет Клариссы Строцци» Тициана – и на место комнатной собачки ребёнка впишет корги. Помимо этого, GLIDE умеет «дорисовывать» к существующим изображениям прописанные в команде элементы, изменять стиль заданных картинок или синтезировать новые изображения в соответствии с заданным стилем. Таким образом, GLIDE представляет собой гибридную систему, принципы работы и функционал которой идеально описан в расшифровке акронима – Guided Language to Image Diffusion for Generation and Editing.

Нейросеть редактирует готовые изображения / OpenAI

Безусловно, GLIDE, как и другие нейросети, вовсе не идеальна. По словам представителей OpenAI, искусственному интеллекту бывает трудно синтезировать изображения на основе описаний нестандартных сценариев или излишне специфических текстовых команд. Например, нейросеть не сможет изобразить автомобиль с треугольными колёсами либо кота с восемью лапами. Изобретательность искусственного интеллекта ограничена разнообразием его тренировочных данных, потому пока что возможность фантазировать и воображать остаётся привилегий человека.