OpenAI объявила о запуске новой версии своего фирменного ИИ-генератора изображений Dall-E 3, способной работать с гораздо более детальными и специфическими запросами, чем предшественник Dall-E 2.
Многие современные генераторы изображений по тексту имеют склонность игнорировать отдельные слова или целые фрагменты описаний, в связи с чем пользователям приходится развивать индивидуальные техники написания подсказок. По словам представителей OpenAI, Dall-E 3 представляет собой эффективное решение данной проблемы, ведь эта нейросеть берёт во внимание каждую букву заданного пользователем описания. Благодаря этому данная ИИ-модель умеет синтезировать изображения с точнейшим воспроизведением всех деталей подсказки. К тому же генератор не пытается просто вместить все необходимые элементы в картинку, но следует выверенной логике работы с пространством и объектами.
Кроме того, в OpenAI сообщили, что при разработке Dall-E 3 они уделили особое внимание проблемным моментам, свойственным не только прежним итерациям платформы Dall-E, но также других нейросетям, включая отображение человеческих рук. По каким-то причинам долгое время разработчики нейросетей избегали решения этого вопроса, но недавно некоторые из них также наконец взяли ситуацию в свои руки, например, в Midjourney появилась функция доработки именно рук за счёт прицельных текстовых команд вроде «убрать лишний палец».
OpenAI также планирует в ближайшие недели интегрировать функционал Dall-E 3 в ChatGPT Plus. Разработчики рассчитывают достичь более высокого уровня кастомизации детализации изображений за счёт комбинации генеративно-состязательной и большой языковой моделей. По словам представителей компании, интеграция будет работать следующим образом. В диалоге с чат-ботом пользователь может описать общее видение изображения, а ChatGPT в свою очередь сгенерирует максимально полную и детальную текстовую подсказку для Dall-E, который и производит изображение. Затем для более тонкой настройки внешнего вида желаемого изображения пользователь сможет обращаться к чат-боту для редактирования описания. Dall-E 2 не входит в число бесплатных ИИ-генераторов изображений: OpenAI берёт небольшую плату за «авторские права», а ChatGPT Plus в текущем виде стоит $20 в месяц. Пока в компании не сообщают, как интеграция Dall-E 3 в чат-бот отразится на его стоимости. К слову, сегодня из числа крупных чат-ботов с функцией генерации изображений бесплатно работает только Bing Chat AI от Microsoft, который базируется на модели GPT-4.
В рамках анонса новой версии ИИ-модели в OpenAI признали проблему обманчивости сгенерированных ИИ изображений и заявили об разработке методик идентификации подобных файлов. В частности, идёт работа над фирменным инструментом, способным различать творчество людей и нейросетей как в текстовой, так и в визуальной форме. Кроме того, в OpenAI, очевидно, под давлением со стороны художников, чьи работы нелегально использовали для обучения нейросети, представили новый инструмент, позволяющий художникам вручную удалять их творчество из баз данных ИИ-моделей. И наконец, новая версии генератора изображений Dall-E 3 будет отказываться выполнять запросы на производство изображений «в стиле действующих художников».
Источник изображений: OpenAI, DAll-E 3