NVIDIA представила альтернативную архитектуру генеративно-состязательной сети StyleGAN

Американская технологическая компания NVIDIA представила альтернативную архитектуру GAN – генеративно-состязательной сети, которая работает на алгоритмах переноса стиля. Система способна самостоятельно идентифицировать и изучать отдельные элементы изображений и синтезировать новое реалистичное изображение на основе усвоенных элементов. Новый алгоритм получил название StyleGAN – Style-Based Generator Architecture for Generative Adversarial Networks.

Базовый алгоритм GAN впервые описал исследователь из компании Google Ян Гудфеллоу в 2014 году, он работает на комбинации двух нейронных сетей: генеративной и дискриминативной. Первая самостоятельно генерирует изображения, смешивая данные нескольких образцов, а вторая отбраковывает наименее удачные результаты. Таким образом работа дискриминативной сети способствует совершенствованию параметров генеративной сети, и в процессе обучения синтезируемые изображения становятся всё более реалистичными. С 2014 года технология получила широкое применение в самых разнообразных сферах: от промышленного дизайна и дизайна интерьера до подготовки кадров фильмов и мультипликации.

StyleGAN работает следующим образом: изучая базовые изображения, он выделяет атрибуты, например, черты лица, причёску, веснушки и т.п., а потом использует эти характеристики при генерации нового изображения. Прежние варианты генеративно-состязательной сети не могли контролировать то, насколько отдельные характеристики влияли на результат. Новый алгоритм способен определять уровень влияния атрибута на итог, например, к атрибутам высокого уровня относится форма лица, поза человека на фото и причёска. К среднему уровню относятся черты лица и форма глаз, а низкий представлен мелкими деталями вроде веснушек и родинок, а также он определяет общую цветовую схему изображения. StyleGAN позволяет человеку выбирать определённые элементы отдельных изображений, которые, на его взгляд, выглядят более гармонично, для более реалистичного результата.

Ключевым свойством StyleGAN является также способность алгоритма использовать стохастические вариации, то есть рандомизировать некоторые черты лица. Зачастую искусственные лица выдаёт излишняя безупречность – идеальная, без изъянов кожа, равномерная щетина и т.п. Генератор StyleGAN способен случайным образом размещать такие детали: поры, веснушки, отдельные волоски.

Используя базу данных Large-scale Scene Understanding, исследователи достигли отличных результатов в синтезировании изображений не только человеческих лиц, но и автомобилей, интерьера и даже котов.

В 2018 году изучением вопроса машинного обучения и GAN занимались не только специалисты компании NVIDIA. В сентябре своими успехами в исследовании генеративного моделирования изображений поделилась британская компания DeepMind, которая тоже работает над развитием искусственного интеллекта и нейронных сетей. Летом же был представлен уникальный алгоритм CartoonGAN, разработанный в рамках совместного проекта Университета Цинхуа и Университета Кардиффа, который может имитировать стили классических японских аниме-мультфильмов на основе реальных фотографий.

Изображения, созданные на основе реальных фото с помощью алгоритма CartoonGAN

Ранее в 2018 году NVIDIA также презентовала программное обеспечение, которое использует искусственный интеллект и алгоритмы глубокого обучения для определения повреждённых или отсутствующих частей изображений и их восстановления с помощью метода частичной свёртки. Возможно, уже в ближайшем будущем эта технология заставит фотошоп смиренно отойти в прошлое, так как новое ПО не требует от пользователя никаких усилий, ему достаточно обозначить курсором нужную часть изображения. Эта технология также применима для восстановления старых повреждённых фотокарточек и неудачно отредактированных цифровых файлов. Чтобы обучить систему определять недостающие элементы и исправлять их, специалисты компании тренировали нейросеть намеренно нарушая целостность изображений.

Хотя создатели ещё продолжают развитие StyleGAN и не считают работу алгоритма безупречной, уже имеющиеся результаты спровоцировали не только восхищение, но и критику. Во-первых, совершенствование подобных технологий заставляет людей усомниться в собственном рассудке, когда они не могут отличить искусственные лица от настоящих. Во-вторых, некоторые люди высказывают опасение по поводу того, что алгоритм могут использовать не только во благо человечества, но и с целью дезинформации или пропаганды, а последствия такого применения технология могут оказаться совершенно непредсказуемыми.