Riffusion: ИИ создаёт музыку по тексту

Инженеры и ИИ-специалисты Сет Форсгрен и Айк Мартирос разработали Riffusion – уникальную ИИ-модель, способную генерировать музыку, основываясь на текстовые подсказки.

Riffusion представляет собой комплекс инструментов: скомбинированных в единую модель Stable Diffusion 1.5 и Torchaudio. Сперва алгоритм генерирует сонограмму – графическое спектрально-временное представление звуковых колебаний. За эту часть процесса отвечает модернизированная Форсгреном и Мартиросом версия Stable Diffusion. В сонограмме ось X отображает время – порядок воспроизведения звуковых частот, заданных в оси Y. При этом насыщенность каждого пикселя отображает амплитуду звуковых колебаний – то есть громкость звука. Поскольку сонограмма – это двумерное изображение, Stable Diffusion способна её обрабатывать. Для тренировки модели Сет и Айк создали базу данных с примерами сонограмм и текстовым сопровождением – описанием всех характеристик звука и соответствующего музыкального жанра. Благодаря этой информации диффузионная модель ИИ может использовать текстовые команды с описанием мелодии и её жанра для генерирования новой музыки. Затем в игру вступает Torchaudio – инструмент машинной обработки аудио в формате вектора и частоты дискретизации. В контексте модели Riffusion он позволяет преобразовать сонограмму в реальную аудиозапись.

Сонограмма, отражающая бас-линию в стиле фанк с джазовым соло на саксофоне

Модель Riffusion доступна для экспериментов на одноимённом сайте. Веб-приложение в режиме реального времени генерирует интерполированные сонограммы и визуализирует их в левой части страницы. Данный инструмент позволяет соединять различные звуки и жанры в единое целое, вносить в мелодию элементы соответствующих жанров, следуя текстовым запросам. Стоит отметить, что Riffusion – это не первая ИИ-модель для генерирования музыки. К примеру, ранее в этом году организация Harmonai выпустила инструмент для создания танцевальной музыки Dance Diffusion. В 2020 году Open AI анонсировала нейросеть Jukebox, способную производить музыку и даже пение в различных жанрах и стилях, а нейросеть Soundraw позволяет создавать звуковое сопровождение, следуя выбранным пользователям параметрам (жанр, настроение, тема и пр.).

В сравнении с упомянутыми моделями Riffusion гораздо больше напоминает игрушку для развлечения и хобби, нежели серьёзный инструмент для генерирования музыки. Звучание его «произведений» довольно свободно варьируется от интересного до совершенно невразумительного. Тем не менее этот хобби-проект представляет собой весьма забавный образец применения технологии диффузионной модели с латентной переменной, который неожиданным образом задействует как графическую, так и звуковую составляющие.

Источник фото: Riffusion

Поділитися в соцмережах