Vall-E: ИИ-алгоритм имитирует речь по 3-секундным семплам

Разработчики Microsoft представили новую ИИ-модель синтеза речи Vall-E, которой достаточно пары секунд, чтобы научиться воспроизводить голос человека.

В последние годы мир увидел множество ИИ-алгоритмов, способных использовать голоса реальных людей, чтобы слагать из них слова и предложения, которых они никогда не произносили. Среди прочего подобные модели отличаются друг от друга по объёму данных, необходимых для имитации человеческого голоса. К примеру, в 2017 году исследователи из Университета Монреаля разработали алгоритм Lyrebird, который использовал минутные записи для анализа и воспроизведения специфики голоса конкретного человека. Как тогда, так и сегодня такие возможности кажутся впечатляющими, однако специалистам из Microsoft удалось добиться большего. Они создали модель Vall-E, которой нужен семпл длиной всего 3 секунды.

Vall-E: ИИ-алгоритм имитирует речь по 3-секундным семплам — Microsoft

Для тренировки Vall-E разработчики использовали более 60 тысяч часов англоязычной речи – преимущественно, голоса дикторов аудиокниг. Исследователи опубликовали серию образцов записей, в которых ИИ-модель пытается имитировать широкий спектр человеческих голосов. Алгоритм отлично справляется с улавливанием общих характеристик и изюминок голоса. Кроме того, ему неплохо удаётся использовать естественные интонации в самых разнообразных по сложности и семантической нагрузке предложениях. По словам разработчиков Vall-E, сравнивая реальные и синтезированные записи, в большинстве случаев трудно различить, принадлежит голос реальному человеку или ИИ. Впрочем, в отдельных случаях алгоритм выдавали странные логические акценты в предложениях. Разработчики также отметили, что ИИ хорошо даются различные акценты, а также имитация обстоятельств создания оригинальной записи. Например, если оригинал имел форму телефонного звонка, синтезированный текст может воспроизвести этот эффект. Увы, пока Vall-E не удалось в совершенстве овладеть эмоциями. В частности, попытки имитации злости, сонливости, веселья или отвращения в голосе ИИ-диктора пока что выдаёт достаточно искажённые результаты.

Как это происходит после дебюта разнообразных ИИ-моделей, способных хотя бы в какой-то мере имитировать что-либо человеческое, реакция публики на Vall-E была неоднозначной. С одной стороны, это уникальный инструмент, который позволит вернуть к жизни голос близкого человека или знаменитого актёра, чтобы озвучить всё, что душа пожелает: от любимой аудиокниги до списка покупок. С другой стороны, в руках мошенников и махинаторов подобные алгоритмы имеют значительный отрицательный потенциал как средство осуществления преступных действий. Согласно сопроводительному заявлению Microsoft при публикации демонстрационных образцов работы Vall-E, целевой аудиторией синтезатора речи является её пользователь, который согласовал использование голоса с его обладателем. В том случае, если итоговый результат нацелен на открытую аудиторию, тот, кто использует алгоритм, обязуется не только заполучить согласие обладателя голоса на его модификацию, но также уведомить слушателей об искусственной природе речи. Вероятно, стоит ожидать, что в скором времени параллельно синтезаторам речи вроде Vall-E не меньшую популярность обретут алгоритмы, способные идентифицировать имитацию чужих голосов.

Поділитися в соцмережах