Искусственный интеллект научили распознавать сарказм

Природа сарказма такова, что его может быть трудно идентифицировать только по словам. Потому для понимания реального посыла саркастических заявлений приходится ориентироваться на другие, более тонкие вербальные и невербальные сигналы. В рамках собрания Американского и Канадского акустического общества учёные представили две нейросети, которые научились различать сарказм по популярным телешоу, включая «Friends» и «The Big Band Theory».

Warner Bros. Television

В 2019 году, когда концепция ИИ всё ещё пребывала в зародыше, и до выхода GPT-2 оставалось несколько месяцев, в рамках встречи Ассоциации компьютерной лингвистики команда исследователей опубликовала работу под названием «Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)». Целью данного исследования было создания базы данных аннотированных образцов сарказма в речи персонажей популярных сериалов и телешоу. Подразумевалось, что этот информационный комплекс «Multimodal Sarcasm Detection Dataset» (MUStARD) послужит источником данных для исследований в области идентификации саркастических высказываний в устной речи. Оригинальный дата-сет MUStARD выделял несколько примеров вербальных и невербальных сигналов, передающих сарказм: изменения тона речи, чрезмерный акцент на отдельных словах, неестественные акценты на отдельных слогах, растягивание слогов, серьёзное выражение лица и пр. По мнению учёных, мультимодальный анализ речи с учётом нестандартных сигналов – это ключ к идентификации сарказма.

Искусственный интеллект научили распознавать сарказм
Warner Bros. Television

В последующие пять лет концепция человеко-машинного взаимодействия с применением естественного языка с головокружительной скоростью выросла из диковинки, достойной роли в научно-фантастическом сюжете, в обыденное явление. Однако сарказм по-прежнему оставался для ИИ чем-то далёким и неуловимым. Но две команды исследователей решили исправить это недоразумение. Первая команда из Гронингенского университета взяла за основу своего подхода исследование 2019 года и использовала базу данных MUStARD для обучения нейросети. По словам учёных, данная модель работает следующим образом: автоматическая система распознавания речи извлекает из аудиозаписи слова, которым приписывается эмотикон, отображающий общее настроение текста. Затем этот эмотикон сопоставляется с мультимодальными сигналами, такими как тон речи или более обширный разговорный контекст. Такой подход довольно чётко определяет значимость каждого вербального и невербального сигнала, что позволяет компенсировать ограничения нейросети в восприятии изменений тона. Исследователи заявили, что их модель опознаёт сарказм с точностью 75%.

Искусственный интеллект научили распознавать сарказм
20th Television

Стоит отметить, что восприятие изменений высоты тона – один из самых важных методов определения сарказма в речи. Именно этот критерий взяла за основу своей модели вторая команда учёных из Университета штата Мичиган. В частности, внимание исследователей было сфокусировано на изменениях F0 – фундаментальной частоты или низшей частоты человеческого голоса. Колебания этой частоты зачастую характеризуют сарказм в английском языке, потому их идентификация является надёжным способом определения саркастического тона высказывания. Учёные выделили различные акустические сигнатуры, которые встречались в речи девяти участников эксперимента. Так, например, «подвижность» и «просторность» тона могут служить показателями, отличающими саркастическое высказывание от серьёзного. Впрочем, учёные отметили, что показатели, характеризующие искренность речи, могут несколько отличаться от человека к человеку.

Tom Gauld

Работа обеих команд в очередной раз подчёркивает, насколько сложно идентифицировать сарказм, полагаясь лишь на отдельные аспекты речи. Стоит отметить, что с такими сложностями сталкиваются не только нейросети, но и люди. Хотя и голландские, и американские учёные рассматривали характеристики сарказма в контексте их восприятия искусственным интеллектом, они уверены, что подобные ИИ-модели могут быть полезными для людей в повседневной жизни. В частности, учёные из Гронингенского университета предполагают, что их работа могла бы помочь людям, которые испытывают сложности с восприятием речи на слух, например, пациентам с расстройствами, затрагивающими способность использования контекстных звуковых сигналов.

Поділитися в соцмережах

Залишити відповідь