Природа сарказма такова, что его может быть трудно идентифицировать только по словам. Потому для понимания реального посыла саркастических заявлений приходится ориентироваться на другие, более тонкие вербальные и невербальные сигналы. В рамках собрания Американского и Канадского акустического общества учёные представили две нейросети, которые научились различать сарказм по популярным телешоу, включая «Friends» и «The Big Band Theory».
В 2019 году, когда концепция ИИ всё ещё пребывала в зародыше, и до выхода GPT-2 оставалось несколько месяцев, в рамках встречи Ассоциации компьютерной лингвистики команда исследователей опубликовала работу под названием «Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)». Целью данного исследования было создания базы данных аннотированных образцов сарказма в речи персонажей популярных сериалов и телешоу. Подразумевалось, что этот информационный комплекс «Multimodal Sarcasm Detection Dataset» (MUStARD) послужит источником данных для исследований в области идентификации саркастических высказываний в устной речи. Оригинальный дата-сет MUStARD выделял несколько примеров вербальных и невербальных сигналов, передающих сарказм: изменения тона речи, чрезмерный акцент на отдельных словах, неестественные акценты на отдельных слогах, растягивание слогов, серьёзное выражение лица и пр. По мнению учёных, мультимодальный анализ речи с учётом нестандартных сигналов – это ключ к идентификации сарказма.
В последующие пять лет концепция человеко-машинного взаимодействия с применением естественного языка с головокружительной скоростью выросла из диковинки, достойной роли в научно-фантастическом сюжете, в обыденное явление. Однако сарказм по-прежнему оставался для ИИ чем-то далёким и неуловимым. Но две команды исследователей решили исправить это недоразумение. Первая команда из Гронингенского университета взяла за основу своего подхода исследование 2019 года и использовала базу данных MUStARD для обучения нейросети. По словам учёных, данная модель работает следующим образом: автоматическая система распознавания речи извлекает из аудиозаписи слова, которым приписывается эмотикон, отображающий общее настроение текста. Затем этот эмотикон сопоставляется с мультимодальными сигналами, такими как тон речи или более обширный разговорный контекст. Такой подход довольно чётко определяет значимость каждого вербального и невербального сигнала, что позволяет компенсировать ограничения нейросети в восприятии изменений тона. Исследователи заявили, что их модель опознаёт сарказм с точностью 75%.
Стоит отметить, что восприятие изменений высоты тона – один из самых важных методов определения сарказма в речи. Именно этот критерий взяла за основу своей модели вторая команда учёных из Университета штата Мичиган. В частности, внимание исследователей было сфокусировано на изменениях F0 – фундаментальной частоты или низшей частоты человеческого голоса. Колебания этой частоты зачастую характеризуют сарказм в английском языке, потому их идентификация является надёжным способом определения саркастического тона высказывания. Учёные выделили различные акустические сигнатуры, которые встречались в речи девяти участников эксперимента. Так, например, «подвижность» и «просторность» тона могут служить показателями, отличающими саркастическое высказывание от серьёзного. Впрочем, учёные отметили, что показатели, характеризующие искренность речи, могут несколько отличаться от человека к человеку.
Работа обеих команд в очередной раз подчёркивает, насколько сложно идентифицировать сарказм, полагаясь лишь на отдельные аспекты речи. Стоит отметить, что с такими сложностями сталкиваются не только нейросети, но и люди. Хотя и голландские, и американские учёные рассматривали характеристики сарказма в контексте их восприятия искусственным интеллектом, они уверены, что подобные ИИ-модели могут быть полезными для людей в повседневной жизни. В частности, учёные из Гронингенского университета предполагают, что их работа могла бы помочь людям, которые испытывают сложности с восприятием речи на слух, например, пациентам с расстройствами, затрагивающими способность использования контекстных звуковых сигналов.