ИИ обучают языку жестов

Для людей с нарушениями слуха технологии распознавания голоса, реализованные в виде голосовых ассистентов вроде Alexa и Siri, зачастую являются недоступными. Как следствие, они имеют ограниченные возможности для эффективной и комфортной коммуникации. Исследователи работают над тем, чтобы обучить ИИ языку жестов, тем самым повысив инклюзивность и доступность современных умных помощников.

ИИ обучают языку жестов
Amazon, Evgenii_Bobrov/iStock

Для перевода языка жестов необходимо иметь чёткое представление о положении тела «говорящего» с целью формирования полноценной картины контекста. Учёные из Барселонского суперкомпьютерного центра, действующего на базе Политехнического университета Каталонии, исследуют возможности использовании ИИ-технологий для усовершенствования взаимосвязи между носителями языка жестов и цифровыми технологиями, изначально созданными для работы с устной речью. Исследователи пришли к применению трансформера – модели машинного обучения, которую используют для обучения онлайн переводчиков и разнообразных ИИ-инструментов вроде ChatGPT. Особенностью данной модели является способность к освоению и пониманию контекста как в процессе обучения, так и при работе с новым материалом благодаря механизму самовнимания, лежащему в основе её архитектуры. Кроме того, трансформеры отличаются высокой производительностью обучения, благодаря чему за равный период времени они осваивают больше материала, чем, например, рекуррентные нейросети.

ИИ обучают языку жестов
BSC

В качестве материалов для обучения ИИ выступила база данных How2Sign – открытого сборника обучающих видео общей продолжительностью 80 часов. На них запечатлены разные люди, которые переводят инструкции DIY, рецепты, тренинги, сценки и пр., на амслен – американский язык жестов, сопровождая свои работы англоязычными субтитрами. Для тренировки ИИ было чрезвычайно важно найти видео, в которых запечатлены не отдельные примеры жестов, но повествование с последовательным применением жестового языка. Подобный контент более реалистично передаёт естественный процесс конкатенации – связывания отдельных слов в слаженные предложения. Подобные моменты критически важны для построения контекста, который необходимо учитывать для расшифровки истинного значения не отдельных знаков, но жестовой речи в целом.

BSC

Увы, в мире не существует единого языка жестов, и даже амслен имеет множество диалектов. Вариабельность и сложность структуры жестовой речи зависит не только от происхождения говорящего или его опыта, но также от его внешнего вида и контекста разговора. Для получения данных о пространственно-временных параметрах видео с записями переводчиков на язык жестов учёные использовали Inflated 3D Networks – инструмент, считывающий визуальную информацию о точном расположении запечатлённых в съёмке трёхмерных объектов в пределах временной шкалы. На текущем этапе развития технологии ИИ способен производить осмысленную конвертацию жестовой речи в текстовую форму, однако результат пока не безупречен. Исследователям ещё есть над чем поработать, прежде чем автоматический переводчик с языка жестов позволит людям с нарушениями слуха обращаться с современными технологиями на одном уровне со слышащими пользователями.

Поделиться в соцсетях

Добавить комментарий