SpeakerBeam: умный слуховой аппарат распознаёт голоса

Даже при использовании качественных слуховых аппаратов людям с нарушениями слуха может быть сложно выделять отдельные голоса из фонового шума. Инновационная система SpeakerBeam, разработанная японскими учёными из компании NTT Corporation, может стать эффективным решением благодаря автоматическому распознаванию и усилению голосов выбранных людей при помощи ИИ.

В середине прошлого века учёные идентифицировали так называемый «эффект коктейльной вечеринки», который описывает способность человека выхватывать релевантные сигналы – визуальные или акустические, будучи окружённым обширным потоком информации (фоновым шумом) за счёт селективного внимания. Для людей с нарушениями слуха, которые используют слуховые аппараты, эта задача многократно усложняется, поскольку подобные устройства, как правило, усиливают все звуковые сигналы в пределах определённого радиуса. Как следствие, голос собеседника зачастую теряется среди голосов окружающих и посторонних звуков. Сегодня на рынке представлены различные вариации технологий, которые можно интегрировать в традиционные слуховые аппараты и использовать для изоляции и усиления голоса собеседника, который находится непосредственно перед пользователем. Подобные системы, бесспорно, актуальны и эффективны, однако они имеют существенные ограничения.

Эксперты из NTT Corporation решили разработать альтернативу в виде SpeakerBeam – системы, способной идентифицировать и усиливать выбранные голоса вне зависимости от их расположения по отношению к пользователю. Подобный функционал реализован за счёт сочетания двух нейросетей. Для обучения первой нейросети системы необходим 10-секундный отрывок речи собеседника – так называемое «адаптационное произнесение». С его помощью ИИ выделяет ряд параметров, индивидуальных для выбранного голоса. Затем в условиях «коктейльной вечеринки» вторая нейросеть использует эти особенности, чтобы выделить голос собеседника среди фонового шума и голосов других людей и усилить его. И самое главное – SpeakerBeam продолжает усиливать только выбранный голос, даже если его обладатель не находится непосредственно перед лицом обладателя слухового аппарата.

Очевидным недостатком подобной системы является потребность предварительно предоставить первой нейросети образец голоса собеседника. Другими словами, пока SpeakerBeam не готова к сценариям, когда пользователь не имел возможности подготовиться заранее. Кроме того, порой нейросеть путается, если два человека с похожими голосами говорят одновременно. Учёные из NTT Corporation надеются решить обе проблемы путём оптимизации работы ИИ и оттачивания адаптивности алгоритма распознавания голоса за счёт активной идентификации направления источника звука / голоса.

Поделиться в соцсетях