EchoSpeech: очки с сонаром «читают» по губам

Миллионы людей во всём мире по тем или иным причинам лишены возможности использовать свой голос для формирования речевых звуков. Исследователи считают, что некоторым из них могут вернуть голос экспериментальные очки EchoSpeech, которые «читают» команды по губам по принципу сонара.

Инновационные очки являются частью проекта команды учёных из лаборатории SciFi Lab Корнелльского университета. EchoSpeech представляют собой модифицированные очки, оправа которых оборудована миниатюрными динамиками и микрофонами, направленными перпендикулярно полу. Динамики производят звуковые волны, недоступные для человеческого уха. Затем отражённые от движущихся губ человека волны считываются микрофонами. Это «эхо» в режиме реального времени анализирует специальный алгоритм глубинного обучения, запущенный на сопряжённом с очками по беспроводной связи смартфоне. В рамках проекта EchoSpeech исследователи научили алгоритм ассоциировать специфические типы «эха» с определёнными движениями рта человека, связанными с теми или иными беззвучными командами.

На данном этапе развития очки EchoSpeech распознают 31 команду с точностью около 95%. К слову, чтобы научиться читать команды в исполнении нового пользователя, алгоритму необходимо всего несколько минут. По словам учёных, система на базе сонара не нарушает никаких законов, касающихся конфиденциальности, ведь она не использует камер и не отправляет данные в интернет. Ещё одним достоинством подобной конструкции является тот факт, что комплект из динамиков и микрофонов потребляет значительно меньше энергии, чем камеры. Таким образом, очки с сонаром могут работать до 10 часов на одном заряде аккумулятора, в то время как аналогичные системы, использующие визуальные данные для распознавания речи, расходуют тот же объём заряда примерно за 30 минут.

В настоящий момент команда SciFi Lab работает над коммерциализацией технологии. По словам ведущего исследователя проекта Жуйдуна Чжана, подобные системы способны вернуть голос людям, которые по каким-либо причинам потеряли способность к вокализации, но могут воспроизводить слова беззвучным движением губ и языка. Кроме того, система EchoSpeech могла бы пригодиться пользователям, которым приходится находиться в шумных местах, где электроника попросту не отреагирует на стандартные речевые команды. Стоит отметить, что не только команда SciFi Lab занимается разработкой подобных технологий. В частности, их коллеги из Университета штата Нью-Йорк в Буффало создали систему EarCommand, которая представляет собой наушник, способный фиксировать характерные деформации ушного канала, происходящие при определённых движения речевого аппарата.

Поділитися в соцмережах