Наступного разу, коли вам знадобиться обговорити телефоном щось дуже особисте, згадайте про новітню техніку прослуховування WirelessTap. Дослідники з Університету штату Пенсильванія виявили, що вібрації динаміка всередині вашого смартфона, який активується, коли ви підносите пристрій до вуха, можливо вловити за допомогою радара, конвертувати в аудіо та транскрибувати за допомогою штучного інтелекту.

На щастя, поки що технологія WirelessTap є далекою від досконалості. Наразі максимальна точність розпізнавання слів становить приблизно 60%. Система працює на відстані до трьох метрів, однак навіть в межах цього діапазону точність знижується у міру віддалення від джерела вібрацій. Втім, навіть цей зародок технології чудово демонструє, яким може бути майбутнє систем спостереження та шпигунства завдяки появі штучного інтелекту. Ця система покладається на зондування міліметрових хвиль (mmWave) в діапазоні 77-81 ГГц за допомогою радіолокаційних сенсорів, які використовуються у звичайних комерційно доступних виробах для дому або автомобілів: датчиках руху, системах допомоги водієві, системах виявлення перешкод для безпілотних транспортних засобів тощо. Для демонстрації свого задуму дослідники з Університету штату Пенсильванія зібрали прототип WirelessTap «на колінках» саме з доступних широкому користувачу мікрохвильових сенсорів.

Інформатик та один з авторів дослідження Суріодей Басак пояснив, що в перспективі така технологія може бути використана для прослуховування телефонних розмов на значній відстані: завдяки штучному інтелекту можливо проаналізувати вібрації та отримати контекстні підказки, які допоможуть розшифрувати повний вміст. На думку дослідника, розуміючи те, як працюють такі системи, ми можемо ефективніше оцінити потенційні ризики та створити методи захисту користувачів від прослуховування. Басак та його колега Махант Гоуда вловили вібрації динаміка смартфона та конвертувати цей набір звуків на розпізнаване мовлення за допомогою удосконаленої версії моделі розпізнавання та транскрибування мовлення Whisper від OpenAI.


Найвищої точності розпізнавання слів (60%) технології WirelessTap вдалося досягти за умови зчитування вібрацій на відстані всього 50 сантиметрів. Проте дослідники вважають, що цей показник можна покращити, якщо надати штучному інтелекту підказки у вигляді додаткового контексту, якщо користувач знає, на яку тему може відбуватися спілкування. У цьому випадку система зможе ефективніше дешифрувати вібрації подібно до того, як людям, які читають по губах, буде легше інтерпретувати те, що говорить їхній співрозмовник, якщо вони глибше розумітимуть загальну тематику розмови.

Вчені зазначають, що навіть на цьому рівні WirelessTap перевершує інші технології прослуховування на основі радарів, оскільки конкуренти зазвичай покладаються на використання «жертвою» основного динаміка телефону та мають обмежені можливості розпізнавання аудіо через недостатній словниковий запас. Ба більше, перевагою такої системи є можливість мінімізувати мікрохвильовий сенсор без зниження його продуктивності та помістити його всередину звичайних побутових речей на кшталт канцелярського приладдя. Дослідники впевнені, що через технічну доступність подібної технології нею можуть скористатися зловмисники, тому необхідно працювати над створенням контрзаходів та підвищенням обізнаності громадськості, щоб люди були більш уважними під час делікатних розмов.