В последние пару лет мир наблюдает взрывное развитие генеративного искусственного интеллекта: всевозможные чат-боты научились поддерживать живой разговор и сочинять тексты не хуже людей, визуальные генераторы производят достаточно реалистичные изображения, а генераторы речи умело имитируют голоса и акценты. Подобные инновации не прошли мимо инженеров Boston Dynamics, которые решили оборудовать большой языковой моделью (ChatGPT) своего самого знаменитого робота – робопса Spot – и превратить его в экскурсовода.
По словам представителей Boston Dynamics, LLM вроде ChatGPT в первую очередь интересуют их как инструмент обеспечения автономности робота, позволяющий системе в режиме реального времени получать информацию и принимать решения о последующих действиях – речи, движениях и т. п. В чат-ботах инженеров также привлекла их способность примерять на себя разнообразные роли и контексты, воспроизводить аспекты и нюансы различных культур, продолжая при этом взаимодействовать с собеседником и отвечать на его вопросы. Так в Boston Dynamics родился прототип робоэкскурсовода на базе Spot. Ассортимент бортовых инструментов робота пополнился дополнительными микрофонами, динамиками и камерами, с помощью которых он может ориентироваться в пространстве, а также идентифицировать визуальные и аудиоданные – окружающие объекты и речь посетителей его «экскурсии».
Стоит отметить, что все вычислительные процессы, необходимые для работы чат-бота и его интеграции в деятельность робота, происходили на стороннем компьютере или ноутбуке, которые сообщались с роботом по беспроводной связи посредством встроенного SDK. В качестве основной языковой модели робоэкскурсовода выступал ChatGPT (сперва 3.5, а затем и 4.0), однако инженеры также экспериментировали и с другими открытыми моделями. LLM в режиме реального времени имеет доступ ко всей информации, включая схему помещений и краткие описания различных локаций, объектов и экспозиций. Работа LLM сочетается с VQA (визуальной вопросно-ответной системой) и ПО для перевода речи в текст, чтобы робот мог обрабатывать данные, получаемые при помощи камер и микрофонов, и реагировать на них соответствующим образом.
И наконец, для полного завершения образа экскурсовода инженеры разработали алгоритм, который превращает его руку-манипулятор в голову, способную в некоторой степени имитировать язык тела живого существа. За счёт встроенной в руку камеры и этого алгоритма Spot может поворачивать голову в направлении собеседника и удерживать некое подобие зрительного контакта. «Кисть» манипулятора при этом играет роль мордочки робопса, открываясь и смыкаясь во время его речи. Образ экскурсовода дополняли различными аксессуарами, которые помогали робопсу «вжиться в роль», будь то девочка-подросток, археолог 1920-х годов или саркастичный Джош.
Безусловно, демонстрационная версия робоэкскурсовода не лишена недостатков. Так, робот реагирует на вопросы или осуществляет какие-либо действия с задержкой около 6 секунд. Кроме того, из-за удалённой обработки данных он сильно зависит от качества интернет-соединения. И наконец, использование языковых моделей сопровождается галлюцинациями – LLM нередко воспринимает данные неправильно либо и вовсе выдумывает их, а затем убеждённо транслирует ложную информацию. К примеру, Spot-экскурсовод в полной уверенности рассказывал слушателям, что робот-манипулятор Stretch Boston Dynamics разработан для занятий йогой, хотя в действительности единственная доступная ему асана – это перекладывание коробок или ящиков.
Источник фото: Boston Dynamics