Робопса Spot оборудовали ChatGPT и сделали экскурсоводом

В последние пару лет мир наблюдает взрывное развитие генеративного искусственного интеллекта: всевозможные чат-боты научились поддерживать живой разговор и сочинять тексты не хуже людей, визуальные генераторы производят достаточно реалистичные изображения, а генераторы речи умело имитируют голоса и акценты. Подобные инновации не прошли мимо инженеров Boston Dynamics, которые решили оборудовать большой языковой моделью (ChatGPT) своего самого знаменитого робота – робопса Spot – и превратить его в экскурсовода.

По словам представителей Boston Dynamics, LLM вроде ChatGPT в первую очередь интересуют их как инструмент обеспечения автономности робота, позволяющий системе в режиме реального времени получать информацию и принимать решения о последующих действиях – речи, движениях и т. п. В чат-ботах инженеров также привлекла их способность примерять на себя разнообразные роли и контексты, воспроизводить аспекты и нюансы различных культур, продолжая при этом взаимодействовать с собеседником и отвечать на его вопросы. Так в Boston Dynamics родился прототип робоэкскурсовода на базе Spot. Ассортимент бортовых инструментов робота пополнился дополнительными микрофонами, динамиками и камерами, с помощью которых он может ориентироваться в пространстве, а также идентифицировать визуальные и аудиоданные – окружающие объекты и речь посетителей его «экскурсии».

Робопса Spot оборудовали ChatGPT и сделали экскурсоводом — 1) LiDAR, 2) динамик и микрофоны Respeaker V2, 3) Bluetooth динамик, 4) рука робота с камерой

Стоит отметить, что все вычислительные процессы, необходимые для работы чат-бота и его интеграции в деятельность робота, происходили на стороннем компьютере или ноутбуке, которые сообщались с роботом по беспроводной связи посредством встроенного SDK. В качестве основной языковой модели робоэкскурсовода выступал ChatGPT (сперва 3.5, а затем и 4.0), однако инженеры также экспериментировали и с другими открытыми моделями. LLM в режиме реального времени имеет доступ ко всей информации, включая схему помещений и краткие описания различных локаций, объектов и экспозиций. Работа LLM сочетается с VQA (визуальной вопросно-ответной системой) и ПО для перевода речи в текст, чтобы робот мог обрабатывать данные, получаемые при помощи камер и микрофонов, и реагировать на них соответствующим образом.

Диаграмма программного обеспечения системы

И наконец, для полного завершения образа экскурсовода инженеры разработали алгоритм, который превращает его руку-манипулятор в голову, способную в некоторой степени имитировать язык тела живого существа. За счёт встроенной в руку камеры и этого алгоритма Spot может поворачивать голову в направлении собеседника и удерживать некое подобие зрительного контакта. «Кисть» манипулятора при этом играет роль мордочки робопса, открываясь и смыкаясь во время его речи. Образ экскурсовода дополняли различными аксессуарами, которые помогали робопсу «вжиться в роль», будь то девочка-подросток, археолог 1920-х годов или саркастичный Джош.

По словам инженеров Boston Dynamics, в процессе разработки и взаимодействия с прототипом их ожидало несколько приятных сюрпризов, преимущественно заключавшихся в неожиданных примерах поведения робота, не запрограммированных заранее. К примеру, в ходе экскурсии «гости» спросили робота о его родителях, и робопёс отвёл их к экспозиции, на которой были представлены «старые Spot» – V1 и Big Dog, и представил их как своих предков. В другом случае собеседник задал вопрос «Кто такой Марк Райберт?». Экскурсовод признался, что не знает ответа, и предложил обратиться за помощью к технической поддержке (IT help desk), привёл людей в соответствующую локацию в здании и задал сотрудникам поддержки нужный вопрос. В Boston Dynamics подчёркивают, что подобные ситуации вовсе не служат доказательством того, что LLM обрела сознание и разум, но отображают всю мощь ассоциативного обучения и усваиваемых с его помощью концептов.

Безусловно, демонстрационная версия робоэкскурсовода не лишена недостатков. Так, робот реагирует на вопросы или осуществляет какие-либо действия с задержкой около 6 секунд. Кроме того, из-за удалённой обработки данных он сильно зависит от качества интернет-соединения. И наконец, использование языковых моделей сопровождается галлюцинациями – LLM нередко воспринимает данные неправильно либо и вовсе выдумывает их, а затем убеждённо транслирует ложную информацию. К примеру, Spot-экскурсовод в полной уверенности рассказывал слушателям, что робот-манипулятор Stretch Boston Dynamics разработан для занятий йогой, хотя в действительности единственная доступная ему асана – это перекладывание коробок или ящиков.