Дослідники з Університету Карнегі-Меллон представили LegoGPT – штучний інтелект, що генерує фізично стабільні моделі з конструктора за текстовим описом. Ця система не просто створює дизайни, що відповідають опису, але також прораховує, чи можливо його збудувати з реальних деталей Lego вручну або з допомогою роботизованих маніпуляторів.

За словами дослідників, для створення такої ШІ-моделі вони зібрали велику базу з реальних моделей Lego, що є максимально стабільними та надійними, та додали до кожної з них детальний опис. На основі цих даних вони навчили ауторегресивну велику мовну модель прораховувати кожну деталь конструкції з допомогою інструменту прогнозування наступного токена. Так їм вдалося побудувати LegoGPT, що може розуміти прості або детальні текстові запити, як то «обтічний корабель витягнутої форми» або «класичний автомобіль з вираженою передньою решіткою». Варто зазначити, що наразі штучний інтелект вміє генерувати лише найпростіші базові форми, для створення котрих потрібна мінімальна кількість деталей – подібно до моделей Lego початку 1970-х років. Втім, ця система все ж є уважною до деталей, тому вона враховує побажання користувача щодо форми або кольору.

У дослідженні «Generating Physically Stable and Buildable Lego Designs from Text» Ава Пан та її колеги пояснили, що сьогодні дуже багато 3D-генеративних ШІ-моделей фокусуються на генерації хитромудрих об’єктів зі складною геометрією та великою кількістю деталей. Проте дуже часто ці цифрові дизайни виявляються фізично непрактичними, тобто побудовані за ними конструкції можуть бути нестабільними без зовнішньої підтримки або взагалі непридатними до відтворення. На відміну від попередніх спроб автономного моделювання конструктора, LegoGPT генерує поетапну інструкцію побудови моделі з урахуванням реальних деталей Lego, щоби гарантувати, що готова конструкція не розвалиться від одного погляду.

Якщо детальніше, то для створення своєї моделі дослідники перепрофілювали класичну технологію великої мовної моделі, подібної до таких, що живлять ChatGPT чи інших чатботів, навчивши її передбачати не наступне слово, а наступний блок. Основою для цього проєкту виступила LLaMA-3.2-1B-Instruct від Meta, яку після тонкого налаштування доповнили ще одним інструментом, що вміє на льоту перевіряти фізичну стабільність об’єктів з допомогою математичної моделі для імітації гравітації та інших структурних сил. Далі вчені побудували величезну тренувальну базу StableText2Lego з 47 000 стабільних структур Lego з описами, згенерованими з допомогою іншої моделі OpenAI GPT-4o. Кожну з цих структур попередньо проаналізували, аби переконатися, що їх дійсно можна побудувати з конструктора в реальному світі.

LegoGPT генерує послідовність збірки блоків Lego, на кожному кроці перевіряючи, чи блоки не перетинаються один з одним. Зібравши віртуальну модель з конструктора, система використовує згадані раніше математичні моделі, аби прорахувати, чи може конструкція стояти та зберігати цілісність без підтримки. Якщо якісь елементи конструкції виявляються дефективними, система шукає той самий нестабільний блок, видаляє весь подальший прогрес та намагається побудувати модель наново. З усіма етапами перевірки 98,8% конструкцій, згенерованих ШІ, виявилися придатними для відтворення та стабільними.

Щоб довести, що LegoGPT дійсно працює, дослідники протестували згенеровані ШІ моделі, відтворивши їх у реальному житті. До цього етапу тестування долучилися як люди, так і роботи – а саме, роботизована система з двома маніпуляторами та датчиками сили тиску. Випробування підтвердили, що готові моделі є одночасно доволі простими для відтворення людиною і достатньо детальними, аби їхнім інструкціям могли слідувати роботи. Ця ШІ-модель продемонструвала кращі результати за своїх попередників, але вона також має свої обмеження. Наприклад, поки що вона може створювати конструкції у масштабі 20×20×20 блоків, використовуючи лише 8 типів деталей. Проте у майбутньому її творці планують охопити ширшу варіацію блоків та збільшити розміри доступних проєктів.