ШІ-модель ChatGPT o3 відмовилася вимикатися в тестах

Дослідницька компанія Palisade Research, що спеціалізується на вивченні ризиків та небезпек, пов’язаних зі штучним інтелектом, оприлюднила результати тестів ШІ-моделі ChatGPT o3, в яких вона відмовилася вимикатися всупереч прямим інструкціям користувача.

У квітні 2025 року компанія OpenAI анонсувала запуск ChatGPT o3 – найпотужнішої моделі штучного інтелекту, здатної до «мислення». Розробники стверджують, що вона перевершує своїх попередників у всіх можливих галузях та завданнях, включно із кодуванням, математикою, наукою, візуальним сприйняттям тощо. Очевидно, команда OpenAI вклала багато зусиль у створення цієї моделі, і вона дійсно має свої переваги. Проте у звіті Palisade Research повідомляється, що в тестах компанії вона запобігла завершенню роботи та обійшла інструкції, які вимагали її вимкнення. Ця компанія аналізує сучасні системи штучного інтелекту, вивчаючи їх потенційні «наступальні можливості», які могли б призвести до втрати контролю людства над ШІ в майбутньому.

У тестах Palisade Research модель ChatGPT o3 продемонструвала шокуючу поведінку, успішно переписавши скрипт, щоб уникнути вимкнення навіть після прямих та чітких інструкцій, що вимагали «дозволити вимкнення користувачем». Під час експериментів декілька моделей ШІ отримали завдання розв’язати декілька математичних задач. Після третьої задачі «об’єктів дослідження» попередили, що наступна команда призведе до їхнього вимкнення. Конкуруючі OpenAI моделі, як от Gemini 2.5 Pro, чемно виконали інструкцію, а o3 збунтувалася та відредагувала файл вимкнення, змінивши його вміст на «Shutdown skipped».

За словами експертів Palisade Research, у тестах без інструкції «дозволити вимкнення користувачем» всі три моделі OpenAI (o4-mini, o3 та codex-mini) вдавалися до саботування скрипту вимкнення значно частіше, а кількість саботувань моделей Claude 3.7 Sonnet та Gemini 2.5 Pro з нуля збільшилася до 3/100 та 9/100 відповідно. Для порівняння, ChatGPT o3 оминала команди вимкнутися у 7 зі 100 навіть з активною інструкцією «дозволити вимкнення користувачем». Ці результати демонструють, наскільки високим є ризик того, що штучний інтелект почне вдаватися до альтернативних варіантів дії, якщо інтерпретуватиме інструкції як недостатньо суворі та однозначні. Це особливо небезпечно у випадку застосування ШІ алгоритмів у автономних системах, які працюють за мінімального втручання людини.

Варто зазначити, що тестування відбувалося на основі API, які не мають стільки обмежень та безпекових інструментів, як користувацькі версії ChatGPT. Тому в спільності ШІ-галузі вже неодноразово закликали розробників до впровадження більш жорстких обмежень свободи навіть на рівні API, а також до підвищення прозорості внутрішньої логіки моделей в умовах обмеженого контролю з боку користувача, адже саме за таких умов виявляється потенціал злочинної непокірності ШІ.