ChatGPT оказался посредственным диагностом

Новое исследование, проведённое командой медиков из Университета Западного Онтарио, показало, что ChatGPT способен генерировать правильные диагнозы менее чем в половине случаев.

Примерно год назад интернет облетела потрясающая новость о том, что знаменитый чат-бот Open AI успешно сдал United States Medical Licensing Examination или USMLE — самый сложный медицинский профессиональный, трех-этапный экзамен, который проходят врачи для получения лицензии на медицинскую практику в США. Это достижение было названо важнейшей вехой на пути развития технологий ИИ. Однако новое исследование канадских учёных показало, что ChatGPT – не такой уж и хороший доктор. В рамках эксперимента медики дали чат-боту версии 3.5 изучить 150 клинических случаев, опубликованных на специализированном сайте Medscape. По итогам анализа данных искусственный интеллект поставил правильный диагноз только в 49% случаев.

По словам одного из авторов исследования, доктора Амрита Кирпалани, в сложных жизненных ситуациях, когда люди напуганы, сбиты с толку или попросту не имеют доступа к качественной медицинской помощи, идея обратиться за советом к чат-боту за медицинским советом может показаться вполне здравой. К тому же в «общении» с чат-ботом такой совет выглядит достаточно индивидуальным и детальным. Однако нельзя забывать, что подобные инструменты всё ещё имеют немало ограничений: на текущем этапе развития они не могут заменить живого специалиста с соответствующим образованием и опытом.

Способность ChatGPT генерировать информацию, делая определённые выводы, всецело зависит от полноты его тренировочной базы данных. В 2022 года модель получила примерно 570 гигабайтов текста – 300 миллиардов слов из книг, статей, газет, Wikipedia и других интернет-страниц, собранных в коллекции веб-архива Common Crawl. Алгоритм чат-бота работает за счёт поиска закономерностей во фразах, на которых он был натренирован, чтобы предсказывать, какие слова могут следовать за другими словами. Таким образом чат-боты способны генерировать ответы на текстовые описания или вопросы. В теории такая особенность работы алгоритма делает его полезным инструментом как для студентов-медиков, так и для людей за пределами мединской сферы: ИИ упрощает сложные медицинские формулировки, делая информацию более доступной. Однако склонность нейросетей к «галлюцинациям» существенно ограничивает их пользу как реального диагностического инструмента.

В рамках исследования доктор Кирпалани и его коллеги выбрали на Medscape 150 клинических случаев, которые обычно используются для обучения студентов мастерству диагностики. Как правило, такие публикации содержат описания историй болезни, жалоб, симптомов, проведённых обследований и анализов, на основе которых будущему медику необходимо поставить правильный диагноз. ChatGPT должен был выбрать один из четырёх вариантов ответа, а затем предоставить развёрнутую информацию о диагностике и плане лечения, а учёные, в свою очередь, оценивали ответы чат-бота на предмет точности и ясности. На этапе выбора варианта ИИ показал относительно неплохой результат – 74% правильных ответов. Однако содержимое развёрнутых ответов было гораздо менее качественным. Исследователи связали неудовлетворительные результаты работы ChatGPT-диагноста с тем, что его тренировочная база содержала недостаточно актуальных клинических данных.

Несмотря на ограничения чат-бота, учёные считают, что даже в таком виде он выступает неплохим учебным инструментом для пациентов и начинающих медиков, но исключительно при условии, что выдача информации происходит под контролем специалиста со здравой долей фактчекинга со стороны всех участников процесса. К тому же, по мнению исследователей, ИИ есть место в медицине на уровне решения административных задач для уменьшения нагрузки на медиков из плоти и крови.

Поділитися в соцмережах