Доктор Айзек Кохане – практикующий терапевт и специалист в области информатики при Гарвардском университете – совместно с двумя коллегами протестировал GPT-4, чтобы понять, насколько хорошо эта ИИ-модель от OpenAI ориентируется в медицинской тематике. Результаты своего эксперимента они описали в книге «The AI Revolution in Medicine».
Помимо Айзека, авторами книги выступили независимый журналист Кэри Голдберг и вице-президент исследовательского подразделения Microsoft Питер Ли. По словам Кохане, его команда заставила модель GPT-4, опубликованную в марте 2023 года, пройти USMLE (United States Medical Licensing Examination) – состоящий из нескольких частей профессиональный экзамен для допуска врачей к медицинской практике в пределах США. USMLE признан одним из сложнейших медицинских тестов, призванным оценить не просто знания врача, но его способности применять концепции и основы фундаментальной и клинической медицины в реальной жизни для предоставления безопасного и эффективного ухода за пациентами.
По итогам эксперимента GPT-4 давал правильные ответы на 90% вопросов каждой из трёх ступеней USMLE. Это гораздо лучше, чем все предыдущие ИИ-модели, включая разработки OpenAI GPT-3 и GPT-3,5, а также лучше, чем некоторые лицензированные врачи. В частности, для достижения проходного балла экзаменуемые люди должны ответить правильно хотя бы на 60% вопросов. Учёные также отметили, что ИИ не просто хорошо ориентируется в обширной медицинской теории и натренирован сдавать сложные экзамены. Он также неплохо разбирается в специфическом техническом и медицинском жаргоне, а также способен воспринимать и понимать медицинскую информацию на иностранных языках, конвертируя как первое, так и второе в язык, доступный для ученика средней школы. Кроме того, GPT-4 смыслит в тонкостях врачебного такта и может посоветовать медикам, как максимально чутко и доступно донести до пациента специфику его диагноза и перспективы. И наконец, ИИ безупречно справляется с «проглатыванием» внушительных медицинских докладов и исследований, в считанные секунды генерируя их резюмированную версию.
Доктор Кохане и его коллеги заявили, что при работе с данной ИИ-моделью они заметили в её «словах» и аргументации решения медицинских проблем нечто напоминающее здоровую человеческую логику и ум. Однако в ответ на прямые вопросы о том, как ИИ удаётся быстро находить и эффективно применять доступную ему информацию, GPT-4 скромно сообщал, что его возможности строго ограничены алгоритмами и базой данных, и в его работе не заложено реального понимания или восприятия анализируемой и генерируемой информации. Тем не менее даже при таких ограничениях ИИ, пусть не на 100% точно, но довольно-таки успешно сумел воспроизвести алгоритмы действия врача в процессе медицинской диагностики.
В частности, в рамках клинического эксперимента Айзек предоставил ИИ-модели данные о случае с новорождённым пациентом из собственной практики. Доктор ввёл ряд ключевых деталей, собранных им в процессе физического осмотра больного, а также выдержку из УЗИ и результаты одного из анализов на гормоны. В итоге GPT-4 безошибочно идентифицировал генетическое заболевание, которое встречается у 0,001% новорождённых – врождённую гиперплазию коры надпочечников. Для постановки диагноза Кохане полагался на долгие годы практики и постоянное активное пополнение своих знаний, а ИИ для этого понадобились считанные минуты. По словам Айзека, работая с подобными технологиями, он одновременно испытывал небывалое восхищение и ужас от того, что в руках человека без исчерпывающих знаний в медицинской сфере такой инструмент может быть и помощником, и вредителем.
Несмотря на впечатляющие результаты всевозможных тестов, GPT-4 и прочие ИИ-модели не безупречны, и даже авторы книги «The AI Revolution in Medicine» приводят тому множество примеров. Как правило, это канцелярские ошибки, упущения в математических расчётах и странные случаи «забывчивости». Зачастую такие ошибки весьма трудноуловимы, однако по каким-то причинам ИИ уж очень не любит, когда ему указывают на подобные недочёты, вследствие чего система воспринимает их как истину и продолжает упрямо отстаивать свою правоту. Кроме того, как и прежним версиям GPT, четвёртой модели не удалось избавиться от «галлюцинаций» – случаев необоснованных ответов и действий вразрез с командами пользователя. Авторы книги предлагают две тактики решения этой проблемы: перезапустить сессию, чтобы ИИ «взглянул» на предположительно ошибочную информацию свежим взглядом, либо произвести верификацию данных вручную.
К слову, когда исследователи спросили ИИ, как он сам объясняет такие моменты и осознаёт ли серьёзность последствий, например, в медицинской сфере, GPT-4 ответил, что он не стремится кого-либо обмануть, а его ошибки являются следствием недочётов или неточностей в базах данных, используемых для его обучения. В довершение всего, ИИ довольно-таки уместно упомянул, что он попросту не имеет права вести клинические суждения и нести этическую ответственность, как это полагается врачу, медсестре или любому другому медицинскому работнику.