ИИ ошибается при первичном диагнозе в более чем 80% случаев — исследование

Исследование показывает, что чат-боты с ИИ пока не готовы к использованию в передовой клинической практике. - Авторское право Cleared/Canva

Авторское право Cleared/Canva

By Marta Iraola Iribarren

Опубликовано 14/04/2026 - 9:00 GMT+2

Комментарии

Языковые модели ИИ в более чем 80 % случаев не дают корректной ранней диагностики, что говорит об их небезопасности для самостоятельного клинического применения, говорится в новом исследовании.

Генеративному искусственному интеллекту (ИИ) по-прежнему не хватает механизмов рассуждения, необходимых для безопасного клинического применения, как показало новое исследование.

Чат-боты на основе ИИ стали точнее ставить диагноз при наличии полной клинической информации, но более чем в 80% случаев так и не смогли предложить корректный дифференциальный диагноз, говорится в работе исследователей из Mass General Brigham — некоммерческой больнично-исследовательской сети в Бостоне, одной из крупнейших систем здравоохранения США.

Согласно результатам исследования, опубликованного в рецензируемом медицинском журнале открытого доступа JAMA Network Open (источник на английском языке), большие языковые модели (LLM) пока не демонстрируют уровня рассуждений, необходимого для их клинического применения.

«Несмотря на постоянный прогресс, большие языковые модели массового назначения пока не готовы к автономному использованию в клинике», — сказал соавтор исследования Марк Суцци.

Он добавил, что ИИ пока не способен воспроизводить дифференциальную диагностику, лежащую в основе клинического мышления и, по его словам, составляющую «искусство медицины».

Дифференциальная диагностика — первый шаг, который предпринимают медики, чтобы выявить заболевание и отделить его от других состояний с похожими симптомами.

Как проверяли модели

Команда исследователей проанализировала работу 21 большой языковой модели, включая последние доступные версии Claude, DeepSeek, Gemini, GPT и Grok.

Они оценивали LLM на 29 стандартизированных клинических случаях с помощью нового инструмента под названием PrIME-LLM.

Этот инструмент оценивает работу модели на разных этапах клинического рассуждения: постановка первичного диагноза, назначение нужных обследований, формулировка окончательного диагноза и планирование лечения.

Чтобы смоделировать развитие клинического случая, исследователи поэтапно предоставляли моделям информацию: сначала основные данные — возраст, пол и симптомы пациента, затем результаты осмотра и лабораторных исследований.

В реальной клинической практике без постановки дифференциального диагноза невозможно перейти к следующему шагу. Однако в рамках исследования моделям все равно давали дополнительную информацию, позволяя им двигаться дальше, даже если на этапе дифференциальной диагностики они ошибались.

Выяснилось, что языковые модели достаточно точно ставят окончательный диагноз, но плохо справляются с формированием дифференциального диагноза и работой в условиях неопределенности.

Автор работы Арья Рао отметила, что поэтапная оценка LLM позволяет перестать относиться к ним как к системам, просто выполняющим тест, и фактически ставит их на место врача.

«Эти модели отлично справляются с постановкой окончательного диагноза, когда данные уже полные, но им трудно на самом начале случая, когда информации мало», — добавила она.

Исследователи выяснили, что все модели в более чем 80% случаев не смогли предложить подходящий дифференциальный диагноз.

По части окончательного диагноза доля успешных ответов в зависимости от модели колебалась примерно от 60% до более чем 90%.

У большинства LLM точность возрастала, когда помимо текстовых данных им предоставляли лабораторные показатели и результаты визуализационных исследований, например снимков.

По результатам выделили группу лидеров, в которую вошли Grok 4, GPT‑5, GPT‑4.5, Claude 4.5 Opus, Gemini 3.0 Flash и Gemini 3.0 Pro.

Врачи по-прежнему незаменимы

Авторы подчеркивают, что, несмотря на улучшения от версии к версии и преимущества моделей, оптимизированных под рассуждение, массовые LLM все еще не достигли уровня интеллекта, необходимого для их безопасного внедрения, и по-прежнему слабо демонстрируют продвинутое клиническое мышление.

«Наши результаты подтверждают: при использовании больших языковых моделей в здравоохранении по-прежнему необходим „человек в контуре“ и очень пристательный контроль», — отметил Суцци.

Сусана Мансо Гарсия, член рабочей группы по искусственному интеллекту и цифровому здравоохранению Испанского общества семейной и общественной медицины, не участвовавшая в исследовании, считает, что его выводы несут обществу однозначный сигнал.

«В самом исследовании подчеркивается, что их [языковые модели] нельзя использовать для принятия клинических решений без контроля. Поэтому, хотя искусственный интеллект и является многообещающим инструментом, человеческое клиническое суждение остается незаменимым», — сказала она.

«Рекомендация для населения проста: пользоваться этими технологиями с осторожностью и при любых проблемах со здоровьем всегда обращаться к медицинскому работнику».

Перейти к комбинациям клавиш для доступности

Комментарии

ИИ ошибается при первичном диагнозе в более чем 80% случаев — исследование

Как проверяли модели

Врачи по-прежнему незаменимы

Также по теме

Как "длительный COVID" влияет на экономику ЕС?

От потери костной массы до ухудшения зрения: как космос влияет на организм человека

Всего неделя медитации может перестроить мозг, показало исследование

Беспилотник нанес удар по зданию в Москве за несколько дней до парада в честь Дня Победы

Мировые лидеры прибывают в Армению на саммит ЕПС

Конфликт Мерца и Трампа обостряется на саммите лидеров в Армении

Три человека погибли на круизном лайнере в Атлантике, предположительно от хантавирусной инфекции

Перуанцев обманом отправляют на войну в Украину: что известно о международной схеме вербовки