
В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том, когда остановить тестирование и сделать вывод о диагнозе. Большинство больших языковых моделей (LLM) демонстрируют хорошие результаты при диагностике по фиксированным случаям, однако им не хватает планирования, когда требуется выбрать и фокусироваться на важных диагностических тестах в несколько этапов. Эта задача требует активного сбора информации, типичного для управления агентами, обучаемыми с использованием методов обучения с подкреплением (RL), которые оптимизируют не только конечный диагноз, но и стратегию выбора действий.

Виртуальная клиника как модель мира
В новом исследовании авторы разрабатывают виртуальную клинику для клинической диагностики, где агенты выбирают, какие действия предпринять, и получают награду не только за правильный диагноз, но и за оптимизацию всей последовательности действий. Ключом к созданию этой среды является имитация реального поведения тестирования в различных клинических сценариях. По сути, это задача моделирования мира, где среда предсказывает, что обнаружит тот или иной тест для заданного пациента, учитывая предыдущие действия, позволяя замкнуть цикл между агентом и средой.
Авторы разрабатывают DiagGym, текстовую среду клинической диагностики, основанную на последовательности действий из электронных медицинских записей (MIMIC-IV), которая имитирует результаты диагностических тестов. Чтобы убедиться, что DiagGym не упрощает набор возможных результатов до нескольких шаблонов, они вычисляют различные распределительные метрики. DiagGym согласуется с реальными последовательностями в 96.91% случаев (оценка LLM) и 95% (по мнению врачей). Он показывает метрики, более близкие к реальным данным, чем универсальные LLM, а также быстрее их. Затем задача диагностики состоит в том, чтобы выбрать соответствующие тесты и прийти к правильному диагнозу быстрее и с меньшими затратами.

Агент, который учится на действиях
Внутри виртуального симулятора DiagGym авторы обучают DiagAgent, который на каждом этапе выбирает, какой тест заказать или когда завершить диагностику. Это мотивирует агента точно диагностировать, эффективно собирать релевантную информацию и завершать диагностику с минимальным количеством действий. Агента обучают с подкреплением (RL) для оптимизации всей последовательности действий в интерактивной среде. Таким образом, агент обучается стратегическому поведению для сбора информации при неопределённости, выходящему за рамки простого дообучения на реальных сценариях.
DiagAgent работает лучше в двух сценариях:
1) Одношаговая задача, где на каждом шаге он должен предложить следующий тест или сделать диагноз;
2) Полная задача, где он активно разыгрывает всю последовательность действий внутри среды.
В одношаговой задаче агент превосходит двух сильных агентных бэйзлайнов и 10 LLM: +9.34% в точности диагноза, +44.03% в рекомендациях диагностических тестов, включая GPT-4o и DeepSeek-v3, которые опережают другие LLM. В полной задаче агент опережает их на +15.12% по точности диагноза и +23.09% по F1.

Что видно по разбору случаев
На примере желтухи симулятор воспроизводит ключевые результаты (повышенный билирубин и сопутствующие симптомы). Это подтверждает, что модель мира не упрощает картину до шаблонов, а сохраняет разнообразие и контекст.

Показательный случай — аппендицит. Агент быстро сужает пространство гипотез, сначала заказывает общий анализ крови и обоснованно идёт на КТ брюшной полости; находки подтверждают диагноз. Траектория близка к референсной и экономит лишние шаги.

Но в одном из кейсов также показан провал: при разрыве внематочной беременности агент верно устанавливает диагноз, но не инициирует срочные лечебные действия, которые лежат вне текущего скоупа задач. Поэтому диагностическое рассуждение есть, а шагов нет.

Почему это работает
Во‑первых, сама виртуальная среда возвращает правдоподобные, вариативные результаты, поэтому агент учится на богатых сценариях, а не на одних и тех же шаблонах. Во‑вторых, цель обучения: оптимизируется не красивая формулировка ответа, а весь путь к нему. RL на траекториях стабильно превосходит чистое инструкционное дообучение и поднимает потолок качества для разных исходных семейств моделей.
Честно показаны и ограничения. Базы для обучения и проверки взяты вдумчиво, но RL проводился только на моделях до 14 миллиардов параметров: более крупные могут обеспечить дополнительный скачок производительности. Оценивалась только диагностика: расширение модели мира на лечение и прогноз может потребовать дополнительных доработок. Авторы приветствуют дополнительные методы оценки.
Таким образом ИИ приходит к роли мыслящего медицинского исследователя, который не просто отвечает на вопросы, а планирует, проверяет гипотезы и осваивает искусство клинического рассуждения — шаг к созданию действительно разумных медицинских помощников.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
