
Большие языковые модели давно научились впечатлять. Они красиво отвечают, сдают экзамены, пишут код. Но когда дело дошло до медицины, их возможности оказались ограниченными. Исследование, опубликованное в JAMA Network Open, показало, что LLM не столько рассуждают, сколько угадывают по знакомым шаблонам.
Учёные изменили сотню вопросов из медицинского экзамена MedQA (правильный вариант заменили на «Ни один из указанных»). Такой трюк позволил проверить, заметят ли модели подвох и осознанно выберут NOTA, или же будут подбирать привычные ответы.

Результаты оказались красноречивыми. Точность GPT-4o (-36.8), Gemini 2.0 (-33.8), Claude 3.5 (-26.5) и LLaMA 3.3 (-38.2) резко упала. Даже заточенные под рассуждения DeepSeek-R1 (-8.8) и o3-mini (-16.2) просели в результатах. Иными словами, вместо логического анализа модели чаще пытались «подогнать» ответ под паттерн, чем по-настоящему разобрать задачу.

Авторы работы делают вывод, что применять LLM в клинической практике пока рискованно. Там, где врачу нужно трезво взвесить симптомы и исключить редкие сценарии, нейросеть может попросту ошибиться — и ошибка эта будет стоить слишком дорого.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!