Новое исследование Оксфордского университета показывает, что, хотя большие языковые модели (LLM) справляются с медицинскими тестами наравне с врачами, их эффективность резко снижается при взаимодействии с реальными пациентами. В рандомизированном контролируемом исследовании, проведённом Оксфордским интернет-институтом, приняли участие 1298 человек из Великобритании.

Участников попросили проработать десять реалистичных медицинских сценариев. В каждом случае они должны были определить возможную причину своих симптомов и выбрать подходящий способ лечения — от самопомощи до обращения к врачу общей практики или в отделение неотложной помощи. Некоторые участники получали помощь от большой языковой модели, в то время как другие могли свободно искать информацию в Google.
Среди оцениваемых моделей были GPT-4o от OpenAI, Llama 3 от Meta* и Command R+ от Cohere.
При прямом запросе в тестовых сценариях языковые модели давали убедительные ответы. GPT-4o определял хотя бы одно релевантное условие в 94,7% случаев и рекомендовал правильное действие в 64,7% случаев. Llama 3 достигала 99,2% точности в определении условий, а Command R+ — 90,8%. Их рекомендации по следующим шагам были правильными в 48,8% и 55,5% случаев соответственно.
Однако, как только пользователи начали взаимодействовать с моделями, результаты значительно ухудшились. С помощью LLM участники назвали релевантное состояние только в 34,5% случаев — меньше, чем контрольная группа, которая проводила собственное исследование (47%). Пользователи, которым помогали модели, также не смогли превзойти контрольную группу в выборе правильного курса действий.
В исследовании этот недостаток объясняется тем, как люди и машины взаимодействуют друг с другом, а не самими моделями. Пользователи часто предоставляли неполную информацию или неправильно понимали ответы языковых моделей. Например, Command R+ не смог диагностировать камни в желчном пузыре, когда участник не указал точное место боли. В другом случае GPT-4o в одном случае классифицировал почти идентичные симптомы как неотложное состояние, а в другом — как лёгкую головную боль.
Модели обычно предлагали в среднем 2,2 возможных диагноза, но пользователи принимали только около 1,33 из этих предложений, и только около трети этих вариантов были правильными. По мнению исследователей, такая закономерность указывает на проблему передачи знаний: языковые модели предоставляют медицинские знания, но они не доходят до пользователей.
Исследование показало, что LLM пока не подходят в качестве первого контакта с пациентами. Тесты на основе моделирования не заменяют испытания с участием реальных пользователей. Модели должны научиться самостоятельно искать необходимую информацию и более чётко формулировать рекомендации.
«Чтобы медицинский LLM, ориентированный на широкую аудиторию, существовал, мы ожидаем, что он должен будет активно управлять информацией и запрашивать её, а не полагаться на то, что у пользователя есть необходимые знания для управления взаимодействием», — говорится в статье. В исследовании также отмечается, что в свете этих результатов, возможно, придётся пересмотреть надежды на то, что LLM дополнят перегруженные системы здравоохранения.
Исследование также поднимает вопросы о стандартных методах оценки. Протестированные LLM хорошо справились с тестом MedQA, в котором используются вопросы из экзамена на получение медицинской лицензии, но это не привело к повышению производительности при взаимодействии с пользователями. Моделируемые пользователи — LLM, выдающие себя за пациентов, — также превзошли реальных людей, но неточно отражали поведение пользователей.
Тем не менее, само исследование в Оксфорде проводилось в контролируемых условиях. Участники имитировали болезни в соответствии с заданным сценарием, который может быть ближе к реальности, чем тесты в стиле виньеток, но всё равно отличается от того, как общаются по-настоящему больные люди.
Кроме того, модели оценивались с помощью интерфейсов API, а не интерактивных чат-платформ, таких как ChatGPT, которые предназначены для более подробных диалоговых подсказок. В подсказках отсутствовали контекстные системные инструкции, которые могут существенно повлиять на то, как модель взаимодействует с пользователями. В исследовании не рассматривались модели рассуждений или такие методы, как подсказки «Цепочка мыслей». Недавно в статье было показано, что модель o1-preview от OpenAI превзошла людей в диагностике сложных медицинских случаев, хотя и использовала более формальную форму сравнения.
Тем не менее, исследование ясно показывает, что использование ИИ в медицине по-прежнему затруднительно, а взаимодействие между людьми и большими языковыми моделями по-прежнему остаётся основным препятствием.