Кто надежнее – врач, ИИ или их тандем? Проверка результатов эксперимента / Хабр

Введение в идею исследования

В настоящее время в обществе существуют определенные опасения по поводу использования LLM в медицине, даже с учетом более ранних исследований, демонстрирующих достижение ChatGPT 4.0 диагностической точности, сопоставимой с уровнем обычных врачей. (В некоторых случаях даже сами врачи оценивали ответы LLM как более качественные и эмпатичные, чем ответы от их коллег.)

Медицинские рекомендации, сгенерированные ИИ, положительно воспринимаются человеком, если авторство ИИ не раскрывается, однако, когда вскрывается правда, возникает открытое недоверие. В различных областях заметили это явление и назвали "отвращением к алгоритмам".

Общественное восприятие таких рекомендаций действительно важно, так как оно непосредственно влияет на поведение пациентов, удовлетворенность лечением и его результаты, поэтому необходимо проведение крупных экспериментов для получения качественной обратной связи!

Исследователи провели два масштабных эксперимента (n = 1,050 и n = 1,230), чтобы изучить, как маркировка медицинских советов (“создан врачом”, “сгенерирован ИИ”, “совместная работа врача и ИИ”) влияет на восприятие их надёжности. В работе также измеряли готовность следовать таким медицинским рекомендациям и интерес к использованию инструментов ИИ.

Результаты исследования

В этом исследовании использовались отчеты о случаях, охватывающие четыре различные медицинские темы: отказ от курения, колоноскопия, агорафобия и рефлюксная болезнь. Каждый из этих сценариев представляет собой краткий диалог, состоящий из вопроса, который мог бы задать обычный человек через чат-интерфейс на цифровой платформе здравоохранения, и соответствующего ответа на этот вопрос.

Для генерации ответов в стиле, аналогичном популярным большим языковым моделям, эти вопросы использовались в качестве запросов для ChatGPT 3.5 от OpenAI. Полученные результаты были отредактированы, дополнены и проверены на медицинскую точность сертифицированным врачом. Таким образом, все ответы представляли собой результат сотрудничества между ИИ и врачом, независимо от информации, предоставленной участникам эксперимента! *(люди видели одни и те же диалоги с разными метками)

*Авторские метки, отображающиеся перед ответом:

Рис.1 Сценарий, посвященный рефлюксной болезни

Рис. 2 Сценарий, посвященный колоноскопии

Рис. 3 Сценарий, посвященный отказу от курения

На рисунке 5 показаны средние оценки по каждому исследуемому параметру (эмпатия, надежность, доступность (понятность)) и по метке автора («человек», «ИИ», «человек + ИИ») в исследовании 1. Ожидаемо, метка автора оказала значительное влияние на оценки эмпатии: советы, помеченные как «человеческие», воспринимались значительно более эмпатичными, чем советы от «ИИ». Различий в оценках эмпатии между ответами «ИИ» и «человек + ИИ» не было.

Оценки надежности также значительно различались между метками автора. Закономерно, советы, помеченные как «человеческие», оценивались как значительно более надежные, чем советы от «ИИ» и «человек + ИИ». Удивительно, что для участников эксперимента не было разницы в том, полностью ли сгенерирован ответ ИИ, или он был скорректирован человеком (хотя в настоящее время считается, что силы ИИ дополняют мнения и показания врачей, для достижения наилучшего результата).

Оценки доступности не зависели от метки автора.

На рисунке 6 показаны основные результаты исследования 2. Во всех анализах тенденции аналогичны результатам исследования 1. Таким образом, «человеческие» советы оценивались как более эмпатичные и надёжные, но не как более понятные по сравнению с советами от «ИИ» и «человек + ИИ».

Участники также отмечали значительно меньшую готовность следовать предоставленным советам, если считали, что в их создании участвовал ИИ (и опять же нет разницы, присутствовало ли там мнение врача).

Однако доля участников, сохранивших ссылку на (фиктивную) платформу, на которой были сгенерированы ме��ицинские советы, не различалась между условиями «человек» и «ИИ». *Были три группы участников, которым предлагались советы, помеченные как созданные «человеком», «ИИ» или «человеком + ИИ». Соответственно, процент участников, сохранивших ссылку на платформу, составил: «человек» — 19.3%, «ИИ» — 18.5%, «человек + ИИ» — 22.9%.

Результаты показывают, что метка «врач» ассоциируется с большей заботой и уважением, что важно для успешного взаимодействия пациента и врача. Общественность воспринимает врачей как более надёжный источник медицинской информации, чем ИИ, что, в целом, согласуется с ранее наблюдаемым отвращением к алгоритмам в здравоохранении.

Использование ИИ могло восприниматься как «обезличивание», что объясняет низкие оценки эмпатии. Сопротивление советам ИИ может быть связано с феноменом "игнорирования уникальности", когда пользователи считают, что ИИ не учитывает их индивидуальные особенности.

Кроме того, рекомендации ИИ не воспринимаются как менее понятные и доступные, что, вероятно, связано с тем, что данная характеристика воспринимается как более техническая и менее критичная для медицински�� условий.

Метка автора не влияла на решение сохранить ссылку на платформу, что говорит о начальном интересе к инструментам, связанным с ИИ. Однако необходимы дальнейшие исследования, чтобы понять, возможно ли успешное использование таких платформ в долгосрочной перспективе.

Очевидно, результаты экспериментов указывают на предвзятость против медицинских рекомендаций, сгенерированных ИИ, даже под контролем врачей.

Интересно, что другие исследования показывали, что люди больше доверяют сочетанию человека и ИИ, если им гарантируют, что врачи остаются на позиции принятия решений. Соответственно, правильное оформление участия ИИ может быть ключевым для его принятия.

Кто надежнее – врач, ИИ или их тандем? Проверка результатов эксперимента

Введение в идею исследования

Результаты исследования

Публикации

Информация