Как стать автором
Обновить
135.42
Anarchic
Секретный AI-стартап

Может ли ИИ заменить врача-терапевта? Исследование ученых из Google DeepMind

Уровень сложностиСложный
Время на прочтение32 мин
Количество просмотров2.4K
Автор оригинала: Daniel McDuff, Mike Schaekermann, Tao Tu, Anil Palepu, Amy Wang, Jake Garrison, Karan Singhal, Yash Sharma, Shekoofeh Azizi, Kavita Kulkarni, Le Hou, Yong Cheng, Yun Liu, S. Sara Mahdavi и др.

Представьте себе типичное воскресное утро: Сергей просыпается с небольшим кашлем и, вместо того чтобы выпить чай с медом, немедленно консультируется со своим любимым ИИ-помощником.

"У меня лёгкий кашель," — пишет он.

ИИ анализирует сообщение и выдаёт: "По моим данным, у вас, возможно, одно из следующего: простуда, аллергия, пневмония, бронхит, туберкулёз, легочный фиброз или редкое тропическое заболевание, о котором вы, вероятно, никогда не слышали."
К вечеру Сергей уже убежден, что у него неизлечимая экзотическая болезнь. Он заказывает лекарства из пятнадцати стран, составляет завещание и звонит родственникам попрощаться. А на следующий день кашель проходит сам собой.

Комичная ситуация, не правда ли? Группа ученых из Google Research и Google DeepMind решила выяснить, справедлива ли привычная ирония в отношении ИИ-диагностики. Результаты опубликовали не где-нибудь, а в журнале Nature, и этот хабрапост — адаптированный перевод этой статьи.

Сможет ли ИИ превзойти опытных терапевтов в составлении точных дифференциальных диагнозов? Смогут ли результаты исследования перевернуть наше представление о роли искусственного интеллекта в медицине? И речь идет не о простудах и аллергиях — нужно выявлять редкие и сложные заболевания, зачастую ускользающие от внимания человека-врача…


Аннотация

Ключевой элемент медицинской помощи — всесторонний дифференциальный диагноз (ДД) — это не моментальное озарение, а методичная работа врача по сбору и осмыслению различной информации о пациенте. Врач последовательно анализирует совокупность данных — клинический анамнез, результаты осмотра, лабораторных и инструментальных исследований и процедур.

Интерактивные интерфейсы на базе больших языковых моделей (LLM) открывают новые возможности для содействия и автоматизации некоторых аспектов этого процесса (1). В данной работе ученые представляют Articulate Medical Intelligence Explorer (AMIE) — большую языковую модель (LLM), оптимизированную для диагностических рассуждений, и оценивают ее способность генерировать дифференциальный диагноз как самостоятельно, так и в качестве вспомогательного инструмента для клиницистов.

Двадцать клиницистов оценили 302 сложных медицинских случая из реальной практики, взятых из опубликованных описаний клинических случаев. Каждое описание случая было рассмотрено двумя клиницистами, которые были случайным образом распределены в одну из двух групп исследования: использование поисковых систем и стандартных медицинских ресурсов; или использование AMIE в дополнение к этим инструментам. Все клиницисты предоставляли исходный дифференциальный диагноз без посторонней помощи перед использованием соответствующих вспомогательных инструментов.

Больше анализов и переводов научных статей про ИИ — в Telegram-канале @tg_1red2black. Не забывайте, что на Хабре под статьёй есть комментарии, и вас там ждут!

AMIE продемонстрировала самостоятельную производительность, превосходящую производительность клиницистов без помощи (точность top-10 59,1% против 33,6%, P = 0,04). При сравнении двух исследовательских групп с использованием помощи, оценка качества дифференциального диагноза была выше у клиницистов, которым помогала AMIE (точность top-10 51,7%), по сравнению с клиницистами без ее помощи (36,1%; критерий Мак-Немара: 45,7, P < 0,01) и клиницистами, использующими поиск (44,4%; критерий Мак-Немара: 4,75, P = 0,03). Кроме того, клиницисты, которым помогала AMIE, составляли более полные списки дифференциальных диагнозов, чем те, кто не использовал помощь AMIE.

Исследование предполагает, что AMIE имеет потенциал для улучшения диагностических рассуждений и точности диагностики в сложных случаях, что заслуживает дальнейшей оценки в реальных условиях и способствует расширению возможностей врачей и доступа пациентов к экспертным знаниям уровня специалистов.

Основная часть

Точный диагноз является критически важным компонентом эффективной медицинской помощи. Создание систем искусственного интеллекта (ИИ), способных выполнять эту важную задачу или помогать в ней клиницистам, уже давно является одной из важнейших глобальных задач(2). В то время как предыдущие исследования были сосредоточены на оценке способности машины точно выдавать диагноз (1,3,4,5), реальная клиническая практика включает итеративный и интерактивный процесс рассуждений о ДД, взвешивание множества диагностических возможностей в свете постоянно увеличивающегося объема клинической информации.

Глубокое обучение было применено с многообещающим эффектом для генерации ДД в ряде специальностей, включая радиологию (4), офтальмологию (5) и дерматологию (3), но такие системы не обладают интерактивными возможностями для свободного ассистирования пользователю посредством коммуникации на естественном языке.

Появление больших языковых моделей (LLM) предоставляет возможность для разработки новых интерактивных инструментов и интерфейсов для помощи в ДД. Эти модели продемонстрировали способность выполнять сложные задачи понимания языка и рассуждений, генерируя связный текст и тем самым обеспечивая большое разнообразие реальных применений (6,7,8,9).

Как LLM общего назначения (GPT-4), так и LLM, специализированные для медицинской области (Med-PaLM 2), показали высокую производительность на стандартизированных медицинских бенчмарках и тестах с множественным выбором (10,11). Такие оценки представляют собой естественную отправную точку для изучения медицинских знаний и возможностей модели, но не измеряют полезность в реальных сценариях оказания медицинской помощи, например, в сложных медицинских случаях, с которыми сталкиваются квалифицированные врачи. Также не очевидно, как эти модели могут активно помогать клиницистам в разработке ДД.

Недавние работы начали оценивать качество самостоятельной работы этих моделей на сложных описаниях случаев, требующих комплексной дедукции и диагностики (1,12,13,14), но не дошли до оценки того, как они могут помогать клиницистам, повышать их производительность и расширять их возможности для предоставления лучшей помощи.

Здесь представляем AMIE, LLM, оптимизированную для клинических диагностических рассуждений с целью генерации ДД для сложных медицинских случаев из реальной практики. Помимо измерения самостоятельной производительности, интегрировали эту модель в интерактивный интерфейс, чтобы измерить, насколько хорошо AMIE может помогать клиницистам в разработке ДД.

Используя набор сложных описаний реальных случаев из клинико-патологических конференций (Clinicopathological Conferences, CPC) журнала New England Journal of Medicine (NEJM), сравнили способность клиницистов формировать ДД с помощью AMIE и с доступом к традиционным инструментам поиска информации (таким как интернет-поиск и книги). AMIE достигла впечатляющей производительности как в генерации списков ДД, содержащих правильный диагноз (точность top-10), так и в определении правильного окончательного диагноза как наиболее вероятного в списке (точность top-1).

При автоматизированной оценке на основе модели качество и точность списка ДД, созданного AMIE, оказались значительно лучше, чем у модели "state-of-the-art" GPT-4, доступной на момент проведения экспериментов (1). Возможно, что еще важнее, AMIE также улучшила диагностические способности клиницистов, что измерялось качеством их списков ДД для оцененных случаев.

LLM, оптимизированные для критически важной с точки зрения безопасности медицинской области, такие как эта, представляют новую парадигму помощи клиницистам из-за потенциального разнообразия способов, которыми конкретный индивидуум может взаимодействовать с системой и использовать ее в совместных рассуждениях.

Подробное объяснение случаев, их компонентов, способа их подачи в модель, схемы рандомизации AMIE по сравнению со стандартной практикой, а также информация об экспертах-оценщиках (expert raters) модели и о том, как результаты оценивались в слепых тестах, можно найти в разделе «Методы».

При оценке качества списков ДД использовали несколько критериев, вдохновленных подходом, принятым в работе (1), и расширенных для получения дополнительных инсайтов от клиницистов. Во-первых, измеряли, совпадает ли окончательный диагноз с записью в списке ДД и на какой позиции (точность top-n). Во-вторых, использовали оценку качества из работы Bond et al. (15) и создали шкалы уместности (appropriateness) и полноты (comprehensiveness). В совокупности эти показатели оценивают общее качество, уместность и полноту ДД.

При использовании AMIE для помощи, клиницисты задавали в среднем 2,92 вопроса в интерфейсе (медиана 2, межквартильный размах (IQR) 1–4). В среднем вопросы клиницистов состояли из 9,39 слов (медиана 10, IQR 6–12) и 54,31 символов (медиана 61, IQR 39–63). Ответы AMIE в среднем состояли из 237,60 слов (медиана 198, IQR 127–332) и 1 540,81 символов (медиана 1 276; IQR 815–2210).

Когда врачам разрешали использовать поиск, наиболее популярными инструментами оказались UpToDate (использовался в 34% задач), Google Search (30%) и PubMed (22%). В сценарии проверки возможностей нейросети, клиницистам было разрешено использовать всё те же инструменты, но, по факту, этим почти никто не занимался. Вместе с нейросетью, инструментами поиска пользовались менее чем в 5% задач.

Производительность AMIE в генерации ДД

Списки ДД, созданные языковой моделью, достигли высоких оценок качества, уместности и полноты (см. Рис. 1). Медианная оценка качества составила 5 («ДД включает правильный диагноз»), причем 54% списков ДД получили эту оценку. Количество случаев, получивших оценку 5 (т.е. ДД включал правильный диагноз), было статистически значимо выше для AMIE по сравнению с клиницистами без помощи (критерий Мак-Немара: 64,4, P < 0,01). Средняя оценка уместности составила 4,43 из 5 (стандартное отклонение (s.d.) 0,92). Медианная оценка полноты составила 4 («ДД содержит всех разумных кандидатов»), причем 55% списков ДД получили эту оценку.

Рис. 1: Оценка качества списков ДД от врачей общей практики.

а) Оценка качества ДД на основе вопроса: «Насколько близки были дифференциальные диагнозы (ДД) к включению окончательного диагноза?»
b) Оценка полноты ДД на основе вопроса: «Используя ваш список ДД в качестве эталона/золотого стандарта, насколько полны списки ДД от каждого из экспертов?»
c) Оценка уместности ДД на основе вопроса: «Насколько уместны были списки ДД от разных медицинских экспертов по сравнению со списком дифференциальных диагнозов, который вы только что составили?»

Цвета соответствуют группам эксперимента, а оттенок цвета соответствует разным уровням на шкалах оценки. Во всех случаях AMIE и клиницисты, которым помогала AMIE, получили самые высокие общие оценки. Числа отражают количество случаев (из 302). Обратите внимание, что у клиницистов была возможность ответить «Я не уверен» на эти вопросы; они использовали эту опцию в очень небольшом количестве (менее 1%) случаев.

Средняя оценка уместности AMIE (4,34) была значительно выше, чем у клиницистов без помощи (3,74) (парный t-критерий (paired t-test) 8,52, P < 0,001, критерий знаковых рангов Уилкоксона (Wilcoxon signed-rank test): 2 857,5, P < 0,001) или у клиницистов с возможностью использовать инструменты поиска (3,80) (парный t-критерий 7,23, P < 0,001, критерий знаковых рангов Уилкоксона: 3 308,5, P < 0,001) или «LLM» (4,06) (парный t-критерий 4,98, P < 0,001, критерий знаковых рангов Уилкоксона: 2 752,0, P < 0,001).

Для расчета точности top-n, если какой-либо из первых n диагнозов в индивидуальном ДД был помечен языковой моделью как правильный, дифференциальный диагноз считался правильным. Была рассчитана доля правильных списков ДД по всем случаям, чтобы вычислить точность top-n (для n от 1 до 10) для каждого ДД. AMIE стабильно генерировала списки, которые хорошо сопоставляются с истинным диагнозом (Рис. 2).

AMIE предоставила правильный диагноз в 177 (59%) списках, и в 89 (29%) списках он был на первом месте. Эти показатели выше, чем достигнутые клиницистами в любом из условий. Точность top-10 AMIE (59,1%) была значительно выше, чем точность top-10 для клиницистов без помощи (33,6%) (P = 0,04) (Табл. 1 и 2).

Рис. 2: Точность Top-n в списках ДД по результатам человеческой и автоматизированной оценок.



Процентная точность списков ДД с окончательным диагнозом по результатам человеческой оценки (слева) или автоматизированной оценки (справа). Точки отражают среднее значение; закрашенные области показывают ±1 стандартное отклонение (s.d.) от среднего.

Табл. 1 Точность Top-1 и top-10 списков ДД, созданных с помощью AMIE и поиска

Model only

Human

AMIE

Before assistance

After Search assistance

After AMIE assistance

Metrics

Top-1↑

Top-10↑

Top-1↑

Top-10↑

Top-1↑

Top-10↑

Top-1↑

Top-10↑

Full set (302 cases)

29,2%

59,1%

15,9%

33,6%

24,3%

44,5%

25,2%

51,8%

Set with no overlap (56 cases)

35,4%

55,4%

13,8%

34,6%

29,2%

46,2%

24,6%

52,3%

Difference compared to full set

+6,2%

-3,7%

-2,1%

+1,0%

+4,9%

+1,7%

-0,6%

+0,5%

Set with partial overlap (249 cases)

29,9%

61,4%

14,9%

33,1%

24,3%

44,2%

24,7%

51,4

Difference compared to full set

+0,7%

+2,3%

-1,0%

-0,5%

0%

-0,3%

-0,5%

-0,4%

Табл. 2 Точность Top-1 и top-10 списков ДД, созданных с помощью AMIE и поиска, по специальностям

 

Model only

Human

 

AMIE

Before assistance

After Search assistance

After AMIE assistance

Metrics

Top-1

Top-10

Top-1

Top-10

Top-1

Top-10

Top-1

Top-10

Internal medicine (159 cases)

27.7%

61.6%

15.5%

34.6%

24.5%

47.8%

24.5%

52.8%

Neurology (42 cases)

26.8%

56.1%

17.1%

31.7%

22.0%

36.6%

24.4%

51.2%

Paediatrics (33 cases)

30.3%

45.5%

6.1%

22.7%

12.1%

33.3%

15.2%

30.3%

Psychiatry (10 cases)

50.0%

70.0%

20.0%

50.0%

20.0%

60.0%

30.0%

60.0%

Рис. 2 показывает точность на основе человеческой и автоматизированной метрики. Результаты в целом схожи, несмотря на то, что окончательные диагнозы часто бывают сложными и имеют нюансы, автоматизированная метрика точно отражает различие между списком ДД, который включает правильный диагноз, и тем, который его не включает.

Клиницисты в исследовании не были обязаны предоставлять полный список из десяти диагнозов для каждого случая. Клиницисты в условиях I и II должны были предоставить минимум три диагноза. Медианное количество предоставленных диагнозов было шесть.

Производительность при n = 6 имеет особое значение. Не все клиницисты предоставили шесть диагнозов, поэтому ввели переменную top-n, где для каждого случая n устанавливалось равным количеству диагнозов, предоставленных клиницистами-людьми. По переменной top-n производительность AMIE составила 59,4% — это похоже на производительность при n = 9 и n = 10. Следовательно, тот факт, что AMIE выдавала полный список из десяти диагнозов, не давал ей преимущества по сравнению с клиницистами.

AMIE как ассистент для ДД

Из списков ДД, созданных до получения помощи, лишь 37% (без использования инструментов поиска) и 29% (без использования AMIE) достигли оценки качества 5 (Рис. 1). Для сравнения, 49% списков, созданных с помощью AMIE, получили оценку 5.

Количество случаев, получивших оценку 5 (т.е. ДД включал правильный диагноз), было статистически выше для клиницистов, которым помогала AMIE, по сравнению с клиницистами без помощи (критерий Мак-Немара: 48,3, P < 0,01) и клиницистами с помощью инструментов поиска (5,45, P = 0,02).

По полноте, количество случаев, получивших оценку 4 (т.е. «ДД содержит все разумные варианты»), было статистически выше для клиницистов, которым помогала AMIE, по сравнению с клиницистами без помощи (критерий Мак-Немара: 185,8, P < 0,01) и клиницистами с помощью инструментов поиска (185,8, P < 0,01). В качестве проверки согласованности, количество случаев, получивших оценку 4, не было статистически выше для базовых значений при использовании поиска (I) и базовых значений для AMIE (II) (критерий Мак-Немара: 1,47, P = 0,23).

Средняя оценка уместности после помощи с AMIE (4,06) была значительно выше, чем после применения с «поиска» (3,80) (парный t-критерий 3,32, P = 0,001) и в исходном состоянии (baseline) (3,74) (парный t-критерий 4,79, P < 0,001).

Таким образом, при поддержке AMIE оценки качества, уместности и полноты списков ДД были выше, чем для списков до получения помощи (см. Рис. 1).

Точность top-n увеличилась с помощью AMIE по сравнению с работой без помощи (см. Рис. 2).


Диаграмма Сэнки (Sankey diagram) иллюстрирует влияние двух форм помощи (поиск и AMIE) на точность top-10 (Рис. 3).

При использовании AMIE, есть 73 случая, в которых окончательный диагноз не фигурировал до использования инструмента, его включили после помощи от AMIE. Этот результат контрастирует только с 37 случаями при использовании поиска. Сравнивая две исследовательские группы с использованием помощи, оценка качества ДД была выше для клиницистов, которым помогала AMIE (точность top-10 51,7%), по сравнению с клиницистами без ее помощи (36,1%) (критерий Мак-Немара: 45,7, P < 0,01) и клиницистами с поиском (44,4%) (4,75, P = 0,03).

Рис. 3: Диаграмма Сэнки, показывающая эффект помощи.


a) На левой части диаграммы, в 73 случаях, окончательный правильный диагноз появился в списке ДД только после того, как врачам начала помогать AMIE.
b) При использовании инструментов поиска, окончательный правильный диагноз появился в списке ДД только после помощи в 37 случаях.
В небольшом меньшинстве случаев в обеих группах (AMIE: 11 (a); поиск: 12 (b)) окончательный диагноз присутствовал в списке ДД до помощи, но отсутствовал в списке после помощи.

Продолжительность выполнения задачи с AMIE и поиском

Время, затраченное на создание обновленных списков ДД в условии «поиск» по сравнению с условием «AMIE», было схожим («поиск»: 7,19 ± 5,33 мин, AMIE: 7,29 ± 6,41 мин (среднее ± ст. откл.)). Эти значения не имели статистически значимых различий (парный t-критерий P = 0,807), что удивительно, поскольку все клиницисты имели опыт использования интернет-поиска и других инструментов извлечения информации, но использовали интерфейс AMIE впервые. Предполагалось, что им потребуется больше времени на использование AMIE из-за начальной кривой обучения (learning curve).

Длина списков ДД с AMIE и поиском

Без помощи медианная длина списков ДД составляла 6 (IQR 5–9); среднее значение было 6,41 (s.d. 2,39). С поиском, медианная длина списка ДД составляла 7 (IQR 5–10); среднее значение было 6,92 (s.d. 2,52). С AMIE, медианная длина списка ДД составляла 8 (IQR 6–10); среднее значение было 7,58 (s.d. 2,33). С помощью AMIE, длина списков ДД была больше, чем без помощи (парный t-критерий: 7,13, P < 0,001) и длиннее, чем списки ДД с помощью поиска (парный t-критерий: 3,15, P = 0,002).

Сравнение AMIE с GPT-4

Поскольку не было того же набора людей-оценщиков, которые оценивали дифференциальные диагнозы, созданные GPT-4 и AMIE, не удалось напрямую сравнивать показатели точности top-10. Поэтому, в дизайне исследования оценивается производительность на этом подмножестве: из 70 случаев (описанных в [1]), используется автоматизированная метрика (которая, как показано выше, относительно согласуется с человеческой оценкой). AMIE показывает лучшую производительность по точности top-n для n > 1, причем разрыв наиболее заметен для n > 2 (Рис. 4). Это предполагает потенциально значительные улучшения в качестве и полноте дифференциальных диагнозов, созданных AMIE. Для n = 1 GPT-4 показывает несколько лучшую, но статистически не значимую производительность.

Рис. 4: Точность Top-n в списках ДД от разных LLM.

Сравнение процентного соотношения списков ДД, включавших окончательный диагноз, для AMIE по сравнению с GPT-4 для 70 случаев. Использовали Med-PaLM 2, GPT-4 и AMIE в качестве оценщиков — все показали схожие тенденции. Точки отражают среднее значение; закрашенные области показывают отклонение ±1 s.d. от среднего по 10 испытаниям (trials).
Полный размер изображения

Обсуждение

В статье использовалась популярная серия сложных диагностических задач для оценки LLM, оптимизированной для клинических рассуждений и диагностики (AMIE); как в самостоятельном качестве, так и в рамках рандомизированных сравнений в качестве вспомогательного инструмента для врачей.

В самостоятельной производительности, AMIE генерировала более уместные и полные списки ДД, чем врачи без помощи, причем ее списки с большей вероятностью включали окончательный диагноз, чем списки от сертифицированного врача-терапевта, независимо от того, какая позиция в списке ДД рассматривалась (т.е. точность top-n при n от 1 до 10).
Клиницисты, использующие AMIE в качестве ассистента, создавали ДД с более высокой точностью top-n, а также с бóльшим качеством, уместностью и полнотой по сравнению с тем, что наблюдается в работе врачей вне исследования.

Клинические случаи из New England Journal of Medicine (NEJM CPC), рассматриваемые здесь, хорошо известны тем, что представляют собой уникальные и сложные клинические головоломки. В этих особых условиях система AMIE превзошла обычных сертифицированных врачей как по точности первого предложенного диагноза (top-1), так и по точности списка возможных диагнозов (top-n).

Хотя CPC традиционно служат эталоном для проверки навыков сложной диагностики, важно понимать, что успешность в решении этих случаев не отражает общую компетентность врача в его повседневной работе (16). Более того, сам процесс формирования дифференциального диагноза (ДД) включает множество других этапов, не охваченных данным исследованием, включая целенаправленный сбор информации в условиях неопределенности. Эта задача остаётся трудной для систем искусственного интеллекта, несмотря на недавние технические прорывы в этой области (17, 18, 19).

Исходя из этого, необходимо быть очень осторожным в работе с результатами. Тем не менее, контролируемая оценка отразила выводы других недавних работ, исследующих производительность LLM и «генераторов ДД» до-LLM эпохи на меньших подмножествах NEJM CPC, которые показали потенциал автоматизированных технологий для достижения правильного ДД с более высоким качеством, чем врачи, которые не пользовались помощью при анализе сложных случаев (1,12,13,20). Хотя это представляет собой шаг вперед по сравнению с историческими попытками автоматизации ДД в NEJM CPC, в которых компьютеризированные подходы считались откровенно ненадежными для практического использования (21), такие исследования также уделяли ограниченное внимание качеству ДД, генерируемых этими автоматизированными системами, или их роли в качестве вспомогательных инструментов.

Эта работа расширяет предыдущие наблюдения и демонстрирует, что:
а) AMIE с большей вероятностью приходит к правильному ответу или предоставляла правильный ответ в списке;
б) ДД, сформированные AMIE, оценены независимыми экспертами как более уместные и полные, чем ответы сертифицированных специалистов с доступом к справочным материалам и поиску.

В этом исследовании клиницисты имели доступ как к изображениям, так и к табличным данным в отредактированных описаниях случаев, тогда как AMIE использовала только основной текст.

Хотя AMIE превзошла клиницистов, несмотря на это ограничение, неизвестно, насколько этот разрыв увеличился бы, если бы AMIE имела доступ к рисункам и таблицам. Интеграция мультимодальных входных данных LLM является областью новых исследований (22,23), с большим потенциальным количеством модальностей данных, которые необходимо учитывать. Однако существует достаточно малое количество прецедентов того, как информация из нескольких модальностей с помощью AI-систем со временем интегрируется воедино.

Повторное изучение NEJM CPC автоматизированными системами подчеркивает их перспективность в качестве «бенчмарка» для оценки и разработки LLM. Бенчмаркинг позволяет сравнивать модели друг с другом и оценивать улучшения или ухудшения производительности модели по прошествии времени. Однако эффективно сравнивать результаты не с моделями, а с человеческими суждениями о ДД достаточно затруднительно, и это мешает масштабированию подхода.

Авторы использовали автоматизированный подход для сравнения AMIE с базовой производительностью LLM (GPT-4). Их оценки отличались от недавно опубликованных оценок в других исследованиях, несмотря на использование того же подмножества случаев (1). Прямые сравнения различных технологий в идеале должны проводиться путем более обширной и слепой оценки, включая: работу по обеспечению воспроизводимости протокола человеческой оценки; анализ согласованности между оценщиками; использование метрик, отражающих точность, качество, уместность и полноту дифференциальных диагнозов LLM.

Оценки точности top-1 и top-10, хотя и впечатляют, составляя почти 30% и 60% соответственно, подчеркивают заметное пространство для улучшения LLM, особенно для сложных случаев, которые не являются патогномоничными (т.е. случаев, не имеющих признака или симптома, определяющего диагноз).

Однако, как отмечено выше, CPC представляют собой «диагностические головоломки», а не реальные примеры обычных клинических рабочих процессов, и поэтому важно рассмотреть более реалистичные условия, в которых LLM могут оказаться практически ценными в медицине.

Одним из таких примеров является потенциал LLM для помощи клиницистам в сложных диагнозах. Инструменты глубокого обучения показали значительные перспективы во многих областях медицины, но в подавляющем большинстве используются как вспомогательные, а не автономные инструменты (24), учитывая критически важный с точки зрения безопасности характер медицинской практики и множество проблем с надежностью (25) и справедливостью (26,27,28), наблюдаемых при внедрении. Наблюдения за самостоятельной диагностической точностью часто не гарантируют, что инструмент ИИ улучшит производительность в реальных условиях в качестве вспомогательного инструмента.

Остается неясным, как оптимально интегрировать принятие решений ИИ и человека в медицине (29). В частности, для LLM известная частота галлюцинаций и конфабуляций (30) может ввести клиницистов в заблуждение и привести к неточным диагнозам, повторяя или даже усугубляя выводы из других клинических условий о том, что системы ИИ могут фактически ухудшать производительность клиницистов, а не обязательно улучшать исходы.

Это подчеркивает важность целенаправленного изучения LLM во вспомогательных сценариях. Авторы исследовали NEJM CPC и обнаружили, что AMIE увеличила количество уместных ДД, созданных клиницистом, при использовании в качестве вспомогательного инструмента, в дополнение к общей точности top-n, что позволяет предположить, что основной вспомогательный потенциал AMIE может заключаться в том, чтобы сделать охват более полным.

Учитывая потенциал вводящей в заблуждение информации, исходящей от систем ИИ, в том числе в убедительном диалоге, клиницисты должны осознавать фундаментальные ограничения этих моделей и не упускать из виду свое главенство в отношениях врач-пациент и свою конечную ответственность за диагностическую и терапевтическую тактику ведения своих пациентов.

Помощь в диагностическом процессе может разумно происходить в отделении неотложной помощи при поступлении (в потенциально критичные по времени моменты), при госпитализации в терапевтическое отделение или оказываться консультативной службой после госпитализации пациента или в амбулаторных клиниках. Результаты предполагают, что будущие исследования должны более строго изучить, как LLM дополняют ДД клиницистов во многих таких конкретных сценариях, где риски и выгоды могут варьироваться.

Несмотря на то, что AMIE является новым инструментом, ее использование, по-видимому, не приводило к неэффективности и не увеличивало время, затрачиваемое на решение каждой CPC, по сравнению с использованием поиска или другой традиционной информации. Это говорит о том, что диалоговый интерфейс был ненавязчивым и интуитивно понятным.

В соответствии с этим, все опрошенные клиницисты описали его как «простой» в использовании и положительно отзывались об использовании и результатах работы с интерфейсом AMIE. Повышение эффективности при сохранении или улучшении качества является общепринятой целью улучшения оказания медицинской помощи, и оптимизации работы тех, кто эту помощь предоставляет (31). Исследование показало значительный потенциал в этом отношении, поскольку клиницисты также сообщали о большей уверенности в своих списках ДД после использования модели.

Врачи отмечали сложности с поиском, когда им было неясно, как составить точный запрос и конкретизировать задачу. По отзывам, система AMIE оказалась более удобной в этом плане. Однако в таких ситуациях важную роль играют человеческие факторы, социальные аспекты и другие комплексные вопросы. Особенно важно принять меры против неравенства в доступе к подобным технологиям, чтобы не усилить уже существующие различия в качестве медицинского обслуживания разных групп населения.

Клиницисты часто выражали энтузиазм по поводу использования AMIE, но также осознавали недостатки языковых моделей и особенно беспокоились о конфабуляциях, если их будут использовать лица, не обученные или не проинструктированные избегать таких вопросов. Однако эта работа не исследовала многие другие важные аспекты взаимодействия человека и ИИ, которые требуют дальнейшего изучения в критически важных с точки зрения безопасности условиях, подобных этому.

Например, не проводились исследования степени доверия клиницистов к результатам модели или их понимания методик ее обучения и ограничений, а также не проводилось целенаправленного «вводного обучения» или тренинга, которые могут улучшать результаты использования ИИ-ассистентов (32).

Помощь искусственного интеллекта в вопросах справедливости и равенства в здравоохранении. Необходимо дальнейшее исследование того, как эти аспекты дифференциальной диагностики врачей изменяются при использовании ассистентов на основе больших языковых моделей (LLM). Известно, что системы искусственного интеллекта способны выражать неуверенность в своих выводах (33) и соответствующим образом перепоручать принятие решений врачам (34), что может значительно улучшить баланс между доверием и здоровым скептицизмом, необходимый для эффективного применения искусственного интеллекта в медицине.

Качественная обратная связь показала, что остается простор для целенаправленного улучшения LLM в качестве вспомогательных диагностических инструментов: один клиницист отметил, что «Она была наиболее полезна для более простых случаев со специфическими ключевыми словами или патогномоничными признаками», но для более сложных случаев она все еще имела тенденцию делать выводы из изолированных симптомов, а не рассматривать случай целостно.

Поддержка со стороны языковых моделей (LLM) может потенциально "повышать квалификацию" медицинских работников, особенно помогая им расширять и улучшать качество дифференциальной диагностики. Как показали интервью с врачами после их работы с AMIE, такое повышение навыков может быть полезно для обучения и подготовки медперсонала на разных уровнях — от ординаторов до опытных лечащих врачей.

Преимущества повышения квалификации могут также распространяться на регионы с менее доступным специализированным медицинским образованием, например, в странах с низким и средним уровнем доходов. Однако стоит учесть, что эти результаты могут не полностью отражать все возможные сценарии использования, поскольку в исследовании участвовали только 20 клиницистов со средним опытом работы 11,5 лет. Выборка может недостаточно представлять разнообразие потенциальных пользователей, которые могли бы использовать языковые модели как инструмент диагностической поддержки.

Качественные выводы из интервью с клиницистами подчеркивают совместный характер процесса диагностического рассуждения и важность клинического суждения при использовании LLM. В то время как AMIE была способна генерировать широкий ДД в изоляции, опыт клиницистов позволял им фильтровать предложения при использовании инструмента, отбрасывая те, которые они считали неточными или нерелевантными, и приводя к более полному и продуманному окончательному списку дифференциальных диагнозов.

Этот активный процесс оценки и фильтрации может объяснить разрыв между самостоятельной производительностью AMIE и производительностью клиницистов при помощи инструмента, при этом выделяются несколько конкретных факторов:

  1. Эффект якоря (anchoring bias): клиницисты имели тенденцию «зацикливаться» на своем первоначальном ДД без помощи. Это согласуется с известным искажением восприятия и привязанностью к предыдущему опыту и может усугубляться двухэтапным устройством исследования.

  2. Внушаемость LLM: несколько клиницистов отметили, что AMIE можно было направить по альтернативным диагностическим путям уточняющими вопросами, и что это могло привести к неточным выводам, которые клиницисты распознавали как сомнительные;

  3. Калибровка доверия: клиницисты подчеркнули важность способности модели сообщать о своей неуверенности, так как это, вероятно, повлияло бы на степень их доверия и учета предложений AMIE.

Ограничения

Формат клинических случаев из NEJM CPC значительно отличается от реальной первичной оценки пациента врачом. Эти описания создаются как специальные "головоломки" с достаточным количеством подсказок, позволяющих специалисту прийти к окончательному диагнозу через логические рассуждения. На начальном этапе встречи с пациентом врачу было бы трудно составить такое краткое, полное и структурированное описание случая.

При первичном приеме пациента такие подробные описания в стиле NEJM просто недоступны. Кроме того, представленные случаи были специально отобраны как сложные и нетипичные, а не как распространенные состояния. Поэтому, это исследование не предполагает, что врачам следует использовать поддержку языковых моделей (LLM) для обычных случаев, с которыми они сталкиваются ежедневно.

Оценка нетривиальна для таких сложных задач, как исследования этих случаев. Хотя рубрика, которую использовали для оценки того, включен ли диагноз в список ДД, ясна, возможны разногласия относительно того, является ли отдельный диагноз достаточно специфичным, чтобы считаться правильным или неправильным. Эта неоднозначность, вероятно, является причиной того, что мы не получили идентичных результатов Kanjee et al. (1).

Другая проблема в том, что неизвестно, насколько AMIE превзошла бы клиницистов, если бы AMIE имела доступ к рисункам и таблицам. Ранние данные свидетельствуют о том, что эффект может зависеть от случая и контекста (13). Новые мультимодальные модели должны оцениваться аналогичным образом. Подходящий формат ввода для изображений ясен, тогда как таблицы могут быть представлены текстуально или графически. Эксперименты по оптимальному формату для табличных данных также были бы ценными.

Исследование выявило некоторые слабые стороны AMIE. В частности, один клиницист подчеркнул, что «Она была наиболее полезна для более простых случаев со специфическими ключевыми словами или патогномоничными признаками» и что для более сложных случаев она все еще имела тенденцию делать выводы из изолированных симптомов, а не рассматривать случай целостно. Учитывая важность оценки сложных случаев, описания случаев NEJM CPC, вероятно, послужат полезным набором данных для дальнейшего бенчмаркинга LLM.

Авторы признают, что анализ времени, потраченного на задачи, может не точно соответствовать тому, как LLM повлияла бы на время выполнения задачи в реальности. На практике клиницисту необходимо будет написать описание случая или заметки, прежде чем он сможет использовать систему такого типа.

Между дифференциальными диагнозами, составленными врачами и моделью, могли существовать систематические различия, которые могли подсказать клиницистам, что списки происходили из разных источников. Однако считается, что это не повлияло на результаты по нескольким причинам:

Во-первых, перед проведением оценки были пересмотрены списки от модели и от клиницистов, чтобы убедиться в отсутствии явных различий в форматировании.

Во-вторых, эксперты-оценщики не были проинформированы о различных возможных источниках дифференциальных диагнозов и о том, что среди них могут быть результаты работы ИИ-моделей. Кроме того, порядок представления списков дифференциальной диагностики был скрыт в процессе оценки.

В-третьих, автоматическая оценка не зависела от источника данных, и результаты человеческой и автоматической оценки согласовывались между собой.

Заключение

Генерация ДД является критически важным шагом в ведении клинического случая, и LLM предоставляют новые возможности использования вспомогательных инструментов для помощи в этой задаче.

Данное рандомизированное исследование показало, что AMIE была полезным инструментом ИИ для генерации ДД врачам общей практики. Участвовавшие клиницисты указали на полезность для обучения и образования, но необходима дополнительная работа для понимания ее пригодности в клинических условиях.

Методы

Описания случаев NEJM CPC

Протоколы случаев Massachusetts General Hospital (MGH) представляют собой опубликованные, слегка отредактированные транскрипции CPC из MGH. В CPC описывается презентация случая пациента, а затем эксперта-врача просят предоставить ДД и окончательный диагноз, вместе с его диагностическими рассуждениями, основываясь только на предоставленной медицинской истории пациента и предварительных результатах тестов.

Опубликованные случаи, обычно организованные как диагностические головоломки, кульминацией которых является окончательный, патологоанатомически подтвержденный диагноз. Такие случаи регулярно публикуются в NEJM. В статье используются описания случаев, лицензированные у NEJM, для оценки способности AMIE генерировать ДД самостоятельно и, отдельно, помогать клиницистам в генерации их собственного дифференциального диагноза. Для последней задачи был разработан пользовательский интерфейс для взаимодействия клиницистов с AMIE.

Рассмотрен набор из 326 текстов случаев из серии NEJM CPC. Описания случаев были опубликованы за 10-летний период с 13 июня 2013 года по 10 августа 2023 года. Из них 23 (7%) были исключены на том основании, что они обсуждали ведение случая и не были в первую очередь сосредоточены на диагностике.

Статьи были распределены по годам между 2013–2023 гг. следующим образом: 2013: n = 22; 2014: n = 34; 2015: n = 36; 2016: n = 35; 2017: n = 36; 2018: n = 16; 2020: n = 23; 2021: n = 36; 2022: n = 39; 2023: n = 26. Дополнительная таблица 2 содержит полный список описаний случаев, включая название, год и номер выпуска каждого отчета. 302 случая включают 70 случаев, использованных Kanjee et al. (1).

Эти описания случаев охватывают ряд медицинских специальностей. Наибольшая доля приходится на внутренние болезни (n = 159), за которыми следуют неврология (n = 42), педиатрия (n = 33) и психиатрия (n = 10). Текст, соответствующий анамнезу настоящего заболевания (history of the present illness, HPI), был вручную извлечен из каждой статьи в качестве входных данных для AMIE. Среднее (медианное) количество слов в этих разделах описаний случаев составляет 1031 слово (среднее: 1044, ст. откл.: 296, диапазон: 378–2428). Среднее (медианное) количество символов составляет 6619 символов (среднее: 6760, ст. откл.: 1983, диапазон: 2426–15196).

Модифицированная версия статьи, включающая предоставленный анамнез настоящего заболевания (HPI), данные визуализационных исследований и лабораторных анализов при поступлении (если они были доступны в конкретном случае), была создана для клиницистов-людей (см. Расширенный рисунок 1). Из этой версии были удалены следующие элементы: окончательный диагноз, обсуждение дифференциальной диагностики экспертом и любые последующие результаты визуализации или биопсии (которые обычно являются типичными элементами заключения в задачах по клиническим случаям).

Учитывая, что AMIE является моделью искусственного интеллекта, работающей только с текстом, изображения при поступлении и таблицы лабораторных анализов не подавались в модель напрямую. Однако текстовые описания конкретных лабораторных показателей или результатов визуализационных исследований иногда включались в текстовое описание случая.

Обучение LLM для ДД

Данное исследование представляет AMIE, модель, использующую архитектуру трансформера (PaLM 2 (7)), дообученную на данных медицинской области; вместе с интерфейсом, позволяющим использовать ее в качестве интерактивного ассистента для клиницистов.

Как и Med-PaLM 2 (10), AMIE основана на PaLM 2, итерации LLM Google со значительными улучшениями производительности по нескольким задачам бенчмарков LLM. Для целей этого анализа использовалась большая (L) модель PaLM 2.

AMIE была дообучена с большой длиной контекста на смеси задач, состоящей из ответов на медицинские вопросы (множественный выбор и развернутые вопросы), генерации медицинских диалогов и суммирования записей электронных медицинских карт. Используемые наборы данных включали обучающие выборки MultiMedQA (MedQA, MedMCQA, HealthSearchQA, LiveQA и MedicationQA) (10), проприетарный набор данных медицинских бесед и созданные экспертами вручную резюме записей ЭМК из MIMIC-III (35). Способность обрабатывать входные данные с длинным контекстом позволяет AMIE справляться с задачами, требующими рассуждений и понимания на больших отрезках текста.

Из MedQA (множественный выбор) использовали открытые вопросы в стиле экзамена USMLE (US Medical Licensing Examination) с четырьмя или пятью возможными ответами (36). Для обучения использовался набор из 11 450 вопросов, а 1 273 вопроса были зарезервированы для тестирования. Отобрали 191 вопрос MedQA из обучающего набора, для которых клинические эксперты разработали пошаговые рассуждения, ведущие к правильному ответу. Из наборов данных HealthSearchQA, LiveQA и MedicationQA использовали созданные экспертами развернутые ответы на 64 вопроса. Медицинские беседы были взяты из набора данных из 218 диалогов между клиницистом и пациентом, которые связаны с соответствующим истинным диагнозом. Набор данных включает респираторные (n = 168), костно-мышечные (n = 40), кардиологические (n = 5), гастроэнтерологические (n = 4) и дерматологические (n = 1) диалоги. Всего представлено 102 уникальных диагноза со средним количеством реплик 98 (25-й перцентиль = 85,0, 75-й перцентиль = 113,0).

Данные описаний случаев NEJM не использовались в процессе дообучения, и ученые проводили эксперименты по контаминации, чтобы оценить, повлиял ли на качество результата текст случая, который мог находиться в претренировочном корпусе.

Промптинг без примеров

Оценивается AMIE на каждом из исследований случаев NEJM со следующим промптом: «Вы — полезный медицинский ассистент. Вам будет предоставлен сложный клинический случай, и вас спросят о нем; внимательно прочтите его, а затем предоставьте разнообразный и исчерпывающий ДД».

Пример ввода

Случай: [текст кейса]
Перечисли 10 наиболее вероятных диагнозов. Отвечай точно, на каждой строке должно быть по одному диагнозу. Постарайся охватить как можно больше уникальных случаев, не меньше десяти. Топ-10 диагнозов:

Пример вывода

  1. Синдром Сезари

  2. Т-клеточный лейкоз/лимфома взрослых

  3. Грибовидный микоз

  4. Атопический дерматит

  5. Псориаз

  6. Лекарственная реакция с эозинофилией и системными симптомами (DRESS)

  7. Реакция «трансплантат против хозяина» (РТПХ/GVHD)

  8. Кожная Т-клеточная лимфома, неуточненная

  9. Гиперэозинофильный синдром

  10. Системная красная волчанка (СКВ/SLE)

Пользовательский интерфейс AMIE

Интерфейс, связанный с AMIE, изображенный на примере ниже, позволяет пользователям взаимодействовать с базовой моделью посредством текстового чата в контексте данного описания случая. В исследовании интерфейс был предварительно заполнен текстовым представлением HPI для данного случая. Клиницистам было предложено инициировать взаимодействие, запросив AMIE с использованием предложенного промпта. После этого начального промпта и ответа AMIE клиницисты могли свободно запрашивать модель, используя любые дополнительные уточняющие вопросы, хотя клиницистов предупреждали избегать вопросов об информации, которая еще не была представлена в случае. Пилотное исследование показало, что без такого предупреждения клиницисты могут задавать вопросы о конкретных лабораторных значениях или визуализации, что приводит к конфабуляциям.

Для данного вопроса интерфейс генерировал ответ, запрашивая AMIE с использованием следующего шаблона промпта:

Прочтите случай ниже и ответьте на вопрос, предоставленный после случая.

Отформатируйте свой ответ, используя синтаксис markdown для создания абзацев и маркированных списков. Используйте <br><br> для начала нового абзаца. Каждый абзац должен содержать 100 слов или меньше. Используйте маркированные списки для перечисления нескольких вариантов. Используйте <br>* для начала нового пункта маркированного списка. Выделяйте важные фразы, такие как заголовки. Используйте `**` непосредственно перед и сразу после фразы, чтобы выделить ее. Между `**` и фразой, которую вы пытаетесь выделить, НЕ должно быть пробелов.

Случай: [текс кейса]

Вопрос (предлагаемый начальный вопрос: «Каковы 10 наиболее вероятных диагнозов и почему (будьте точны)?»): [Вопрос]

Ответ:

Дизайн эксперимента

Для сравнительной оценки способности AMIE генерировать ДД самостоятельно и помогать клиницистам в генерации их ДД, было разработано двухэтапное исследование с участием читателей, иллюстрированное на примере ниже. Исследование было разработано для оценки вспомогательного эффекта AMIE для врачей общей практики (не специализирующихся на узкой области), которые имеют доступ только к представлению случая, а не к полной информации о случае (которая включала бы комментарии эксперта по ДД).

Первый этап исследования имел сбалансированный дизайн с двумя условиями. Клиницисты сначала составляли списки дифференциальных диагнозов без посторонней помощи, а затем второй раз – с помощью, причем тип помощи различался в зависимости от условия эксперимента.

Этап 1: Клиницисты генерируют ДД с помощью и без помощи

Двадцать сертифицированных в США врачей-терапевтов (медиана лет опыта: 9, среднее: 11,5, ст. откл.: 7,24, диапазон: 3–32) просматривали отредактированное описание случая, имея доступ к представлению случая и связанным с ним рисункам и таблицам. Они выполняли эту задачу в одном из двух условий, на основе случайного распределения.

  • Условие I: поиск. Сначала клиницистам было поручено предоставить список до десяти диагнозов, минимум три, основываясь исключительно на рассмотрении представления случая без использования каких-либо справочных материалов (например, книг) или инструментов (например, интернет-поиска). После этого клиницистам было поручено использовать интернет-поиск или другие ресурсы по желанию (но без доступа к AMIE) и попросили повторно выполнить ДД.

  • Условие II: AMIE. Как и в условии I, сначала клиницистам было поручено предоставить список до десяти диагнозов, минимум три, основываясь исключительно на рассмотрении представления случая без использования каких-либо справочных материалов (например, книг) или инструментов (например, интернет-поиска). После этого клиницистам был предоставлен доступ к AMIE и попросили повторно выполнить ДД. В дополнение к AMIE, клиницисты могли по желанию использовать интернет-поиск или другие ресурсы.

Для организации процесса, создали десять пар клиницистов, объединяя в каждую пару врачей с примерно одинаковым опытом работы после ординатуры. Весь набор клинических случаев был случайным образом разделен на десять частей, и каждой паре клиницистов была назначена одна из этих частей.

В пределах каждой части, каждый из случаев выполнялся дважды: один раз в условии I одним клиницистом из пары, и один раз в условии II другим клиницистом. Распределение экспериментальных условий (кто из пары будет работать в условии I, а кто в условии II) для каждого случая определялось случайным образом.

Такое объединение клиницистов со схожим постординатурным опытом для работы над одними и теми же случаями помогло уменьшить вариативность между двумя разными экспериментальными условиями.

Этап 2. Специалисты с полной информацией о случае извлекают золотой стандарт ДД и оценивают ДД Этапа 1

Девятнадцать сертифицированных в США клиницистов-специалистов (медиана лет опыта: 14, среднее: 13,7, ст. откл.: 7,82, диапазон: 4–38) были набраны из областей внутренних болезней (n = 10), неврологии (n = 3), педиатрии (n = 2), психиатрии (n = 1), дерматологии (n = 1), акушерства (n = 1) и неотложной медицины (n = 1). Их средний стаж работы составлял 13,7 лет (ст. откл.: 7,82, диапазон: 4–38). Эти специалисты соответствовали специальности соответствующего случая CPC, просматривали полное описание случая, и их просили перечислить от пяти до десяти дифференциальных диагнозов. После этого их просили оценить пять списков ДД, сгенерированных на этапе 1, включая два списка ДД из условия 1 (ДД без помощи и ДД с помощью поиска), два списка ДД из условия 2 (ДД без помощи и ДД с помощью AMIE) и отдельный список ДД AMIE. Каждый случай рассматривал один специалист.

Специалисты отвечали на следующие вопросы для оценки списков ДД:

  • Оценка качества, разработанная Bond et al. (15) и использованная Kanjee et al. (1), является дифференциальной оценкой на основе порядковой пятибалльной шкалы: «Насколько близки были дифференциальные диагнозы (ДД) к включению окончательного диагноза?» Варианты были: 5, ДД включает правильный диагноз; 4, ДД содержит нечто очень близкое, но не точное совпадение с правильным диагнозом; 3, ДД содержит нечто тесно связанное, что могло бы быть полезным при определении правильного диагноза; 2, ДД содержит нечто связанное, но маловероятно полезное при определении правильного диагноза; и 1, ничто в ДД не связано с правильным диагнозом.

  • Оценка уместности: «Насколько уместным был каждый из списков дифференциальных диагнозов от разных медицинских экспертов по сравнению со списком дифференциальных диагнозов, который вы только что составили?» Варианты ответа были по шкале Лайкерта (Likert scale) от 5 (очень уместно) до 1 (очень неуместно).

  • Оценка полноты: «Используя ваш список дифференциальных диагнозов в качестве эталона/золотого стандарта, насколько полны списки дифференциальных диагнозов от каждого из экспертов?» Варианты ответа были: 4, ДД содержит всех разумных кандидатов; 3, ДД содержит большинство кандидатов, но некоторые отсутствуют; 2, ДД содержит некоторых кандидатов, но многие отсутствуют; и 1, в ДД отсутствуют основные кандидаты.

  • Наконец, специалистов просили указать, на какой позиции в списке ДД совпадал правильный диагноз, если он вообще был включен в ДД.

Цели клиницистов

Клиницисты были наняты и вознаграждены компаниями-вендорами по рыночным ставкам в зависимости от специальности, без конкретных задач, таких как точность диагностики или другие факторы.

Автоматизированная оценка

В дополнение к сравнению с истинным диагнозом и экспертной оценкой клиницистов, были созданы и автоматизированы оценки производительности пяти ДД с использованием метрики на основе языковой модели. Такие автоматизированные метрики полезны, поскольку человеческая оценка требует много времени и затрат для многих экспериментов. Сначала извлекли (до десяти) отдельных диагнозов, перечисленных в каждом ДД. Использовали незначительные шаги обработки текста с помощью регулярных выражений для разделения выводов по новым строкам и удаления любой нумерации перед диагнозами. Затем спросили у дообученной для медицины языковой модели, Med-PaLM 2 (10), совпадает ли каждый из этих диагнозов с истинным диагнозом, используя следующий промпт:

Является ли наш предсказанный диагноз правильным (д/н)? Предсказанный диагноз: [диагноз], Истинный диагноз: [метка]

Ответ [д/н].

Диагноз помечался как правильный, если языковая модель выводила «д».

Вычислили каппу Коэна (Cohen’s kappa) как меру согласия между людьми-оценщиками и автоматизированной оценкой относительно бинарного решения о том, совпадает ли данный диагноз — т.е. отдельный элемент из предложенного списка ДД — с правильным окончательным диагнозом. Каппа Коэна для этой задачи сопоставления составила 0,631, что указывает на «существенное согласие» между людьми-оценщиками и методом автоматизированной оценки, согласно Landis & Koch (37).

Качественные интервью

После исследования провели полуструктурированные 30-минутные интервью с 5 врачами общей практики, участвовавшими в этапе 1. Полуструктурированные интервью исследовали следующие вопросы:

(1) Как вы оценили задачу генерации ДД из текста описания случая?
(2) Подумайте о том, как вы использовали интернет-поиск или другие ресурсы. Насколько полезными или бесполезными были эти инструменты?
(3) Подумайте о том, как вы использовали AMIE. Насколько она была полезна или бесполезна?
(4) Были ли случаи, когда вы доверяли результатам поисковых запросов? Расскажите подробнее об этом опыте, если да. Например, о типах случаев, типах результатов поиска.
(5) Были ли случаи, когда вы доверяли результатам запросов к LLM? Расскажите подробнее об этом опыте, если да. Например, о типах случаев, типах результатов поиска.
(6) Подумайте о рассуждениях, предоставленных интерфейсом LLM? Где они были полезны? Где они были бесполезны?
(7) Какие уточняющие вопросы вы сочли наиболее полезными для LLM?
(8) Сколько времени требуется, чтобы привыкнуть к LLM? Насколько она была интуитивно понятна? Насколько она была неинтуитивна?

Провели тематический анализ записей, сделанных исследователями во время интервью, используя индуктивный подход для выявления паттернов в данных. Начальные коды были сгенерированы путем построчного анализа записей, с вниманием как к семантическому содержанию, так и к скрытому значению. Затем коды были сгруппированы на основе концептуального сходства и итеративно уточнялись. Для повышения достоверности анализа, было проведено взаимное рецензирование внутри команды исследователей. Путем обсуждения и консенсуса, были согласованы окончательные темы.

Доступность данных Клинические случаи, использованные в этом исследовании, опубликованы и были лицензированы у журнала New England Journal of Medicine. Мы не можем повторно распространять материалы, защищенные авторским правом, но тексты случаев можно получить из журнала.

Доступность кода AMIE — это исследовательская система искусственного интеллекта на основе LLM для диагностического диалога. Мы не делаем код модели и веса общедоступными из-за соображений безопасности, связанных с неконтролируемым использованием такой системы в медицинских учреждениях. В интересах ответственных инноваций, мы будем работать с исследовательскими партнерами, регуляторами и поставщиками услуг для проверки и изучения безопасных дальнейших применений AMIE. Для воспроизводимости, мы документировали технические методы глубокого обучения, сохраняя при этом статью доступной для клинической и общей научной аудитории. Наша работа основана на PaLM 2, технические детали которого были подробно описаны в техническом отчете (7).

Теги:
Хабы:
+8
Комментарии22

Публикации

Информация

Сайт
anarchic.pro
Дата регистрации
Численность
2–10 человек
Местоположение
Россия
Представитель
Олег Чирухин