Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом / Хабр

Компания Babylon Health, капитализация которой оценивается в $2 млрд, предлагает услуги чатбота, дающего медицинские советы на основе описываемых симптомов. Его использовали уже 1,7 млн раз. Однако эксперты волнуются, что он работает не совсем так, как обещают в рекламе.

Хэмиш Фрейзер впервые столкнулся с Babylon Health в 2017 году, когда они с коллегой для статьи в Wired помогали проверять точность диагнозов нескольких систем на базе ИИ, работающих по симптомам, и предназначенных для выдачи советов любому человеку, имеющему смартфон. Среди конкурентов с распознаванием распространённых болезней, включая астму и опоясывающий лишай, худшей оказалась программа проверки симптомов от Babylon Health. Фрейзер, который тогда работал инспектором по информатике здоровья в Лидском университете в Англии, заключил, что компании нужно очень серьёзно улучшать свой сервис, чтобы не уйти с рынка.

«В тот момент у меня не было предубеждений ни для одной из них, и ни одной я просто не знал, поэтому у меня не было цели поквитаться с кем-то, и я подумал: Нда, это не очень-то хороший результат, — говорит Фрейзер, сейчас работающий в Брауновском университете. – Я подумал, что они исчезнут. Но как я ошибался».

С момента выхода той статьи многое изменилось. С начала 2018 года лондонская компания Babylon Health выросла от 300 сотрудников до почти 1500. Компанию оценивают в $2 млрд, и она утверждает, что хочет «предоставить доступные и недорогие медицинские услуги каждому человеку на планете». В Англии Babylon Health ведёт пятую по величине медицинскую практику под надзором национальной системы здравоохранения, в основном финансируемой правительством, что позволяет пациентам, живущим близ Лондона и Бирмингема, общаться по видеочату с докторами, или приходить в клинику по необходимости. Компания заявляет, что обработала более 700 000 цифровых консультаций пациентов с докторами, и в будущем планирует предоставлять подобные услуги и в других британских городах.

Babylon Health обещает экономить деньги на всё дорожающих медицинских услугах, используя ИИ для фильтрации пациентов, так, чтобы отдавать время и ресурсы только тем людям, кому действительно требуется врачебная помощь. Babylon Health работает как в Англии, так и за рубежом, и говорит, что её программу проверки симптомов использовали уже более 1,7 млн раз в таких местах, как Англия, Евросоюз, Канада, Юго-Восточная Азия и Саудовская Аравия. Скоро Babylon Health планирует расширяться ещё сильнее, и выйти в США и Китай.

Быстрое расширение может стать проблемой, поскольку «такую технологию – и не только программы проверки симптомов, но и другие цифровые вмешательства – можно очень быстро раскрутить и поменять», говорит Дэвид Вон, читающий лекции по теме использования ИИ в здравоохранении в Манчестерском университете в Англии, и работавший с Фрейзером над тестированием таких систем для статьи. «Однако потенциально они могут многое изменить», — говорит Вон, и в частности, Babylon Health является «примером компании, очень быстро сумевшей достичь очень многого».

Такое быстрое развитие событий вызывает определённые вопросы у экспертов, утверждающих, что Babylon Health поспешила ворваться на рынок, без адекватных доказательств работоспособности своих продуктов. Пока что не было никаких экспертных оценок их услуг, с рандомизированной проверкой и контрольными группами – методами, являющимися золотым стандартом в медицинской науке – которые бы показали, насколько хорошо ИИ справляется в реальных условиях с реальными пациентами. Однако же программа проверки симптомов от Babylon Health уже влияет на тысячи людей ежедневно – получая одобрение от правительственных регуляторов в тех странах, где она предлагает свои услуги.

«Они сумели получить одобрение от национальной системы здравоохранения, даже не проверив продукт на реальных пациентах, не пройдя сторонних проверок – и регуляторам это не мешает, — говорит Маргарет Маккартни, врач общей практики из Глазго, Шотландия, и критик продукции Babylon Health. – Мне это кажется потрясающим».

Babylon Health утверждает, что удовлетворяет требованиям национальной системы здравоохранения, и во всех странах, где работает сервис, удовлетворяет всем запросам регуляторов. Также компания утверждает, что набирает исследователей из университетов для организации рандомизированных контрольных исследований. «Мы сделали важные шаги по направлению к тестированию и подтверждению безопасности и эффективности этой технологии, — говорит Кит Граймс, директор по клиническим инновациям Babylon Health. — Просто пока не в виде клинических испытаний».

Вызываю доктора чатбота

Программа проверки симптомов от Babylon Health выглядит, как чатбот, с которым пользователи общаются через приложение или на веб-сайте. Когда пользователь вводит свои основные симптомы в виде краткого предложения или фразы, программа проверки симптомов задаёт вопросы, связанные с возможным наличием связанных симптомов. В итоге, программа проверки симптомов определяет возможные причины и рекомендует дальнейшие действия – резерв консультации по видео с терапевтом или визит в больницу.

Технология, лежащая в основе программы проверки симптомов, известна, как граф знаний, и работает, как цифровая энциклопедия по медицине, в которой размечена взаимосвязь различных заболеваний, симптомов и условий. Взаимосвязь представлена миллионами опорных точек из сотен медицинских источников, и постоянно обновляется. Программа проверки симптомов также может справляться с записями историй болезни – включая данные, собранные во время работы пользователей с программой – чтобы размечать возможную связь между заболеваниями различных пользователей.

Граф знаний можно подстроить, добавляя данные, помогающие оценить вероятность появления различных заболеваний в определённых популяциях и географических районах.

Babylon Health создаёт «модель медицины, применимой не только в Соединённом Королевстве и США, но глобально», — говорит Саурабх Джохри, старший учёный Babylon Health. Он говорит, что модель должна быть настраиваемой, чтобы «отражать местную специфику заболеваний – так, что если пациент жалуется на рвоту, лихорадку и диарею в Лондоне, то вероятность наличия у него малярии ниже, чем если бы он жил в Руанде».

Многие другие медицинские компании используют популярную в сфере искусственного интеллекта технологию машинного обучения, и такой её вариант, как глубокое обучение, чтобы обучать ПО анализировать данные пациентов для определения симптомов и простановки диагнозов. Просеивая огромные количества сырых медицинских данных, такие системы иногда могут обучать ПО находить такие скрытые закономерности и связи между опорными точками в данных, какие люди и наши медицинские знания иногда упускают. Подход Babylon Health не таков – оценки его ИИ напрямую отражают существующие медицинские знания людей и человеческое понимание взаимосвязей между симптомами и их причинами, не полагаясь на многообещающую, но иногда необъяснимую работу машин.

Пока что Babylon Health использует глубокое обучение для интерпретации сообщений пациентов в чате с чатботом. ИИ также использует глубокое обучение для ускорения требовательного к вычислительным ресурсам поиска данных в графе знаний, где нужно проверять все возможные комбинации симптомов, заболеваний и факторов риска, подходящих для конкретного случая. Но в целом, ИИ от Babylon Health работает в основном за счёт медицинских знаний, накопленных людьми, не доверяя машине работу по построению логических взаимосвязей.

У такого подхода могут быть преимущества. Один из недостатков машинного и глубокого обучения состоит в том, что им требуются огромные объёмы относящихся к делу обучающих данных и вычислительные мощности для обучения закономерностям. В зависимости от страны и системы здравоохранения не всегда легко получить доступ ко всем соответствующим медицинским данным, необходимым для обучения компьютерного ПО. Ещё один недостаток такого подхода – непрозрачность. Технологии машинного обучения часто не дают экспертам-людям понять, как именно ПО связало разные опорные точки в данных.

У подхода Babylon Health с прозрачностью дела получше. Компания использует модели, позволяющие штатным докторам и программистам «заглянуть под капот», говорит Джохри, и понять, как программа проверки симптомов пришла к какому-либо выводу.

Результаты под вопросом

Несмотря на все преимущества, Babylon Health пока ещё не доказала, что является моделью с ответственным поведением. Компания пыталась заткнуть критикам рот при помощи судебных разбирательств, и получила выговор от британских регуляторов за «вводящую в заблуждение» рекламу. В интервью с Wired U.K. и Forbes бывшие сотрудники компании обрисовали ситуацию, в которой корпоративная культура вступает в противоречие с необходимостью тщательного тестирования безопасности и эффективности применения ИИ в здравоохранении. В Forbes писали: «интервью с текущими и бывшими сотрудниками Babylon Health и независимыми докторами показывают широту обеспокоенности тем, что компания поспешила выкатывать ПО, недостаточно тщательно проверенное, а потом преувеличила его эффективность» (компания выражает активный протест этим заявлениям).

Babylon Health также ввязывалась в споры с общественностью, делая заявления, которые некоторые критики впоследствии называли вводящими в заблуждение. 27 июня 2018 года компания попала в поле зрения СМИ, заявив во время прямой трансляции в Королевском врачебном колледже Лондона, что её ИИ способен диагностировать распространённые заболевания не хуже людей-терапевтов. Это заявление основывалось на исследовании компании, в котором работа ИИ сравнивалась с диагнозами, поставленными семью врачами. Также в исследовании программу проверки симптомов проверяли на части вопросов из экзамена, проводящегося для получения сертификата терапевта в Британии, на экзамене для получения членства Королевского колледжа врачей общей практики, а также на исторических записях независимого исследования 2015 года, оценивавшего несколько программ проверки симптомов.

Однако вскоре учёные и медицинские организации начали проявлять беспокойство. Королевский колледж врачей общей практики, Британская ассоциация медиков и Королевский колледж терапевтов выпустили заявления, ставящие под вопрос утверждения Babylon Health, при том, что Королевский колледж терапевтов организовывал презентацию компании и помогал проводить упомянутое исследование. Для начала, в этом исследовании проверяли ИИ только на части вопросов для экзамена, и не проверяли программу на реальных людях в клинических условиях.

У Фрейзера и Вона, исследователей, помогавших Wired U.K. проверять программу проверки симптомов в 2017-м, также возникли вопросы к этому исследованию, поскольку в нём участвовало небольшое количество докторов, и его не рассматривали независимые эксперты. Парочка решила изучить это исследование поближе. В отчёте, опубликованном в журнале The Lancet в 2018 году, они заключили, что исследование Babylon Health не даёт убедительных доказательств того, что их программа проверки симптомов «способна справляться лучше докторов в любой реалистичной ситуации, и, кроме того, есть вероятность, что она справится с ней гораздо хуже».

Эти открытия напрямую влияют на реальных пациентов. «Если программа проверки симптомов советует вам оставаться дома и не ходить к доктору, такое решение имеет свои последствия в случаях, когда необходимая помощь откладывается или так и не оказывается», — говорит Энрико Коэйра, директор Центра медицинской информатики при Университете Макуэйра в Сиднее, Австралия, и автор работы 2018 года, опубликованной в журнале Lancet.

Ещё до появления волны критики, Babylon Health начала предварительные переговоры со Стэнфордским университетом о проведении дополнительного пилотного исследования, говорит Меган Махоуни, стэнфордский клинический исследователь, соавтор работы Babylon Health от 2018 года.

«Судя по всему, у ИИ может быть определённый потенциал», — говорит Махони, поясняя, что «у нас есть реальная ответственность за выход на новый уровень строгости в оценке этого потенциала, поскольку ИИ может оказаться реально полезным для поддержки и дополнения медицинских услуг».

Махоуни описала работу Babylon Health от 2018 года как «прекрасную для внутреннего исследования». Несмотря на её оптимизм, она предупредила, что никогда бы не решилась интегрировать этот ИИ в реальные сервисы здравоохранения или медицинские практики, основываясь исключительно на результатах этого исследования.

Когда журнал Undark задал вопрос о спорах по поводу этой работы, Babylon Health ответила заявлением, где, в частности, утверждалось: «Некоторые СМИ могли неправильно интерпретировать наши заявления, однако мы остаёмся при наших изначальных результатах и научных данных». Также там было указано, что работа 2018 года является «предварительной», и сравнивала ИИ компании с «небольшой выборкой врачей». Также Babylon Health сослалась на заключение исследования: «Потребуются дополнительные исследования с использованием более крупных групп реальных людей, чтобы сравнить эффективность этих систем с врачами-людьми».

Вычисления: лекарство XXI века

Даже Babylon Health признаёт, что предварительное исследование не соответствует золотым стандартам медицинских исследований. Однако это не остановило компанию – или регуляторов – от предоставления пациентам доступа к программе проверки симптомов.

Такой подход сравним с испытаниями нового лекарства на людях без тщательных проверок, говорит Айзек Кохейн, исследователь в области биомедицинской информатики из Гарвардской медицинской школы. И добавляет, что вычисления" можно считать лекарством XXI века – поэтому давайте относиться к ним так же ответственно".

Если Babylon Health действительно организует рандомизированные контрольные тесты, то, по мнению Фрейзера, это много даст для установления доверия к её расширению на американских и азиатских рынках. Компания планирует отправить протокол тестирования в журнал с предварительной экспертной оценкой статей в ближайшие месяцы, говорит Джохри, добавляя: «Мы будем проводить эти тестирования в Британии, а также обсуждаем этот вопрос с партнёрами в Китае и США».

Текущие правила от Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США рекомендуют проявлять снисхождение к программам проверки симптомов на основе ИИ, поскольку связанные с ними риски ниже, чем у других медицинских услуг. Управление «решило освободить от надзора программы проверки симптомов – и подобные им услуги – для поощрения инноваций, — говорит Фрейзер. – Однако у них, кажется, есть возможность при желании регулировать эту область гораздо сильнее».

Пока что некоторые независимые эксперты продолжают беспокоиться по поводу текущего варианта программы проверки симптомов от Babylon Health. В начале сентября независимый консультант британской национальной системы здравоохранения, часто критикующий Babylon Health в твиттере под псевдонимом Dr. Murphy, продемонстрировал наличие возможного полового предубеждения в программе проверки симптомов от Babylon Health.

59-летней курящей женщине, пожаловавшейся на внезапные боли в груди и головокружение, программа проверки симптомов поставила в качестве вероятного диагноза депрессию или паническую атаку. Для такого же пациента, в чьём профиле был указан мужской пол, программа проверки симптомов дополнительно указала возможные серьёзные проблемы с сердцем, порекомендовав посетить больницу или вызвать скорую.

Вместо того, чтобы спорить с этими обвинениями, как это было раньше, для ответа в твиттере Babylon Health выбрала примирительный тон общения. В последовавшем посте в блоге Babylon Health признала наличие в здравоохранении предубеждений, защищая при этом эффективность программы проверки симптомов.

Это не убедило Dr. Murphy в желании компании работать над потенциальными проблемами с её ИИ: «Наиболее опасный из всех врачей тот, кто не видит свои ошибки или не учится на них».