Можно ли доверять медицинским советам ботов? Доктора пока не уверены в этом

Автор оригинала: Jeremy Hsu—Undark
  • Перевод

Компания Babylon Health, капитализация которой оценивается в $2 млрд, предлагает услуги чатбота, дающего медицинские советы на основе описываемых симптомов. Его использовали уже 1,7 млн раз. Однако эксперты волнуются, что он работает не совсем так, как обещают в рекламе.



Хэмиш Фрейзер впервые столкнулся с Babylon Health в 2017 году, когда они с коллегой для статьи в Wired помогали проверять точность диагнозов нескольких систем на базе ИИ, работающих по симптомам, и предназначенных для выдачи советов любому человеку, имеющему смартфон. Среди конкурентов с распознаванием распространённых болезней, включая астму и опоясывающий лишай, худшей оказалась программа проверки симптомов от Babylon Health. Фрейзер, который тогда работал инспектором по информатике здоровья в Лидском университете в Англии, заключил, что компании нужно очень серьёзно улучшать свой сервис, чтобы не уйти с рынка.

«В тот момент у меня не было предубеждений ни для одной из них, и ни одной я просто не знал, поэтому у меня не было цели поквитаться с кем-то, и я подумал: Нда, это не очень-то хороший результат, — говорит Фрейзер, сейчас работающий в Брауновском университете. – Я подумал, что они исчезнут. Но как я ошибался».

С момента выхода той статьи многое изменилось. С начала 2018 года лондонская компания Babylon Health выросла от 300 сотрудников до почти 1500. Компанию оценивают в $2 млрд, и она утверждает, что хочет «предоставить доступные и недорогие медицинские услуги каждому человеку на планете». В Англии Babylon Health ведёт пятую по величине медицинскую практику под надзором национальной системы здравоохранения, в основном финансируемой правительством, что позволяет пациентам, живущим близ Лондона и Бирмингема, общаться по видеочату с докторами, или приходить в клинику по необходимости. Компания заявляет, что обработала более 700 000 цифровых консультаций пациентов с докторами, и в будущем планирует предоставлять подобные услуги и в других британских городах.

Babylon Health обещает экономить деньги на всё дорожающих медицинских услугах, используя ИИ для фильтрации пациентов, так, чтобы отдавать время и ресурсы только тем людям, кому действительно требуется врачебная помощь. Babylon Health работает как в Англии, так и за рубежом, и говорит, что её программу проверки симптомов использовали уже более 1,7 млн раз в таких местах, как Англия, Евросоюз, Канада, Юго-Восточная Азия и Саудовская Аравия. Скоро Babylon Health планирует расширяться ещё сильнее, и выйти в США и Китай.

Быстрое расширение может стать проблемой, поскольку «такую технологию – и не только программы проверки симптомов, но и другие цифровые вмешательства – можно очень быстро раскрутить и поменять», говорит Дэвид Вон, читающий лекции по теме использования ИИ в здравоохранении в Манчестерском университете в Англии, и работавший с Фрейзером над тестированием таких систем для статьи. «Однако потенциально они могут многое изменить», — говорит Вон, и в частности, Babylon Health является «примером компании, очень быстро сумевшей достичь очень многого».

Такое быстрое развитие событий вызывает определённые вопросы у экспертов, утверждающих, что Babylon Health поспешила ворваться на рынок, без адекватных доказательств работоспособности своих продуктов. Пока что не было никаких экспертных оценок их услуг, с рандомизированной проверкой и контрольными группами – методами, являющимися золотым стандартом в медицинской науке – которые бы показали, насколько хорошо ИИ справляется в реальных условиях с реальными пациентами. Однако же программа проверки симптомов от Babylon Health уже влияет на тысячи людей ежедневно – получая одобрение от правительственных регуляторов в тех странах, где она предлагает свои услуги.



«Они сумели получить одобрение от национальной системы здравоохранения, даже не проверив продукт на реальных пациентах, не пройдя сторонних проверок – и регуляторам это не мешает, — говорит Маргарет Маккартни, врач общей практики из Глазго, Шотландия, и критик продукции Babylon Health. – Мне это кажется потрясающим».

Babylon Health утверждает, что удовлетворяет требованиям национальной системы здравоохранения, и во всех странах, где работает сервис, удовлетворяет всем запросам регуляторов. Также компания утверждает, что набирает исследователей из университетов для организации рандомизированных контрольных исследований. «Мы сделали важные шаги по направлению к тестированию и подтверждению безопасности и эффективности этой технологии, — говорит Кит Граймс, директор по клиническим инновациям Babylon Health. — Просто пока не в виде клинических испытаний».

Вызываю доктора чатбота


Программа проверки симптомов от Babylon Health выглядит, как чатбот, с которым пользователи общаются через приложение или на веб-сайте. Когда пользователь вводит свои основные симптомы в виде краткого предложения или фразы, программа проверки симптомов задаёт вопросы, связанные с возможным наличием связанных симптомов. В итоге, программа проверки симптомов определяет возможные причины и рекомендует дальнейшие действия – резерв консультации по видео с терапевтом или визит в больницу.



Технология, лежащая в основе программы проверки симптомов, известна, как граф знаний, и работает, как цифровая энциклопедия по медицине, в которой размечена взаимосвязь различных заболеваний, симптомов и условий. Взаимосвязь представлена миллионами опорных точек из сотен медицинских источников, и постоянно обновляется. Программа проверки симптомов также может справляться с записями историй болезни – включая данные, собранные во время работы пользователей с программой – чтобы размечать возможную связь между заболеваниями различных пользователей.

Граф знаний можно подстроить, добавляя данные, помогающие оценить вероятность появления различных заболеваний в определённых популяциях и географических районах.

Babylon Health создаёт «модель медицины, применимой не только в Соединённом Королевстве и США, но глобально», — говорит Саурабх Джохри, старший учёный Babylon Health. Он говорит, что модель должна быть настраиваемой, чтобы «отражать местную специфику заболеваний – так, что если пациент жалуется на рвоту, лихорадку и диарею в Лондоне, то вероятность наличия у него малярии ниже, чем если бы он жил в Руанде».

Многие другие медицинские компании используют популярную в сфере искусственного интеллекта технологию машинного обучения, и такой её вариант, как глубокое обучение, чтобы обучать ПО анализировать данные пациентов для определения симптомов и простановки диагнозов. Просеивая огромные количества сырых медицинских данных, такие системы иногда могут обучать ПО находить такие скрытые закономерности и связи между опорными точками в данных, какие люди и наши медицинские знания иногда упускают. Подход Babylon Health не таков – оценки его ИИ напрямую отражают существующие медицинские знания людей и человеческое понимание взаимосвязей между симптомами и их причинами, не полагаясь на многообещающую, но иногда необъяснимую работу машин.

Пока что Babylon Health использует глубокое обучение для интерпретации сообщений пациентов в чате с чатботом. ИИ также использует глубокое обучение для ускорения требовательного к вычислительным ресурсам поиска данных в графе знаний, где нужно проверять все возможные комбинации симптомов, заболеваний и факторов риска, подходящих для конкретного случая. Но в целом, ИИ от Babylon Health работает в основном за счёт медицинских знаний, накопленных людьми, не доверяя машине работу по построению логических взаимосвязей.



У такого подхода могут быть преимущества. Один из недостатков машинного и глубокого обучения состоит в том, что им требуются огромные объёмы относящихся к делу обучающих данных и вычислительные мощности для обучения закономерностям. В зависимости от страны и системы здравоохранения не всегда легко получить доступ ко всем соответствующим медицинским данным, необходимым для обучения компьютерного ПО. Ещё один недостаток такого подхода – непрозрачность. Технологии машинного обучения часто не дают экспертам-людям понять, как именно ПО связало разные опорные точки в данных.

У подхода Babylon Health с прозрачностью дела получше. Компания использует модели, позволяющие штатным докторам и программистам «заглянуть под капот», говорит Джохри, и понять, как программа проверки симптомов пришла к какому-либо выводу.

Результаты под вопросом


Несмотря на все преимущества, Babylon Health пока ещё не доказала, что является моделью с ответственным поведением. Компания пыталась заткнуть критикам рот при помощи судебных разбирательств, и получила выговор от британских регуляторов за «вводящую в заблуждение» рекламу. В интервью с Wired U.K. и Forbes бывшие сотрудники компании обрисовали ситуацию, в которой корпоративная культура вступает в противоречие с необходимостью тщательного тестирования безопасности и эффективности применения ИИ в здравоохранении. В Forbes писали: «интервью с текущими и бывшими сотрудниками Babylon Health и независимыми докторами показывают широту обеспокоенности тем, что компания поспешила выкатывать ПО, недостаточно тщательно проверенное, а потом преувеличила его эффективность» (компания выражает активный протест этим заявлениям).

Babylon Health также ввязывалась в споры с общественностью, делая заявления, которые некоторые критики впоследствии называли вводящими в заблуждение. 27 июня 2018 года компания попала в поле зрения СМИ, заявив во время прямой трансляции в Королевском врачебном колледже Лондона, что её ИИ способен диагностировать распространённые заболевания не хуже людей-терапевтов. Это заявление основывалось на исследовании компании, в котором работа ИИ сравнивалась с диагнозами, поставленными семью врачами. Также в исследовании программу проверки симптомов проверяли на части вопросов из экзамена, проводящегося для получения сертификата терапевта в Британии, на экзамене для получения членства Королевского колледжа врачей общей практики, а также на исторических записях независимого исследования 2015 года, оценивавшего несколько программ проверки симптомов.

Однако вскоре учёные и медицинские организации начали проявлять беспокойство. Королевский колледж врачей общей практики, Британская ассоциация медиков и Королевский колледж терапевтов выпустили заявления, ставящие под вопрос утверждения Babylon Health, при том, что Королевский колледж терапевтов организовывал презентацию компании и помогал проводить упомянутое исследование. Для начала, в этом исследовании проверяли ИИ только на части вопросов для экзамена, и не проверяли программу на реальных людях в клинических условиях.

У Фрейзера и Вона, исследователей, помогавших Wired U.K. проверять программу проверки симптомов в 2017-м, также возникли вопросы к этому исследованию, поскольку в нём участвовало небольшое количество докторов, и его не рассматривали независимые эксперты. Парочка решила изучить это исследование поближе. В отчёте, опубликованном в журнале The Lancet в 2018 году, они заключили, что исследование Babylon Health не даёт убедительных доказательств того, что их программа проверки симптомов «способна справляться лучше докторов в любой реалистичной ситуации, и, кроме того, есть вероятность, что она справится с ней гораздо хуже».

Эти открытия напрямую влияют на реальных пациентов. «Если программа проверки симптомов советует вам оставаться дома и не ходить к доктору, такое решение имеет свои последствия в случаях, когда необходимая помощь откладывается или так и не оказывается», — говорит Энрико Коэйра, директор Центра медицинской информатики при Университете Макуэйра в Сиднее, Австралия, и автор работы 2018 года, опубликованной в журнале Lancet.

Ещё до появления волны критики, Babylon Health начала предварительные переговоры со Стэнфордским университетом о проведении дополнительного пилотного исследования, говорит Меган Махоуни, стэнфордский клинический исследователь, соавтор работы Babylon Health от 2018 года.

«Судя по всему, у ИИ может быть определённый потенциал», — говорит Махони, поясняя, что «у нас есть реальная ответственность за выход на новый уровень строгости в оценке этого потенциала, поскольку ИИ может оказаться реально полезным для поддержки и дополнения медицинских услуг».

Махоуни описала работу Babylon Health от 2018 года как «прекрасную для внутреннего исследования». Несмотря на её оптимизм, она предупредила, что никогда бы не решилась интегрировать этот ИИ в реальные сервисы здравоохранения или медицинские практики, основываясь исключительно на результатах этого исследования.

Когда журнал Undark задал вопрос о спорах по поводу этой работы, Babylon Health ответила заявлением, где, в частности, утверждалось: «Некоторые СМИ могли неправильно интерпретировать наши заявления, однако мы остаёмся при наших изначальных результатах и научных данных». Также там было указано, что работа 2018 года является «предварительной», и сравнивала ИИ компании с «небольшой выборкой врачей». Также Babylon Health сослалась на заключение исследования: «Потребуются дополнительные исследования с использованием более крупных групп реальных людей, чтобы сравнить эффективность этих систем с врачами-людьми».

Вычисления: лекарство XXI века


Даже Babylon Health признаёт, что предварительное исследование не соответствует золотым стандартам медицинских исследований. Однако это не остановило компанию – или регуляторов – от предоставления пациентам доступа к программе проверки симптомов.

Такой подход сравним с испытаниями нового лекарства на людях без тщательных проверок, говорит Айзек Кохейн, исследователь в области биомедицинской информатики из Гарвардской медицинской школы. И добавляет, что вычисления" можно считать лекарством XXI века – поэтому давайте относиться к ним так же ответственно".

Если Babylon Health действительно организует рандомизированные контрольные тесты, то, по мнению Фрейзера, это много даст для установления доверия к её расширению на американских и азиатских рынках. Компания планирует отправить протокол тестирования в журнал с предварительной экспертной оценкой статей в ближайшие месяцы, говорит Джохри, добавляя: «Мы будем проводить эти тестирования в Британии, а также обсуждаем этот вопрос с партнёрами в Китае и США».

Текущие правила от Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США рекомендуют проявлять снисхождение к программам проверки симптомов на основе ИИ, поскольку связанные с ними риски ниже, чем у других медицинских услуг. Управление «решило освободить от надзора программы проверки симптомов – и подобные им услуги – для поощрения инноваций, — говорит Фрейзер. – Однако у них, кажется, есть возможность при желании регулировать эту область гораздо сильнее».

Пока что некоторые независимые эксперты продолжают беспокоиться по поводу текущего варианта программы проверки симптомов от Babylon Health. В начале сентября независимый консультант британской национальной системы здравоохранения, часто критикующий Babylon Health в твиттере под псевдонимом Dr. Murphy, продемонстрировал наличие возможного полового предубеждения в программе проверки симптомов от Babylon Health.

59-летней курящей женщине, пожаловавшейся на внезапные боли в груди и головокружение, программа проверки симптомов поставила в качестве вероятного диагноза депрессию или паническую атаку. Для такого же пациента, в чьём профиле был указан мужской пол, программа проверки симптомов дополнительно указала возможные серьёзные проблемы с сердцем, порекомендовав посетить больницу или вызвать скорую.

Вместо того, чтобы спорить с этими обвинениями, как это было раньше, для ответа в твиттере Babylon Health выбрала примирительный тон общения. В последовавшем посте в блоге Babylon Health признала наличие в здравоохранении предубеждений, защищая при этом эффективность программы проверки симптомов.

Это не убедило Dr. Murphy в желании компании работать над потенциальными проблемами с её ИИ: «Наиболее опасный из всех врачей тот, кто не видит свои ошибки или не учится на них».

Средняя зарплата в IT

113 000 ₽/мес.
Средняя зарплата по всем IT-специализациям на основании 10 037 анкет, за 2-ое пол. 2020 года Узнать свою зарплату
Реклама
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее

Комментарии 11

    +3

    Когда-то давно я был пользователем windows и даже несколько раз воспользовался их центром разрешения проблем, который по симптомам пытался выдать рекомендации. Каждый раз это заканчивалось фразой: обратитесь к доктору системному администратору.

      +3
      Мда… половое предубеждение… а они в курсе, что мужчина от женщины отличается? Люди разные и абсолютно нормально, что различные полы, расы, возраста, места проживания и тд. Будут иметь разные приоритетные наборы болезней. Так что абсолютно нормально, что диагноз будет сильно зависеть от цвета кожи, пола и тд. Так же будет отличаться и течение болезней.
      Но вообще диагност это нормальная тема… многие люди пытаются гуглить симптомы, но тут хоть будет научная база, а не просто хаос статей, которые были написаны хрен пойми кем. Правда смысла в таком диагнозе немного… казалось бы это помощник для врача терапевта, врач опросит пациента и забьет все данные, чтоб посмотреть наиболее вероятные болезни и назначить доп анализы на исключение/подтверждение. Это будет быстрее и точно ничего не упустят. А вот человек может упустить часть симптомов (далеко не все болезни проявляют полный набор симптомов в каждом человеке) и получить кривой результат, от которого так же может начать лечиться совсем не тем.
        +1
        Все эти боты придуманы для низкоквалифицированных врачей, которые просто забыли/не знают некоторые симптомы/болезни. Например, в сельской неотложке такой бот очень может пригодится. Он позволит врачам НЕ делать лишних действий, которые могут навредить больному.
          +1
          Однако эксперты волнуются, что он работает не совсем так, как обещают в рекламе.

          Какие наивные эксперты нынче пошли — они ожидали выполнение рекламных обещаний.
            +2
            Идея интересная. Я бы с радостью воспользовался такой программой. Хотя бы для контроля врача. Но хотелось бы видеть «развернутые» результаты, отображающие не только самый вероятный диагноз, но и другие варианты с указанием вероятности. Было бы здорово, если бы можно было загружать (и анализировать) свои анализы, снимки и т.п.
            Единственное, как мне кажется, это быстро запретят в «развитых» странах, т.к. это может серьезно сократить заработок врачей…
            0
            Есть множество болезней с однозначными симптомами. Думаю, их давно можно лечить подобным способом. Не ходил в поликлинику уже лет 10.
              0
              Как я понял у них просто огромнейшая экспертная система, которые давно известны и успешно используются лет 50 для диагностики всяких сложных систем (типа самолетов). Чем человек хуже? По сути набор правил «если-то», прекрасно работает безо всякого AI и ML.
                +1

                Нельзя определять болезнь по описанию симптомов. Потому что описание субъективно, книжных сферичесих болезей в вакуме почти не бывает а для редких болезней с характерными симптомами все испортит Байес.

                  +3
                  Babylon в первую очередь — система удаленных видеоконсультаций с терапевтом в любое время суток без необходимости неделями ждать записи. Главные критики системы — GP (терапевты), по двум причинам:

                  1. Британская социалистическая медицина (NHS) — нечто вроде национальной религии; главная страшилка — придут консерваторы и все приватизируют. Допуск частной компании в первичное медицинское обслуживание обыкновенных (не платящих) пациентов — беспрецедентная штука, в которой видят начало приватизации. Любая допущенная частная компания будет жестко критиковаться за любой недостаток, невозбранно присутствующий в государственной системе (см. IBM Watson).

                  2. GP вне больниц с клиниками для срочных пациентов — частные предприниматели, им платят за каждого зарегистрированного пациента. У всех практики, где пациентам разрешено регистрироваться в Babylon (те, кто живет или работает в центре Лондона), сильный отток здоровых активных зарегистрированных пациентов, т.е. туда уходят те, у кого проблем со здоровьем особых нет — они работают. Получается, что эти 160-190 фунтов за пациента, который не требует терапевта, теряются, и за те же деньги остаются старики, больные и матери с детьми; в лучшем случае нагрузка остается, а доход теряется.
                    0

                    В заголовке врачи пока не уверены, по тексту — некие эксперты что-то подозревают.


                    Сплошные ярлыки, за которыми мало что стоит. "Ассоциации практикующих стоматологов", прямо таки.


                    Один вопрос — автор перевода (копирайтер, честно говоря) убил пару часов на что, на этот треш чисто денег ради, или ему типа кажется, что статья заслуживает опубликования и на русском?

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое