Как ИИ пытались бороться против ковида (и почему у них не получилось) / Habr

Когда в марте 2020 года вирус поразил Европу, больницы погрузились в новый для себя кризис, не видя путей для выхода. Мы столкнулись с резкой нехваткой знаний. Врачи не понимали, как вести пациентов, фармкомпании думали, как разработать вакцину, государства — как ограничить распространение ковида нанести минимум вреда экономике.

Но существовали данные из Китая, который уже четыре месяца боролся с пандемией. Если бы алгоритмы машинного обучения можно было обучить на этих данных, возможно, врачи и чиновники смогут принимать более взвешенные решения. И это спасет тысячи жизней.

Тогда действительно появлялась масса проектов, стартапов и статей о них. Вот только за март-апрель на Хабре, самые многообещающие:

Больницы были готовы принять любую помощь. Рук не хватало, им нужна была автоматизация. Были разработаны сотни инструментов, от маленьких до гипер-амбициозных. Но ничего почему-то не произошло. Ни один алгоритм не помог.

На помощь врачам тогда пришли исследовательские группы со всего мира. Например, некоторые из них пытались разработать ПО, которое позволило бы быстрее диагностировать пациентов, и отсекать ложные случаи (вот, например, статья о таком ИИ от Alibaba). Были созданы сотни инструментов прогнозирования и диагностики. Но ни один из них не принес той огромной пользы, на которую надеялись. А большинство в итоге оказались даже вредными.

К такому выводу пришел ряд исследований, опубликованных за последние несколько месяцев. В частности, в июне Институт Тьюринга, главный в Великобритании центр по исследованию ИИ, опубликовал отчет (PDF). В нем подводятся итоги процесса внедрения искусственного интеллекта в борьбу с коронавирусом. Их консенсус: инструменты ИИ, если и оказали какое-либо содействие в борьбе с ковид, то крайне незначительное. Несмотря на то, что в эти стартапы инвестировали несколько десятков миллиардов, которые можно было бы потратить на постройку госпиталей и производство аппаратов ИВЛ.

Не подходит для клинического использования

Выводы Института Тьюринга перекликаются с результатами двух других крупных исследований, в которых оценивались сотни инструментов прогнозирования, разработанных в прошлом году. Ведущим автором в одном из них является Лауре Винантс, эпидемиолог Маастрихтского университета в Нидерландах. В исследовании, опубликованном в British Medical Journal, она говорит:

Я возлагала большие надежды на помощь машинного интеллекта. Я подумала, если и есть время, когда ИИ может показать себя, так это сейчас.

Лауре и ее коллеги изучили 232 алгоритма диагностики пациентов или прогнозирования того, насколько больными могут быть люди. Они обнаружили, что ни один из них не пригоден для клинического использования. Ни нашумевшая система, пытающаяся определить коронавирус по голосу. Ни проект, засекающий ковид на рентгеновских снимках. Всего два алгоритма (из 232!) были выделены как достаточно многообещающие для проведения будущих испытаний.

Это шокирует. Здесь сплошные ошибки. Я опасалась чего-то подобного, но это превзошло все мои страхи.

К похожему выводу пришла еще одна группа исследователей во главе с Дереком Дриггсом, исследователем машинного обучения из Кембриджского университета. Их работа опубликована в жунрале Nature Machine Intelligence. Они исследовали модели deep-learning по обнаружению вируса и предсказания рисков для пациента. Были проверены 415 доступных инструмента, разработанных за последние полтора года. Их выводы: ни один из них не пригоден для клинического использования.

Дриггс говорит:

Эта пандемия стала большим тестом для ИИ и медицины. Насколько мы готовы к реальному использованию этих IT-инструментов? Полагаю, мы не прошли этот тест.

Что пошло не так

Обе команды обнаружили, что исследователи повторяли одни и те же ошибки при обучении или тестировании своих инструментов. Неправильные предположения об изначальных данных часто означали, что обученные модели не работали так, как заявлено.

Винантс и Дриггс по-прежнему считают, что ИИ может помочь. Но они волнуются о том, что системы могут нанести больше вреда. Сейчас все они могут легко пропустить диагноз или недооценить риск для уязвимых пациентов. Особенно если дело касается групп населения, о которых пока собрано меньше данных: нацменьшинств, детей, людей с хроническими заболеваниями.

Нереалистичные ожидания вызывают желание использовать инструменты с ИИ до того, как они будут готовы. И они уже применяются в некоторых госпиталях, в частности в Китае. А другие — продаются частными разработчиками, иногда за сотни тысяч долларов. «Я боюсь, что они могли причинить вред пациентам», — говорит Винантс.

Большинство проблем с инструментами связаны низким качеством данных, которые исследователи использовали для их разработки. Информация о пациентах с коронавирусом, в том числе о медицинских сканах, плохо передавалась в разгар глобальной пандемии: у врачей были дела поважнее. В итоге большинство инструментов были созданы с использованием неправильно маркированных данных или данных из неизвестных источников.

Дриггс говорит, что в свободном доступе были только «данные Франкенштейна», которые собирались вместе из нескольких источников и часто содержали дубликаты. А это означало, что некоторые инструменты в конечном итоге тестировались на тех же данных, на которых они были обучены. И показывали сильно завышенную эффективность (вспоминается Alibaba с её заявлениями о точности ИИ 96%).

Пара забавных случаев

Десятки групп разработчиков использовали набор данных, содержащий сотни тысяч сканов грудной клетки детей, у которых не было ковида, — в качестве примеров того, как выглядят случаи отсутствия короны в людях. В результате их ИИ научились с точностью определять детей, а не вирусов.

Группа Дриггса натренировала модель, используя датасет, содержащий снимки людей, сделанных в положении лежа, и в положении сидя. Казалось бы, какая разница, верно? Но поскольку пациенты, сканированные в положении лежа, с большей вероятностью были серьезно больны, ИИ начал неправильно оценивать риски от коронавируса. Вместо того чтобы анализировать сценарии развития болезни, модель решила предсказывать, будете ли вы лежать или стоять, когда пойдете делать скан легких.

В других случаях было обнаружено, что некоторые ИИ улавливают шрифт текста, который некоторые больницы использовали для маркировки сканированных изображений. В результате сканы из больниц с более серьезной нагрузкой стали предикторами риска заражения коронавирусом. Модели научились прекрасно отличать один шрифт от другого, но ближе к определению ковида это их не привело.

Оглядываясь назад, подобные ошибки кажутся очевидными. Их также можно исправить, изменив модели (если исследователи знают о типе ошибки). Но многие инструменты были разработаны программистами, исследователями ИИ, которым не хватало медицинских знаний для выявления ошибок в данных. Либо медицинскими исследователями, которым не хватало математических навыков, чтобы как-то компенсировать эти недостатки.

Это всё может показаться забавным. Но, согласно Винантсу, тысячи госпиталей в США, Азии и Европе теперь используют эти модели при работе с пациентами. И даже не сообщают, какие именно из них, поскольку подписывают договоры о неразглашении с поставщиками медицинских ИИ. Когда исследователи спрашивали врачей, какие системы стоят у них на местах, те чаще всего отвечали, что им не разрешено говорить. Поэтому, даже если вы эксперт по ИИ, узнать с какой именно ошибкой алгоритма вы столкнетесь в своей больнице — практически невозможно.

Пути решения проблемы

Более точные и структурированные данные могут помочь, но в разгар кризиса сложно требовать чего-то такого. Намного важнее правильно использовать имеющиеся наборы информации. По словам Дриггса, проще было бы, если бы команды ИИ сотрудничали с медиками. А исследователи ИИ — делились своими моделями и рассказывали о том, как они обучались, чтобы другие могли полноценно их протестировать. «Эти две простые вещи решат, возможно, 50% выявленных нами проблем».

Получать данные было бы проще, если бы форматы были стандартизированы. Это — задача на следующий раз, для следующего кризиса, решение которого потребует нечеловеческого интеллекта.

Еще одна проблема, которую выделяют Винантс, Дриггс и другие, состоит в том, что большинство исследователей поспешили разработать свои собственные модели, вместо того, чтобы попробовать улучшить уже существующие. В результате коллективными усилиями разработчиков со всего мира были получены сотни посредственных инструментов — а не десяток должным образом обученных и протестированных сисстем.

Винантс говорит:

Модели настолько похожи — почти все они используют одни и те же методы, одинаковые входные данные. И все совершают одни и те же ошибки. Если бы все эти люди, делающие новые модели, вместо этого занимались тестированием тех, которые уже доступны, возможно, сейчас у нас было бы что-то, что действительно могло бы помочь.

В некотором смысле это старая проблема. У программистов и академических исследователей мало карьерных стимулов, чтобы свободно делиться своей работой или просить кого-то подтвердить существующие результаты. Мы привыкли конкурировать с другими, и нам сложно переключиться в другой режим.

Для решения этой проблемы Всемирная организация здравоохранения рассматривает возможность создать стандарт обмена данными в чрезвычайных ситуациях. Он будет вступать в силу во время международных кризисов. Это позволит исследователям легче передавать данные через границы стран и за пределы собственных компаний.

На саммите G7 в Великобритании в июне ведущие научные группы из участвующих стран также призвали всех «заранее готовить данные», чтобы их можно было быстро брать и анализировать в случае будущих ЧС. Ученые говорят:

Нам нельзя забыть уроки этой пандемии. Это будет неуважительно по отношению к тем, кто на этот раз ушел из жизни из-за наших ошибок.

P. S. Хотите найти достойную работу? Подключайте телеграм-бот getmatch. Задаете свои преференции, и на вас выходят топовые компании. Не нужно ни резюме, ни портфолио. Настройка занимает меньше 30 секунд.