Как стать автором
Обновить
0

Алгоритмы ИИ и автоматизация клинического кодирования на примере

Время на прочтение15 мин
Количество просмотров1.3K
Автор оригинала: Growing Data
Клиническое кодирование — это административный процесс, при котором данные, полученные при диагностике, переводят (на сегодняшний день, вручную при помощи справочников и руководств) в соответствующие кодовые обозначения. К числу источников клинических данных относят:

  • Данные при поступлении.
  • Данные при выписке.
  • Патологические исследования.
  • Радиологические исследования.
  • Рецепты.

Ошибка в кодировании – вещь частая и несет за собой неприятные последствия (от переработок персонала и сокращения финансирования больницы до потери контроля над эпидемией), подробнее об этом – ниже.

Графически процесс кодирования можно представить на Рис. 1.



Рис. 1 – Процесс клинического кодирования

ICD-10 – единый стандарт кодирования, применяемый во многих странах мира. Аббревиатура ICD-10 расшифровывается как «10-я редакция Международной Классификации Заболеваний и прочих проблем со здоровьем», составлена она сотрудниками Всемирной организации здравоохранения. Документ содержит кодовые представления различных заболеваний, их симптомов и признаков, отклонений от нормы, а также жалоб, социальных обстоятельств и внешних причин возникновения травм и различных заболеваний.

Как правило, каждый код состоит из 7 символов: 1-3 символа используют для обозначения категории заболевания, 4-6-й символы определяют локализацию и степень тяжести, 7-й символ является дополняющим. В некоторых странах структура кодовых обозначений может изменяться. В ближайшем будущем ожидается переход к новому стандарту ICD-11 с более громоздкими кодовыми обозначениями заболеваний. Документ будет содержать свыше 55 000 кодов с добавлением обозначений некоторых новых клинических случаев и психических заболеваний. Понимание новых кодовых представлений и классификаций является крайне важным для стран, отдельных территорий и здравоохранительных организаций для дальнейшего развития отрасли и привлечения адекватного финансирования.

Две важных области применения клинического кодирования:

  1. Биллинг (органы местного самоуправления и государственное правительство, здравоохранение и страхование).
  2. Репортинг (эпидемиологические исследования, политика государства, эпидемиологический надзор).


Клинические кодировщики проводят тщательную проверку всех медицинских записей на предмет оказания медицинской помощи, чтобы определить следующее:

  • Основной диагноз.
  • Вторичное лечение (если проводилось).
  • Выявленные прочие заболевания.
  • Возникшие осложнения.

Все перечисленное выше отображено в соответствующих кодах по стандарту ICD-10.

Проблематика клинического кодирования


Ручное выполнение процесса кодирования связано с различными трудностями, и в целом вызывает немало хлопот у работников учреждений:

  • Дополнительный труд, требующий определенных знаний: медицинская и анатомическая терминология, стандарты медико-санитарных данных и условные классификации, информационные системы отрасли здравоохранения.
  • Практический опыт, полученный на протяжении не менее 4 лет работы.
  • Продуктивность. Хотя на протяжении 8-часового рабочего дня в среднем кодируют около 24 простых случаев, иногда регистрация одного отдельно взятого случая занимает до нескольких недель.
  • Точность, которая в среднем составляет 70-75%. В Таблице 1 приведены статистические данные о конкурсе по клиническому кодированию, проводимому Американской ассоциацией управления медицинской информацией (AHIMA). Здесь наглядно показано, насколько непростым является этот процесс даже для опытных кодировщиков.
  • Соотношение скорости и точности кодирования. Эти два параметра являются взаимосвязанными: чем выше скорость, тем ниже качество и наоборот.
  • Нехватка персонала. Лишь около 52% клинических кодировщиков работают на постоянной основе. Многие учреждения применяют оффшоринг для снижения числа нерассмотренных случаев.




Таблица 1: II Национальный конкурс по клиническому кодированию ICD-10

Последствия ошибок клинического кодирования


Ошибки в классификации и клиническом кодировании очень распространены. Они затрагивают многие аспекты работы медицинских учреждений, включая оплату стоимости предоставленной медицинской помощи. Рассмотрим пример с аппендэктомией (удаление аппендикса), наиболее частым вариантом неотложной хирургии. Неполное или неверное кодовое представление операции существенно влияет на финансирование.

Пример: пациент поступил с диагнозом «острый аппендицит». В послеоперационный период развилась раневая инфекция. Пациенту назначили антибиотики внутривенно.




Таблица 2. Влияние ошибки кодирования случая острого гнойного аппендицита на финансирование.

Пример показывает, что ошибка клинического кодирования может привести к переработкам и сокращению финансирования. Еще одно серьезное последствие некорректного клинического кодирования – утрата контроля над развитием эпидемий.

Насколько целесообразно использовать алгоритмы ИИ для клинического кодирования?


Если ИИ способен водить машину подобно человеку, сможет ли он справиться с клиническим кодированием?

За последние несколько лет удалось достичь значимых успехов в применении ИИ в различных сферах деятельности. Небольшой экскурс в предмет:

ИИ – обширная область знаний о компьютерах, способных имитировать человеческие возможности. Он позволяет машинам использовать данные для обучения, исключая необходимость в жестком кодировании для выполнения конкретных задач. ИИ позволяет компьютерам обучаться, используя собственный опыт. Компьютеры способны обрабатывать большие объемы данных и замечать более глубокие связи, в конечном итоге обеспечивая более высокий уровень точности, в сравнении с человеком. Все это является основой для получения более точных результатов, являющихся базой для принятия более взвешенных решений.


Несмотря на многие сложности, с которыми ИИ сталкивается в сфере здравоохранения, он может играть ключевую роль для клинического кодирования, предоставив некоторые неоспоримые преимущества:

  • Снижение финансовых затрат.
  • Лучшая согласованность действий.
  • Устранение проблемы нехватки персонала.
  • Реализация предварительного клинического кодирования.
  • Ускорение процесса, что в свою очередь приведет к более быстрому финансированию.
  • Повышение точности и масштабов проводимых аудитов.

Проблема сложности медицинских данных


Многие здравоохранительные учреждения и организации не используют концептуальный подход для систематизации и управления качеством данных, особенно в долгосрочной перспективе. Ценность медицинских записей и основанных на них данных со временем растет. Даже введение электронных медицинских карт (EMR) не упростило обработку данных в режиме реального времени в должной мере, потому что функционал используемого ПО сильно ограничен.

Вот основные проблемы с обработкой медицинских данных:

  • Разные уровни качества электронных медицинских карт.
  • Недостаточная совместимость, а также сложность клинических систем.
  • Сложность процесса сбора, поиска и анализа данных.
  • Необходимость обработки неполных или отсутствующих данных.
  • Охват и выборка данных.
  • Нормативные требования и бюрократические процессы.

А теперь изучим

Кейс больницы Махарадж-Накхон в Чианг-Май


Это учебная больница при Чиангмайском университете, расположенном в районе Муанг Чианг-Май провинции Чианг-Май. Это первая тайская больница за пределами Бангкока, открыли ее в 1941 году. В этой довольно крупной больнице 1 400 коек, 69 мест в отделении интенсивной терапии и 92 дополнительных койки, а также 28 операционных. За год насчитывается свыше 45 000 стационарных случаев, включая более 1 000 операций на открытом сердце и свыше 40 операций по пересадке почек. В поликлиниках больницы регистрирую свыше 1,3 млн пациентов.

Сложность данных


Мы используем клинические данные, взятые из репозиториев больницы Чианг-Мая, зарегистрированные в период с 2006 по 2019 год. Таблица 3 содержит некоторые статистические данные, демонстрирующие сложность обрабатываемой информации.



Таблица 3. Статистика набора данных больницы Махарадж Накхон Чианг-Май

В этой статье мы не будем углубляться в конкретные детали, и обратим внимание только наиболее значимые моменты:

  • В 42,5% случаях оказания медицинской помощи использован уникальный набор кодов (всего несколько случаев по идентичной записи)
  • Случаи стационарного лечения являются значительно более сложными
  • Довольно сложные случаи амбулаторного наблюдения (истории болезней отсутствуют)
  • Сложные наборы кодов (100 и более) используются в более чем 70% случаев, как указано на Рис. 2.




Рис. 2. Частота встречаемости 30 наиболее распространенных кодов ICD-10 в наборе стационарных данных

Рис. 2 демонстрирует так называемую проблему «длинного хвоста» в 30 наиболее часто встречающихся ICD-10 кодах. Как видно, преимущественное большинство кодов встречаются довольно редко. Эта особенность усложняет машинное обучение, поскольку вероятность моделирования менее частых случаев является более низкой.

Способы обработки источников данных


У каждого источника данных следующие особенности: формат, тип, уровень сложности. Из-за этого сложно предварительно обработать данные, и возникает проблема в формировании значимых прогнозирующих сигналов. Далее станет ясно, что этапы обработки данных и моделирования сопряжены с комплексом не менее сложных задач, требующих решения.



Таблица 4 – характеристики источников данных и сложности их обработки

Предварительная обработка данных была проведена в отношении различных источников. Например, для обработки использовали неструктурированные текстовые данные (радиологические отчеты или прочие), полуструктурированные лабораторные данные (различных форматов, включая текст, числовые смешанные данные), структурированные рецепты и табличные данные о приемах пациентов.

Задачи автоматизации


Из-за сложности обработки данных, как было показано выше, автоматизация процесса клинического кодирования сталкивается с рядом различных проблем:
  • Огромное количество уникальных классификаторов (свыше 12000).
  • Отсутствие эталона или «золотого» стандарта.
  • Недостаток общедоступных наборов данных.
  • Несбалансированные данные (множество редких случаев).
  • Сложности поиска способов объединения данных из нескольких различных источников.


Целесообразность применения алгоритмов глубокого обучения (ИИ)


Deep Learning является одним из наиболее оправданных подходов для автоматизации процессов клинического кодирования.

Снова небольшой экскурс: глубокое обучение — это семейство методов машинного обучения, основанных на нейронных сетях, с высокими репрезентативные возможностями обучения. Это набор алгоритмов, имитирующих работу человеческого мозга, а именно: как он пропускает запросы через различные иерархии понятий и связанных вопросов, чтобы найти решение проблемы. Глубокое обучение уже успешно используют в различных сферах: обработка изображений и компьютерное зрение, обработка естественного языка (NLP), машинный перевод, система автопилот, системы обнаружения мошенничества и прочих.

Целесообразность использования алгоритмов машинного обучения обусловлена следующим:

  • Сложность и нелинейность проблематики клинического кодирования.
  • Способность изучать сложные скрытые функции в автоматическом режиме.
  • Обработка огромных объемов данных и извлечение ценных знаний.
  • Наличие обучающей инфраструктуры (оборудование или облачный сервис).


Архитектуры моделирования


В этом разделе рассмотрены некоторые архитектуры, используемые для проектирования прогностических моделей кодирования ICD-10. В первую очередь, сформулируем проблему классификации по нескольким меткам для прогнозирования кодов ICD-10. Для прогнозирования вероятностей каждого ICD-10-кода используем архитектуры нейронной сети прямой связи. Далее будет установлено соответствие спрогнозированных кодов ICD-10 с наиболее вероятными значениями.

Интуитивная архитектура моделирования заключается в сборе всех имеющихся данных из различных источников и обучении единственной сети. Это позволит отразить взаимодействия между различными типами данных и их взаимосвязь с окончательным диагнозом. Такая архитектура моделирования носит название комбинированной модели, которая будет использована в разделе с результатами.

Рис. 3 демонстрирует графическую структуру комбинированной модели. Так как используется сразу несколько источников данных, эта архитектура не может считаться лучшей. Поскольку источники данных различаются по свое сложности, это приводит к построению излишне сложной сети с тонкой настройкой гиперпараметров через множество итераций, а также экспериментированию с различным числом слоев и функций потерь. Таким образом, модальность данных не будет изучена достаточно хорошо.



Рис. 3. Структура комбинированной модели

Вторая архитектура содержит несколько сетей, обучающихся взаимодействию с отдельными источниками данных, как показано на Рис. 4. Затем полученные прогнозные данные каждой сети агрегируются с использованием методов усреднения или средневзвешенного значения. Это обуславливает отсутствие доминирования репрезентативных или более мелких представлений данных из разных источников в пространстве признаков в процессе обучения. Однако, это негативно влияет на принятие верных решений поскольку непосредственный выбор одного источника на основе позднего слияния знаний после получения заключения от каждого источника данных оказывается менее информативным.



Рис. 4. Структура модели усреднения

Поэтому переходим к архитектуре ансамблевого моделирования, продемонстрированной на Рис. 5. Структура модели должна быть такой, чтобы она позволяла достоверно определять различные модальности данных с их разными уровнями сложности, а также досконально изучить установленные между ними взаимосвязи. Наша сеть, созданная поверх индивидуально обученных моделей, носит название «ансамблевая» или «экспертная». Она имитирует работу клинических кодировщиков, использует все виды клинических данных, принимает решения в отношении постановки окончательного диагноза.

Фактически, сеть будет получать экспертные знания от уже обученных сетей, что является более эффективным, чем изучение отдельно взятых источников. Ансамблевая сеть будет перенимать опыт каждого специалиста (патолога, радиолога, фармацевта и других) на протяжении множества итераций, получая необходимые знания для постановки диагноза. Кроме того, она обладает способностью формулировать новые диагнозы, получая прогнозные данные от отдельных сетей, а не просто учитывать предсказание с наибольшим весовым коэффициентом на основе какого-либо одного источника.



Рис. 5. Структура ансамблевой модели

Предварительные результаты


В этом разделе представлены меры, используемые для количественной оценки точности описанных выше моделей, а также результаты экспериментов.

Меры оценки


В отличие от бинарной и мультиклассовой классификаций, оценка эффективности классификации по нескольким критериям зависит о того, какие из этих критериев являются корректными. Чтобы проверить, как будет вести себя модель в различных ситуациях, используют разные подходы к проверке результатов для выявления ошибок, вызванных в том числе недостаточным или избыточным кодированием. С учетом вышесказанного, используют следующие меры оценки:

  • Средняя точность – средневзвешенная точность для каждого порогового значения, полученная путем суммирования значений на кривой возврата точности.
  • Ошибка покрытия – значение, характеризующее длительность рангового оценивания, достаточной для покрытия всех меток.
  • Потери ранжирования – среднее число некорректно упорядоченных меток с учетом y_score, взвешенного по размеру набора меток и количеству меток, которые отсутствуют в наборе.
  • Коэффициент F1 – средневзвешенная точность и корректность определения всех положительных образцов.
  • Жаккардово сходство – мера измерения сходства между двумя наборами выборок, рассчитываемое как частное от деления пересечения и размера объединения наборов выборок.
  • Точность – мера первичной диагностики, определяемая как соотношение номера корректного результата к номеру выборки.


Результаты


Таблица 5 демонстрирует постепенное улучшение эффективности работы модели по всем ключевым оценочным показателям. Количественно это выражается в 4-5% улучшении для набора данных стационарного лечения и 2-3% улучшении при обработке данных амбулаторного лечения. Разные источники вносят различный вклад в точность работы модели. Например, данные, взятые из выписываемых рецептов, являются наиболее информативными. Для каждого источника используется модель определенной сложности, при этом требуется различное количество времени и итераций для точного изучения. Глубокие сети способны находить оптимальный минимум в одних модальностях данных быстрее, чем другие. Поэтому, для повышения точности, используют метод обучения каждой модальности по отдельности, чтобы кодировать уровни изменчивости сложности данных в полной мере.

С другой стороны, представленная модель способна достигать точности уровня человека в первичной диагностике, особенно при работе с данными из стационара. Это имеет важное значение для различных вариантов применений клинического кодирования, например, для выставления счетов, основанных в первую очередь на корректности постановки диагноза.



Таблица 5. Точность автоматизированного кодирования

В таблице 6 представлены 5 основных заболеваний, отсортированных по степени точности. Точность для первых трех категорий данных о стационарном лечении составляет свыше 90%. Касательно случаев, связанных с выявлением новообразований у пациентов (около 30% данных), была получена весьма обнадеживающая точность около 80%. Несмотря на более низкие показатели производительности модели для амбулаторных данных, точность все же превысила 60% (около 65% в среднем), что само по себе является большим шагом вперед.



Таблица 6. Точность работы модели для 5 наиболее часто встречаемых случаев диагностики высокого уровня

Самосознание производительности модели


Построение и оценка эффективности моделей машинного обучения осуществляются в процессе их обучения/оценки. Для оценки используют данные, отобранные случайным образом. Однако, оценка точности текущих прогнозов в режиме реального времени весьма затруднена. Для решения проблемы вводят критерий, оценивающий то, насколько модель «уверена» в собственном прогнозе. Например, будет полезно знать, что точность модели является надлежащей для простых случаев оказания медицинской помощи и недостаточной для сложных медицинских случаев. Это могло бы послужить сигналом для перепроверки конкретного случая человеком вручную.

Мы предлагаем модель оценки достоверности в сочетании с моделью прогнозирования ICD-10 кодов. На Рис. 6 представлена сеть оценки достоверности. Мы проводим процесс обучения на обнаружение несоответствий между прогнозируемыми и фактическими кодами с учетом всех входных данных. Так, модель способна оценивать достоверность прогноза с учетом исходных данных, степень сложности отдельно взятого случая и вероятность получения «хороших» и «плохих» прогнозов.



Рис. 6. Структура модели оценки степени достоверности

Таблица 7 содержит результаты тестирования сети оценки достоверности для различных данных из набора. Так, каждый прогноз содержит оценку его достоверности. Например, достоверность прогноза свыше 97% наблюдается в 3% случаев, 85% — в 50% случаев. Оценка достоверности позволяет автоматизировать процесс привлечения сторонней помощи, когда она требуется. Представленная модель характеризуется самосознанием, легко запускается и оценивается пользователями в режиме реального времени.



Таблица 7. Достоверность оценки различных наборов данных

Ключевые особенности:

  • Ансамблевое моделирование в сочетании с экспертной сетью для выбора наилучшего прогноза, превосходит прочие методы моделирования.
  • Поскольку данные, взятые из выписываемых рецептов, поступают в конце цикла диагностических мероприятий, они имеют наиболее информативный характер.
  • Наличие паталогических и радиологических источников данных дают 4% прирост точности в постановке диагноза.
  • Демографические данные о пациентах (исключающие заболевания по возрастным и половым признакам), а также сведения о сезонности заболеваний увеличивают точность диагностики до 1%.
  • Система для обработки данных о стационарных случаях с характеристиками, сопоставимыми с человеческими способностями, уже создана
  • Сейчас ведется работа над увеличением точности работы модели, использующей амбулаторные данные.
  • Точность прогнозов превышает 80% для 50% случаев (если имеются основания для сомнений, выполняют ручную проверку).
  • Поскольку модель не использует данные примечаний при выписке, процесс прогнозирования клинических кодов осуществляется по всем ключевым моментам (от поступления до выписки).
  • В дальнейшем планируется использование данных из примечаний при выписке, что позволит повысить точность работы модели.


Узкоспециализированные программы, которые будут разработаны в будущем


Полученный результат может стать основой для создания ряда приложений, способствующих дальнейшему развитию сферы здравоохранения. На данный момент существует множество программ для автоматизации клинического кодирования: аналитика в режиме реального времени, прогнозирование затрат, логистика и планирование персонала, прочие. Мы предлагаем узкоспециализированные программные решения для прогнозирования клинического кодирования:

Система поддержки принятия решений
К числу приложений, специализирующихся на автоматизации процесса клинического кодирования, относят системы поддержки принятия решений на основе прогнозных моделей, обладающие следующими возможностями:

  • Программные инструменты для работы клинических кодировщиков.
  • Рекомендации по подбору кода для каждого случая оказания медицинской помощи с учетом доверительной вероятности прогнозирования.
  • Клинический кодировщик может брать на себя роль QA-тестировщика машинно-сгенерированных кодов.
  • Клинический кодировщик может переобучать модель и способствовать накоплению ею знаний.
  • Отслеживание и прогнозирование затрат, а также тенденций и развития эпидемиологии в режиме реального времени.


Автоматизированный аудит


Клинический аудит обеспечивает проверку правильности кодирования и его соответствия установленным критериям. Результаты аудита используют для анализа работы учреждений здравоохранения, составления отчетов, разработки стратегий повышения ее эффективности. Разработке точных и качественных стратегий аудита уделяют особе внимание как на местном, так и международном уровнях. Однако, на данный момент этот процесс выполняется преимущественно вручную, с чем связано большое число распространенных ошибок. Автоматизация кодирования может быть эффективной в данной сфере, предоставляя помощь в:

  • Проведении плановых и периодических аудитов.
  • Повышении точности и производительности.
  • Выявлении подозрительных закономерностей и тенденций.
  • Более точном понимании процесса кодирования и компетенции кодировщиков.
  • Выявлении недостатков областей, требующих накопления новых знаний.


Заключение


Эта статья проливает свет на особенности клинического кодирования в области здравоохранения и показывает эффективность применения автоматизации этого процесса. Среди ряда представленных архитектур, ансамблевая модель глубокого обучения подходит для этой задачи наилучшим образом. Она способна успешно применять данные из различных источников, имеет хорошие перспективы для дальнейшего развития и повышения точности за счет добавления новых наборов данных для анализа. Она использует, обрабатывает и моделирует данные различных категорий, включая неструктурированные, полуструктурированные и структурированные табличные данные. Поскольку область клинического кодирования очень чувствительна к погрешностям, дополнительно используется система автоматической оценки достоверности прогнозов в режиме реального времени.

Мы провели количественную оценку моделей, используя базу данных больницы Махараджа Накхон (Чианг-Мая), продемонстрировав их огромный потенциал в реальной практике клинического кодирования. Модели проходили процесс обучения без знания итоговых результатов, что является еще одним преимуществом. Следовательно, они способны выполнять последовательное и непрерывное прогнозирование ICD-10 кодов на основе новых источников клинических данных до выписки пациентов. Эта особенность обеспечивает возможность информирования о текущей диагностической картине в режиме реального времени. Эти модели способны обучаться на лету по мере поступления новых медицинских записей.

Дальнейшие перспективы


Мы находимся лишь на начальных этапах развития систем автоматизации клинического кодирования и открываем новые горизонты по внедрению этой услуги огромному числу учреждений сферы здравоохранения. Мы способны обеспечить помощь в построении систем поддержки принятия решений и продемонстрировать их преимущества, а также интегрировать решения в современные процессы и системы.
Теги:
Хабы:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Публикации

Информация

Сайт
boodet.online
Дата регистрации
Численность
11–30 человек
Местоположение
Россия