KatrinDynev Jun 24 2022 at 16:50

Создание модели предсказания кода МКБ-10 на основе текста описания болезни

15 min

4.8K

Python*Data Mining*

Comments 22

KatrinDynev Jun 24 2022 at 17:09

https://drive.google.com/drive/folders/1vKPo6d-ZBMPhy6k1deikmn07K_86FR6a?usp=sharing

Данные здесь

KivApple Jun 24 2022 at 17:09

Надо сделать предсказатель МКБ F00-F99 по аватарке из соцсетей. Мне кажется, прогресс дошёл до этого как раз.

KatrinDynev Jun 24 2022 at 17:14

Была бы разметка...))

Sirse Jun 27 2022 at 09:58

Скорее DSM-IV

XNadoricheva Jun 24 2022 at 20:55

Понятно, что фича интересная, но насколько это востребовано? Не превышает ли риск ошибки (неверного определения кода) потенциальную пользу, ведь для практикующего врача едва ли проблема с простановкой кода.

KatrinDynev Jun 24 2022 at 23:17

Инсайт в том, что модель строится хорошая на таких плохих данных. Связано с тем, что медицинский язык наполнен терминами (не совсем естественный язык). А термины передают точную семантику)

Были бы хорошие данные и достаточные, реальные анамнезы, в идеале .. получилась бы рекомендательная система)

edo1h Jun 25 2022 at 01:18

Связано с тем, что медицинский язык наполнен терминами

нет.
связано с тем, что врач перед тем как начать собирать анамнез много лет изучал диагностику и дифференциальную диагностику, и задаваемые вопросы зависят от предполагаемого диагноза.

в идеале… получилась бы рекомендательная система)

которой нужен грамотный врач для сбора анамнеза

KatrinDynev Jun 25 2022 at 09:26

Любая база данных больницы, у них такое есть, и по запросу выгружают)) займусь этим в следующем году

KatrinDynev Jun 25 2022 at 10:09

Ещё раз, тексты взяты из Википедии, и совсем не напоминают содержание стандартного анамнеза. Например могут гласить о том кто открыл эту бактерию и в каком году…

osmanpasha Jun 27 2022 at 06:54

Но ведь это сводит к нулю всю практическую ценность работы, разве нет?

KatrinDynev Jun 27 2022 at 10:45

благодаря работе мы знаем, что в медицине модели, даже простые, строятся хорошо (причём на плохих данных) в связи с особенностями «медицинского» ( а не естественного) языка.

Теперь важно получить реальные тексты анамнезов с разметкой, от какого либо Мед. Учреждения. !!НО!! В реальной жизни в клиниках используется не больше 5 кодов МКБ! Так как только по ним проходит финансирование, и врачи технически и фактически проставляют неверные мкб.

Так что да, практическое применение такое исследование ещё не получило

sinefag Jun 24 2022 at 21:47

Если лечиться по справочнику, то рискуешь умереть от опечатки (с)

и с МКБ-11 вас ждут новые сложности.

KatrinDynev Jun 24 2022 at 23:22

Но)

В мире огромное множество известных болезней, и информации по каждой из них, по этому нормально предполагать, что в природе не нашлось бы врача, который бы знал абсолютно все. Точнее это невозможно. Это одна из концепций , типа врачей компьютер заменит в будущем ( мб).

Я, лично, компьютеру бы лечение не доверила (ровно как мы его не всегда доверяем врачу, обращаемся ещё к одному и прочее). Но если врач бы пользовался плодами ИИ и их мнения совпадали- меня бы такое устраивало в большей степени)

edo1h Jun 25 2022 at 01:11

удление слов длиной меньше 3 сиволов

то есть «спина болит» равнозначно «спина не болит»

KatrinDynev Jun 25 2022 at 09:31

Это работает иначе просто) мы не можем допустить, чтобы не влиял на решение модели.

Сам по себе по отдельности он не несёт информации. Здесь использованы классические методы векторизация. Можно попробовать встраивание, которое способно сохранять семантику… на таких данных запариваться не хотелось)

vitaly_zyr Jun 25 2022 at 09:05

Забавно с точки зрения datascience и может пригодиться только студентам-медикам при сдаче экзаменов. Ваш алгоритм оценивает корпус текстов, который уже кодифицирован специалистами, которые в свою очередь сводили жалобы пациентов к медицинской терминологии. Качество кодификации зависит от квалификации специалиста, который эту кодификацию производит. А эффективность алгоритма будет пропорциональна качеству кодификации. При этом востребованность алгоритма будет обратно пропорциональна квалификации специалиста :)

Вот если бы был корпус текстов жалоб, которые артикулируют пациенты, вот это было бы интересно.

KatrinDynev Jun 25 2022 at 09:28

Вот именно, что тут использованы в большей мере свободные тексты, а не анамнезы, написанные медиками)

maximloginov Jun 25 2022 at 09:28

На самом деле интересная тема, мне кажется подход может быть использован для обучения студентов-медиков и создания тестов для контроля их знаний МКБ. Кстати, вы случайно не встречали базу МКБ для python?