Работая с местным госпиталем, специалисты Массачусетского технологического института создали вычислительную модель, направленную на автоматическое определение онкологического заболевания путем изучения тысяч данных из предыдущих отчетов о патологии.
![image](https://habrastorage.org/r/w780q1/getpro/geektimes/post_images/466/d9a/b2a/466d9ab2a149b267ad84cc3ac3434b19.jpg)
Исследователи сфокусировались на трех типах лимфомы, самого распространенного вида онкологического заболевания, имеющего 50 различных подтипов, сложных для определения. По данным одного из соавторов исследования, от 5% до 15% случаев лимфому не ставят или неправильно классифицируют, что ставит под угрозу правильность выбранного лечения.
Извлечение медицинских данных из электронных записей требует автоматизированного подхода и борьбы с ограничениями масштабируемости. Система должна работать с любым количеством данных, быть понятной для врача — в идеале без дополнительного обучения, то есть выдавать результат на естественном языке. Метод SANTF (subgraph augmented non-negative tensor factorization) включает в себя создание объёмной таблицы, в которую вносятся данные из сотен медицинских записей для поиска синтаксических/семантических зависимостей, часто встречающихся слов и понятий, соответствующих результатам анализов, чтобы связать записи с конкретным подтипом лимфомы.
Конечная цель проекта — получить возможность обрабатывать с помощью компьютерной модели миллионы случаев, чтобы автоматически определять шанс наличия заболевания у пациента.
![image](https://habrastorage.org/getpro/geektimes/post_images/097/60b/a5e/09760ba5e6a252d2789cdb73b7951a77.gif)
![image](https://habrastorage.org/getpro/geektimes/post_images/466/d9a/b2a/466d9ab2a149b267ad84cc3ac3434b19.jpg)
Исследователи сфокусировались на трех типах лимфомы, самого распространенного вида онкологического заболевания, имеющего 50 различных подтипов, сложных для определения. По данным одного из соавторов исследования, от 5% до 15% случаев лимфому не ставят или неправильно классифицируют, что ставит под угрозу правильность выбранного лечения.
Извлечение медицинских данных из электронных записей требует автоматизированного подхода и борьбы с ограничениями масштабируемости. Система должна работать с любым количеством данных, быть понятной для врача — в идеале без дополнительного обучения, то есть выдавать результат на естественном языке. Метод SANTF (subgraph augmented non-negative tensor factorization) включает в себя создание объёмной таблицы, в которую вносятся данные из сотен медицинских записей для поиска синтаксических/семантических зависимостей, часто встречающихся слов и понятий, соответствующих результатам анализов, чтобы связать записи с конкретным подтипом лимфомы.
Конечная цель проекта — получить возможность обрабатывать с помощью компьютерной модели миллионы случаев, чтобы автоматически определять шанс наличия заболевания у пациента.
![image](https://habrastorage.org/getpro/geektimes/post_images/097/60b/a5e/09760ba5e6a252d2789cdb73b7951a77.gif)