Исследователи из Стэнфорда создали Merlin — мультимодальную ИИ-модель, которая анализирует трехмерные КТ-снимки брюшной полости, ставит диагнозы и прогнозирует хронические заболевания за годы до их проявления. Модель обучена на более чем 15 000 КТ-снимках, 1,8 млн диагностических кодах и 6 млн токенов радиологических отчетов.

Существующие медицинские ИИ-модели работают в основном с двумерными изображениями — рентгеновскими снимками и отдельными срезами. Merlin — визуально-языковая модель (VLM), которая обрабатывает объемные 3D-данные целиком, сопоставляя их с текстами отчетов и электронными медицинскими картами. Ее оценивали на 752 задачах шести типов: от классификации находок "с нуля" до сегментации 20 органов и генерации радиологических отчетов. Внешнюю валидацию провели на 44 098 снимках из трех независимых клиник и двух публичных датасетов.

Результаты: средняя точность диагнозов по сотням кодов — более 81%, а для 102 кодов превышает 90%. Но главная находка — прогностическая: Merlin предсказывает развитие шести хронических заболеваний в пятилетнем окне с точностью 75%, обнаруживая в снимках паттерны, невидимые глазу радиологов. При этом модель успешно справляется и со снимками грудной клетки, на которых не обучалась, — на уровне специализированных моделей для этой области.

У Merlin есть слабые стороны: при генерации радиологических отчетов модель склонна занижать количество находок, а 3D-сегментация органов остается для нее сложной задачей. Авторы планируют доработать модель для более сложных клинических задач и подать заявку на использование в реальной практике.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.