
Болезни и травмы являются вечными спутниками любого живого организма на протяжение всей его истории существования. Будь то десять тысяч, сто лет или сейчас, мы сталкиваемся с ними, пытаемся понять и излечить, а еще лучше избежать. За века исследований наше понимание собственного тела и всех его функций стало намного более обширным, однако уверенно заявить, что мы знаем абсолютно все, нельзя. Понимание того, как работают клетки, в частности клетки крови, является крайне важным для предотвращения и/или успешного лечения множества заболеваний. Ученые из Кембриджского университета (Великобритания) разработали систему искусственного интеллекта, которая способна точнее докторов определять нарушения морфологии клеток крови. Как именно работает система, насколько она точнее человеческого взгляда, и каково ее будущее? Ответы на эти вопросы мы найдем в докладе ученых.
Основа исследования
Гематологическая система относится к числу наиболее сложных физиологических систем и уникальным образом взаимосвязана со всеми остальными. Хотя ее характеристики часто определяются простым «подсчетом крови» по частоте встречаемости классов клеток, она чрезвычайно богата и сильно варьируется как внутри, так и между отдельными людьми. Характеристика морфологических особенностей отдельных клеток крови, наблюдаемых при световой микроскопии, часто имеет решающее значение для лечения гематологических заболеваний. Сложная модуляция морфологии клеток различными биологическими, патологическими и инструментальными факторами требует, чтобы эта задача обязательно выполнялась квалифицированными специалистами. Более того, маркировка клеток по их основному морфологическому типу, например, лимфоцит, является лишь самой грубой формой описания, на которую накладывается более тонкое фракционирование на подтипы в широком спектре нормы или аномальности.
Действительно, задача морфологической характеристики является одновременно открытой и не имеет окончательной истины: могут существовать морфологические паттерны, тонкость которых скрывает большое клиническое значение, а некоторые морфологические классы представляют собой исключительно визуальные фенотипы, определяемые экспертами, без возможности объективного подтверждения. Более того, патологические проявления могут быть крайне необычными или уникальными, что исключает классификацию в какой-либо класс, даже на самом простом уровне описания, и такие аномалии должны быть явно идентифицированы. Сложность обычно усугубляется взаимодействием с нерелевантными биологическими признаками, имеющими вариативное представительство в популяции, и инструментальными вариациями технического происхождения. Другими словами, это задача, которую эксперты-люди могут решить лишь несовершенно, неизбежно демонстрируя значительные различия в зависимости от навыков и опыта, и поэтому обучение моделей машинного обучения (МО) для автоматизации морфологической характеристики является по своей сути сложной задачей.
В недавних работах дискриминативные модели, в частности сверточные нейронные сети, применялись для морфологической оценки клеток крови. Эти подходы использовались для классификации лейкемии, лимфобластов, идентификации генетического подтипа острого миелоидного лейкоза и морфологии хранимых эритроцитов Кроме того, сверточные нейронные сети применялись для дифференциации морфологии клеток костного мозга при обучении на больших наборах данных изображений. Эти исследования продемонстрировали потенциал машинного обучения в морфологической оценке.
Желаемая автоматизированная модель характеристики клеток должна обладать следующими пятью ключевыми свойствами. Во-первых, она должна быть устойчива к изменению предметной области и обобщаться на различные биологические, патологические и инструментальные контексты, а также распределения классов. Во-вторых, модель должна обеспечивать высокую эффективность использования данных, показывая хорошие результаты, несмотря на скудные эталонные метки и ограниченный доступ к полным наборам данных, что часто встречается в клинических приложениях. В-третьих, решения модели должны быть, по возможности, интерпретируемыми, поскольку обоснование решений модели может быть столь же важным, как и сами решения. В-четвертых, модель должна уметь выявлять редкие или ранее не встречавшиеся закономерности признаков, поскольку такие случаи выходят за рамки компетенции модели и должны быть выделены. Это особенно важно в клинических приложениях, но часто упускается из виду при разработке и оценке моделей. Наконец, модель должна уметь количественно оценивать неопределенность, связанную с ее решением, — функция, часто игнорируемая при оценке моделей.
Хотя оптимально работающие дискриминативные модели классификации машинного обучения могут приближаться к человеческой эффективности в классификации клеток по предопределенным классам, они в основном обучаются границе принятия решений на основе экспертных меток. Следовательно, они по своей природе не предназначены для охвата полного распределения данных о внешнем виде клеток. Это ограничение может сделать их менее эффективными в обработке некоторых желаемых свойств, описанных выше, таких как внутренняя устойчивость к изменениям домена, естественное обнаружение аномалий для ранее не встречавшихся типов клеток или высокая эффективность обработки данных, особенно при работе со сложностями и изменчивостью, присущими клиническим гематологическим данным. Эти нерешенные проблемы ограничивают клиническую применимость чисто дискриминативных подходов, которые стремятся лишь воспроизвести экспертную разметку.
По этим причинам учеными был разработан CytoDiffusion — новый подход к моделированию, основанный на генеративной модели, учитывающей диффузию. Вместо простого изучения границы классификации, CytoDiffusion стремится моделировать полное распределение морфологии клеток крови. Захватывая базовое распределение данных в латентном пространстве, генеративные модели предлагают ряд потенциальных преимуществ для решения многогранных задач в клинической практике. К ним относятся: повышение устойчивости к сдвигам распределения, обеспечение возможности обнаружения аномалий (поскольку образцы, выходящие за пределы распределения, плохо представлены), повышение эффективности данных, обеспечение интерпретируемости за счет генерации контрфактических сценариев и потенциальное упрощение включения новых классов или более тонкого подразделения существующих. Классификация затем выполняется на основе этого изученного представления распределения, а не является единственной целью модели.

Изображение №1
CytoDiffusion разработан и применяется для решения реальных клинических задач, опираясь на недавние работы, использующие генеративные модели для задач классификации. Ученые специально выбрали диффузионные модели вместо альтернативных генеративных подходов, основываясь на их превосходной производительности в моделировании сложных визуальных паттернов и недавних исследованиях, демонстрирующих их эффективность в качестве классификаторов. В контексте классификации изображений клеток крови CytoDiffusion вынужден изучать полные морфологические характеристики каждого типа клеток (путем моделирования распределения), а не сосредотачиваться только на дискриминативных признаках вблизи границы принятия решения. На изображении №1 показан предлагаемый подход к моделированию, а вклад данной работы заключается в следующем:
применение моделей скрытой диффузии для классификации изображений клеток крови;
структура оценки, выходящая за рамки точности и других стандартных метрик, включающая устойчивость к сдвигу домена, возможности обнаружения аномалий и производительность в условиях малого объема данных;
новый набор данных изображений клеток крови, включающий артефакты и оценки уверенности разметчика, устраняющий ключевые ограничения существующих наборов данных;
принципиальная структура для оценки уверенности модели и человека на основе устоявшихся методов психометрического моделирования; и
метод генерации интерпретируемых тепловых карт непосредственно из процесса генерации для объяснения решений модели.
В рассматриваемом нами сегодня труде ученые стремились установить стандарт для разработки и оценки моделей классификации изображений клеток крови. Данная работа затрагивает несколько важных аспектов клинического применения, включая устойчивость, интерпретируемость и надежность. Выходя за рамки простой дискриминантной статистики и других традиционных критериев, появляется возможность разработать модели, которые будут не только высокоэффективными, но и заслуживающими доверия и клинически значимыми.
Результаты исследования
Ученые начали с проверки качества изображений, сгенерированных CytoDiffusion, с помощью теста на подлинность. Затем была оценена производительность модели в рамках предметной области на стандартных задачах классификации на нескольких наборах данных. Далее была исследована способность CytoDiffusion количественно оценивать неопределенность путем сравнения ее метакогнитивных возможностей с возможностями экспертов-людей. После этого оценивалась эффективность модели в обнаружении аномалий, что имеет решающее значение для идентификации редких или ранее не встречавшихся типов клеток. Далее проверялась устойчивость модели к изменениям предметной области путем имитации реальной изменчивости условий визуализации. Затем оценивалась эффективность CytoDiffusion в условиях малого объема данных, что является критически важным фактором для медицинских приложений, в которых большие, хорошо аннотированные наборы данных могут быть дефицитными. Наконец, было продемонстрировано объяснимость CytoDiffusion путем генерации контрфактических тепловых карт, предоставляющих интерпретируемые сведения о процессе принятия решений.
Генерация изображений с помощью CytoDiffusion
Клиническое внедрение систем искусственного интеллекта требует не только высокой производительности, но и надежности в обученных представлениях модели. Чтобы продемонстрировать, что CytoDiffusion обучается распределению морфологических признаков, а не артефактным упрощениям, ученые провели тест на достоверность. CytoDiffusion был обучен на наборе данных, включающем 32619 изображений. Для оценки его генеративной производительности было привлечено десять экспертов-гематологов для оценки в общей сложности 2880 изображений (каждый эксперт оценил 288 изображений). Эксперты достигли общей точности 0.523 (95%) в различении реальных и синтетических изображений, с чувствительностью 0.558 и специфичностью 0.489. Результаты сопоставимы со случайным угадыванием, что указывает на то, что синтетические изображения, созданные CytoDiffusion, практически неотличимы от реальных изображений клеток крови даже для опытных специалистов. Кроме того, качество условного синтеза оценивалось путем сравнения классификации типов клеток, данной экспертами для синтетических изображений, с метками, использованными при генерации. Высокий коэффициент совпадения 0.986 не только подтверждает качество генерации, но и показывает, что CytoDiffusion сохраняет морфологические признаки, определяющие класс. Способность генерировать синтетические изображения, неотличимые от реальных, указывает на то, что CytoDiffusion изучил морфологическое распределение внешнего вида клеток крови.
Результаты классификации с помощью CytoDiffusion

Таблица №1
Хотя основное внимание в данной работе уделяется количественной оценке неопределенности, обнаружению аномалий, устойчивости к изменениям предметной области, эффективности в условиях малого объема данных и объяснимости, первым делом были установлены базовые показатели CytoDiffusion на стандартных задачах классификации, чтобы убедиться в надежности его основы. CytoDiffusion оценили на четырех наборах данных: CytoData (набор данных, созданный авторами исследования), Raabin-WBC, PBC и Bodzas. Как показано в таблице №1, CytoDiffusion достигает самых современных результатов на CytoData, PBC и Bodzas, демонстрируя, что данный подход, основанный на диффузии, может соответствовать или превосходить возможности традиционных дискриминативных моделей. На изображении №1 показаны матрицы ошибок классификации для CytoDiffusion на всех четырех наборах данных.
Количественная оценка неопределенности CytoDiffusion и экспертами-людьми
Биологическая сфера характеризуется консти��утивной неопределенностью, не поддающейся полной редукции. В любой задаче важно количественно оценить не только точность, но и неопределенность агента: человека или машины. Метакогнитивные меры такого рода позволяют улучшить прогнозы, стратифицировать сложность случаев и принципиально объединять агентов.
Используемый набор данных уникальным образом включает в себя уверенность экспертов в отношении всех изображений, предоставляя редкую возможность сравнить неопределенность модели с неопределенностью экспертов. Количественная оценка неопределенности осложняется двумя важнейшими аспектами задачи. Во-первых, неопределенность не имеет надежной эталонной основы в реальных условиях. Во-вторых, неопределенность в данном контексте содержит алеаторную составляющую (конститутивная различимость классов) и эпистемическую составляющую (способность агента различать их). Первая определяется областью определения, а вторая — характеристиками агента. В идеальном случае эпистемическая неопределенность равна нулю, а неопределенность агента является полностью алеаторной, определяемой тем, сколько дискриминантного сигнала содержат данные. В таком случае соотношение между неопределенностью и точностью должно приближаться к соотношению идеального психофизического наблюдателя, обнаруживающего зашумленный сигнал, то есть мера неопределенности должна напоминать различимость.

Изображение №2
Это понимание позволяет использовать отработанный концептуальный аппарат оценки психом��трической функции для решения задачи оценки неопределенности агента. Ученые использовали хорошо зарекомендовавшие себя методы байесовского психометрического моделирования для вывода психометрической функции для оценки производительности CytoDiffusion (2a), демонстрируя отличное соответствие с точными апостериорными распределениями ключевых параметров порога и ширины (оси на вставке на 2a). Хотя прямое измерение невозможно, это предполагает, что неопределенность CytoDiffusion определяется преимущественно алеаторной составляющей, и его поведение близко к поведению идеального наблюдателя.
Этот вывод подтверждается оценкой индивидуальной эффективности работы экспертов, сравниваемой с консенсусом экспертов, при этом в качестве меры различимости использовалась уверенность CytoDiffusion. Полученная функция, показанная для эксперта 5 (2b), не только демонстрирует хорошее соответствие, но и описывает взаимосвязь лучше, чем консенсусная уверенность экспертов (2c), что свидетельствует о превосходстве метакогнитивных способностей CytoDiffusion над экспертами в данном случае. Ученые также применили тот же психометрический анализ к модели Vision Transformer (ViT)-B/16 (2d). Хотя психометрическая функция демонстрирует хорошее соответствие, точки данных для ViT-B/16 показывают немонотонное поведение при более высоких значениях уверенности. Это говорит о том, что оценки уверенности дискриминантной модели менее надежны именно тогда, когда высокая степень достоверности была бы наиболее клинически ценной, в отличие от CytoDiffusion, которая поддерживает устойчивую взаимосвязь между уверенностью и точностью. Анализ параметров порогового значения и ширины для каждого эксперта, рассчитанных с помощью CytoDiffusion (2e) или эксперта (2f), показывает, что показатель CytoDiffusion позволяет лучше различать различные способности экспертов, чем они сами.
Обнаружение аномальных типов клеток с помощью CytoDiffusion

Изображение №3
Для каждого набора данных оценивалась эффективность модели в обнаружении клинически важных аномальных типов клеток. Обнаружение бластных клеток имеет решающее значение при скрининге различных гематологических злокачественных новообразований, особенно лейкемии и миелодиспластических синдромов, где высокая чувствительность необходима для минимизации ложноотрицательных результатов, которые могут привести к пропущенным диагнозам. Как показано на 3a, для набора данных Bodzas, где бластные клетки являются аномальным классом, CytoDiffusion достигла как высокой чувствительности (0.905), так и специфичности (0.962). Однако ViT страдала от крайне низкой чувствительности (0.281), что делает ее непригодной для клинического применения.
Для PBC и CytoData, в обоих случаях с эритробластами в качестве аномальных клеток, CytoDiffusion показал более высокую чувствительность по сравнению с ViT и сохранил высокую специфичность. Эти результаты демонстрируют способность исследуемой модели различать нормальные клетки, на которых она обучалась, и аномальные типы клеток, отсутствующие в обучающих данных, а также сохранять высокую чувствительность, необходимую для клинического применения.
Устойчивость CytoDiffusion к сдвигам доменов
Для оценки обобщаемости ученые протестировали модели на наборах данных с различными сдвигами доменов. Модели, обученные на наборе данных Raabin-WBC, были протестированы на наборе данных Test-B (с использованием разных микроскопов и камер) и LISC (с использованием разных микроскопов, камер и методов окрашивания). Модели, обученные на наборе данных CytoData, были протестированы на наборах данных PBC и Bodzas, причем набор данных PBC был создан с использованием другого поколения технологии CellaVision (DM9600 для CytoData и DM96 для PBC). Набор данных Bodzas содержит еще один сдвиг доменов, поскольку окрашивание проводилось вручную, а не с использованием автоматизированных процедур окрашивания. CytoDiffusion достигает самых высоких показателей точности на всех четырех наборах данных. Эти стабильные преимущества в производительности при различных степенях сдвига доменов демонстрируют устойчивость CytoDiffusion к вариациям наборов данных, что говорит о хороших возможностях обобщения для реальных клинических применений.
CytoDiffusion и ограниченные объемы данных
Для оценки производительности в условиях ограниченного объема данных были проведены эксперименты на четырех ранее описанных наборах данных цитологии. Для каждого набора данных ученые проводили обучение с использованием ограниченных подмножеств из 10, 20 и 50 изображений на класс, имитируя условия дефицита данных. На 3b показано, что CytoDiffusion неизменно превосходит дискриминативные модели EfficientNetV2-M и ViT-B/16 на всех четырех наборах данных. Преимущество особенно заметно в условиях наибольшего дефицита данных, где традиционные дискриминативные подходы испытывают трудности с эффективным обобщением.
CytoDiffusion и контрфактические тепловые карты

Изображение №4
Контрфактические тепловые карты выделяют области изображения, которые необходимо изменить, чтобы классифицировать их как клетки другого типа. На 4a использовался эозинофил в качестве примера, а модели должны были рассмотреть, какие изменения необходимы для классификации этой клетки как нейтрофила, создав тепловую карту (Hneutrophil), которая выделяет области, в которых имеются большие ошибки в латентном пространстве между двумя классами. Наложение этой тепловой карты на исходное изображение показывает, что модель в первую очередь фокусируется на различении зернистости между нейтрофилами и эозинофилами, при этом области с большим отклонением цвета от фона указывают на наиболее критические области различий.
Для всестороннего анализа возможностей CytoDiffusion для всех типов клеток на 4b показаны сгенерированные контрфактические тепловые карты для каждого возможного перехода между классами в наборе данных PBC. Эта визуализация позволяет понять процесс принятия решений моделью для каждого типа клеток. Например, при рассмотрении перехода от нейтрофила к эозинофилу (строка 2, столбец 7) модель выделяет области в цитоплазме (более темные области), куда следует добавить признаки, в основном сохраняя форму ядра.
В частности, тепловые карты также демонстрируют понимание моделью тонких различий между сходными типами клеток. При переходе от моноцита к незрелому гранулоциту (4b; строка 4, столбец 6) модель показывает разницу в цитоплазме: более ацидофильная цитоплазма незрелых гранулоцитов отличается от серовато-голубой цитоплазмы моноцитов. Интересно, что модель также указывает на заполнение моноцитарных вакуолей (которые отображаются в виде темных пятен на тепловой карте). Это отражает один из типичных морфологических признаков моноцитов, отличающих их от других нормальных клеток крови, и демонстрирует способность модели фокусироваться на нюансах информации. Эти визуализации также служат инструментом валидации, позволяя выявлять потенциальные искажения модели, показывая, фокусируется ли модель на клинически нерелевантных областях во время классификации. Такая прозрачность в процессе принятия решений делает модель более надежной для клинического применения, поскольку врачи могут убедиться, что классификации основаны на достоверных морфологических признаках, а не на артефактах или ложных корреляциях.
Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.
Эпилог
В рассмотренном нами сегодня труде ученые создали и протестировали новую систему на базе машинного обучения, которая способна оценивать, сравнивать и классифицировать морфологию клеток крови. Степень точности данной системы превосходит не только другие подобные системы, но и людей-экспертов.
Разработанная система, названная CytoDiffusion, использует генеративный ИИ, как и, например, DALL-E. Однако, в отличие от него, CytoDiffusion действительно полезна. Классические ИИ системы в медицине обучены классифицировать изображения по предопределенным категориям. CytoDiffusion действует немного иначе, фокусируясь не только на очевидных закономерностях, но и на тонких вариациях внешнего вида клетки под микроскопом.
Выявление небольших различий в размере, форме и структуре клеток крови имеет решающее значение для диагностики многих заболеваний крови. Однако освоение этого навыка может потребовать многолетнего опыта, и даже высококвалифицированные врачи могут расходиться во мнениях при рассмотрении сложных случаев. Стандартный мазок крови может содержать тысячи отдельных клеток, гораздо больше, чем человек может реально изучить по одной. CytoDiffusion позволяет автоматизировать этот процесс, сортировать случаи нормы и выделять любые необычные признаки для дальнейшего анализа человеком.
Для создания CytoDiffusion исследователи обучили его на более чем полумиллионе изображений мазков крови, собранных в больнице Адденбрук в Кембридже. Этот набор данных, названный крупнейшим в своем роде, включает в себя распространенные типы клеток крови, редкие примеры и особенности, которые часто сбивают с толку автоматизированные системы. Вместо того чтобы просто научиться разделять клетки на фиксированные категории, CytoDiffusion моделирует весь спектр того, как могут выглядеть клетки крови. Это делает его более устойчивым к различиям между больницами, микроскопами и методами окрашивания, а также улучшает его способность обнаруживать редкие или аномальные клетки. В ходе тестирования CytoDiffusion выявила аномальные клетки, связанные с лейкемией, с гораздо большей чувствительностью, чем существующие системы. Она также показала результаты на уровне или даже лучше, чем ведущие современные модели, даже при обучении на гораздо меньшем количестве примеров, и смогла количественно оценить степень уверенности в собственных прогнозах.
Стоит отметить, что авторы данной разработки, несмотря на ее успешность в ходе тестов, утверждают, что она не предназначена для замены классифицированных специалистов. CytoDiffusion должна стать дополнительным инструментом, который поможет врачам точнее и эффективнее анализировать данные пациентов, что позволит быстрее диагностировать любые отклонения и предпринять соответствующие меры.
CytoDiffusion является примером того, что генеративный ИИ в правильных руках и при правильном использовании может стать действительно полезным инструментом, способным спасать жизни людей. Мания ИИ, которую демонстрируют все больше и больше компаний по всему миру, как правило, не имеет ничего общего с ИИ, который используется в научных исследованиях. Основное отличие, как уже понятно по вышеизложенному, заключается в том, что у научного ИИ есть польза.
