Как стать автором
Обновить

Автоматизированное 3D-сегментирование зубов: Современные методы, вызовы и перспективы

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров658

1. Обзор проблемы

Трёхмерная стоматологическая визуализация, в особенности конусно-лучевая компьютерная томография (КБКТ), стала ключевым инструментом в современной стоматологии для диагностики и планирования лечения (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). КБКТ обеспечивает получение высококачественной 3D-информации о зубах и окружающих костных структурах при меньшей дозе облучения по сравнению с медицинской КТ (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Это богатство информации позволяет проводить точное ортодонтическое планирование, моделировать ортогнатическую хирургию, планировать установку зубных имплантатов и выявлять патологические процессы (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Автоматизированная обработка 3D-сканов зубов (детекция, сегментация и классификация) имеет огромное значение – она может ускорить клинические процессы, повысить согласованность диагностики и облегчить создание 3D-печатных моделей или CAD/CAM-моделей для протезирования и хирургических навигационных систем. Например, точная сегментация зубов позволяет получить 3D-модели, которые помогают при навигации имплантатов и автотрансплантации зубов, повышая шансы на успех (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Кроме того, автоматизированный анализ может помочь в выявлении ретенированных или отсутствующих зубов и способствовать проведению виртуальных процедур (например, изготовлению кап, коррекции окклюзии), что подчеркивает практическую ценность цифровой стоматологии.

Несмотря на все эти преимущества, сегментация зубов на 3D КБКТ/КТ представляет собой сложную задачу. Зубы занимают относительно небольшой объём скана (низкая доля пикселей/вокселей) и часто имеют низкий контраст по отношению к костной ткани челюсти (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Корни зубов обладают похожей рентгенопоглощающей способностью с альвеолярной костью, что затрудняет их различие лишь по интенсивности (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Распространённые артефакты ухудшают качество изображений: металлические реставрации (пломбы, коронки, имплантаты) создают полосовые артефакты и экстремальные значения интенсивности, что вводит алгоритмы в заблуждение (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images). Движение пациента может приводить к размытию изображений, а различия в протоколах сканирования (например, различное разрешение, поле обзора или настройки экспозиции) создают гетерогенность внешнего вида изображений. Кроме того, анатомические особенности – плотное расположение или перекрытие зубов, перекрывающиеся области между верхней и нижней челюстью, а также необычные положения (ретенированные или наклонные зубы) – приводят к слиянию сегментированных областей или нечетким границам (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Все эти факторы делают полностью автоматическую детекцию и сегментацию зубов в 3D непростой задачей, требующей устойчивых алгоритмов, способных работать в условиях шума, артефактов и анатомической изменчивости.


2. Данные и форматы

Форматы изображений: Клинические КТ-сканы зубов обычно сохраняются в формате DICOM (Digital Imaging and Communications in Medicine), в котором каждый срез содержит метаданные пациента. DICOM является стандартным интерфейсом между устройствами визуализации и системами PACS, однако для задач машинного обучения исследователи часто конвертируют сканы в более удобные для исследований объёмные форматы, такие как NIfTI, MHA или NRRD. NIfTI (Neuroimaging Informatics Technology Initiative) представляет собой формат с одним файлом (или двумя файлами .hdr/.img), который хранит 3D-массив изображения с аффинной ориентацией; его популярность в медицинском ИИ обусловлена простотой. MHA/MHD (MetaImage) и NRRD аналогичным образом инкапсулируют объёмные данные с заголовками, описывающими размер вокселя и его положение. Эти форматы облегчают загрузку всего 3D-объёма для обработки (в отличие от DICOM, где может потребоваться сборка сотен 2D-срезов). Обычно КБКТ-объёмы ресемплируют до изотропного разрешения вокселей и сохраняют в формате NIfTI или NRRD для подачи на вход моделям глубокого обучения ([2206.08778] CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images). Аннотационные данные (сегментации) часто хранятся как объёмные метки в том же формате (каждый воксель помечается как фон или с определённым индексом зуба). Например, публичный датасет CTooth предоставляет КБКТ-объёмы в формате NRRD с метками на уровне вокселей для каждого зуба. В некоторых случаях аннотации могут предоставляться в виде поверхностных моделей (STL-мешей для каждого зуба), которые затем можно преобразовать обратно в объёмные маски.

Аннотации и разметка: Комплексная разметка зубов в 3D обычно включает отдельные метки для каждой коронки и корня зуба, часто с использованием нумерационной системы. Каждому зубу присваивается уникальный идентификатор, соответствующий стандартной стоматологической нотации (например, 11, 12, … или 1, 2, …, 32), что позволяет проводить классификацию зубов по типу/расположению после их детекции. В качестве ground truth сегментации каждый зуб является отдельным экземпляром. Дополнительные метки могут указывать на наличие имплантатов или реставрационных материалов; например, имплантат, заменяющий зуб, может быть обозначен как отдельный класс или как отсутствующий зуб с установленным имплантатом. Некоторые датасеты разделяют разметку коронки и корня, либо помечают реставрационные материалы, однако чаще всего весь зуб размечается как единый объект. Подготовка такой детальной разметки трудоёмка: экспертам приходится вручную очерчивать каждый зуб в 3D, часто с использованием полуавтоматических инструментов (например, пороговой обработки с последующей ручной корректировкой на каждом срезе). Наличие пломб или эндодонтических материалов может приводить к появлению эффектов частичного объёма, что дополнительно усложняет ручную разметку. Из-за высокой трудоёмкости и вопросов конфиденциальности данных открытых датасетов для 3D-сегментации зубов долгое время было мало ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation). До недавнего времени не существовало крупного публичного датасета КТ-сканов зубов, что ограничивало разработку и оценку алгоритмов.

Эта ситуация постепенно улучшается: датасет CTooth, представленный в 2022 году, включает 22 полностью размечённых КБКТ-объёма (а также дополнительные неразмеченные сканы) в виде открытого бенчмарка ([2206.08778] CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images). Он охватывает разнообразные случаи (например, с отсутствующими зубами или с реставрациями), что стимулирует разработку обобщающих решений. Аналогично, в 2023 году вызов ToothFairy/STS Challenge представил датасет для полусупервизорного обучения с небольшим набором размеченных КБКТ-сканов и большим числом неразмеченных сканов для продвижения алгоритмов, способных учиться на ограниченном объёме аннотаций ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation) ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation). Помимо данных, содержащих только зубы, существуют также мультимодальные датасеты, например, коллекция PhysioNet, предоставляющая КБКТ вместе с панорамными рентгеновскими снимками тех же пациентов, что позволяет проводить обучение с использованием данных разных модальностей (Publicly Available Dental Image Datasets for Artificial Intelligence - PMC) (Publicly Available Dental Image Datasets for Artificial Intelligence - PMC). При использовании данных сканов пациентов исследователям необходимо соблюдать юридические и этические нормы: обеспечивать анонимизацию DICOM (удаление имен, идентификаторов и т.д.) и иметь соответствующее согласие или одобрение институционального наблюдательного совета. Многие открытые датасеты распространяются по лицензиям типа CC-BY-NC или аналогичным, ограничивающим коммерческое использование (Publicly Available Dental Image Datasets for Artificial Intelligence - PMC), учитывая чувствительный характер медицинских изображений. В целом, направление движется в сторону увеличения доступности данных, однако при подготовке 3D-датасетов зубов важно аккуратно осуществлять конвертацию форматов и обеспечивать защиту конфиденциальности.


3. Обзор существующих методов

Ранние методы сегментации зубов опирались на классическую обработку изображений и методы, основанные на моделях. Пороговая обработка и алгоритмы на основе расширения областей позволяют приблизительно выделить области с высокой плотностью зубов, однако сталкиваются с проблемами при изменении контраста (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Методы, основанные на поиске краёв, обнаруживают границы, но на КБКТ края зубов могут быть слабыми или фрагментированными из-за артефактов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Наиболее популярным методом до эпохи глубокого обучения был метод уровня (Level Set Method, LSM) – модель деформируемого контура, способная эволюционировать для точного описания поверхностей зубов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Метод уровня естественным образом справляется с топологическими изменениями и успешно применялся для сегментации отдельных зубов путём эволюции начального контура в областях с высокой интенсивностью (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Например, Gan et al. (2015) применили комбинацию глобальных и локальных методов уровня для первичной сегментации челюстной кости, а затем для выделения отдельных зубов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Однако эти традиционные методы обладают ограниченной точностью в сложных случаях (например, при низком контрасте или при соприкосновении зубов) и часто требуют тщательной настройки параметров экспертом (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review).

Методы глубокого обучения в настоящее время доминируют в этой области, обеспечивая значительно более высокую точность и автоматизацию. Свёрточные нейронные сети (CNN) и полностью свёрточные сети (FCN) позволяют обучать модели сегментации непосредственно на данных. Архитектура U-Net, изначально разработанная для 2D, была представлена Ronneberger et al. и вскоре применена для обработки стоматологических изображений (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). U-Net представляет собой сеть типа энкодер-декодер со связями пропуска, которые объединяют низкоуровневые пространственные детали с высокоуровневыми признаками, что позволяет проводить точную классификацию на уровне пикселя (или вокселя) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). При сегментации зубов 2D U-Net используется для обработки ортогональных срезов или панорамных проекций, но расширения 3D U-Net позволяют обрабатывать весь объём целиком, сохраняя 3D-контекст. Çiçek et al. и Milletari et al. (2016) проложили путь 3D-сетям для объёмной сегментации. В частности, V-Net ввёл остаточные связи в 3D FCN и использовал Dice-лосс для прямой оптимизации перекрытия (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). U-Net и V-Net служат надёжными базовыми моделями во многих исследованиях – например, Ezhov et al. (2019) сначала обучили V-Net на слабых разметках для грубого выделения зубных областей, а затем дообучили на точных метках для сегментации отдельных зубов с IoU примерно 0.94 (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Эти классические 3D CNN-архитектуры обычно достигают Dice выше 90% (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), что демонстрирует жизнеспособность полностью автоматической сегментации. Однако у них есть и недостатки: (а) они трактуют задачу как семантическую сегментацию (присвоение каждому вокселю класса, например «зуб» или «фон»), что не всегда позволяет различать отдельные зубы – для разделения экземпляров зубов и их идентификации требуется дополнительная обработка (например, метод связных компонент). (б) Они испытывают трудности с улавливанием дальнодействующих зависимостей – стандартный U-Net может неправильно классифицировать воксели, если удалённые области выглядят схожими, поскольку размер свёрточного поля ограничен (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). (в) Полноценные 3D CNN требуют значительных вычислительных ресурсов и памяти, часто вынуждая снижать разрешение входных данных или разбивать объём на подблоки, что может негативно сказаться на точности для тонких структур. Несмотря на эти проблемы, модификации U-Net остаются широко используемыми и являются основой многих современных систем (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Для повышения производительности также внедряются такие улучшения, как остаточные блоки, плотные соединения и механизмы внимания.

Для решения задачи детекции и instance-сегментации были адаптированы двухэтапные сети обнаружения объектов из компьютерного зрения для 3D-данных в стоматологии. Классическим примером является Mask R-CNN (He et al., 2017), который в 2D выполняет обнаружение объектов (с помощью Region Proposal Network) и сегментацию на уровне пикселей для каждого найденного объекта. Исследователи расширили этот подход на объёмные данные, заменив 2D-операции их 3D-аналогами. В 3D Mask R-CNN базовая CNN (например, 3D ResNet или энкодер на основе 3D U-Net) обрабатывает весь объём и генерирует карты признаков (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). Затем 3D Region Proposal Network (RPN) скользит по этим картам признаков и предлагает кандидатные ограничивающие рамки (ROI), которые, вероятно, содержат зубы (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). RPN использует предопределённые 3D-якоря (anchor boxes) различных размеров и соотношений сторон (отражающие размеры зубов) и применяет 3D Non-Maximum Suppression для удаления повторяющихся предложений (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). Далее для каждого ROI применяется дифференцируемая операция обрезки, называемая RoI Align 3D, которая извлекает карту фиксированного размера из карт признаков базовой сети (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). ROI Align 3D представляет собой расширение 2D ROI Align: по сути, берутся координаты 3D-бокса в пространстве карты признаков, выполняется трилинейная интерполяция внутри этого бокса, и получается тензор формы, например, C×16×16×16 (где C – количество каналов, а пространственные размеры фиксированы). Этот тензор должен содержать обрезанные признаки зуба, нормализованные до единого размера. Далее его обрабатывают две специализированные подсети:
(a) голова для классификации и регрессии ограничивающих рамок – обычно состоящая из полносвязных слоёв (после выравнивания ROI) или небольших свёрточных блоков, которая выдаёт вероятность по классам и уточнённые координаты рамки. В нашем случае классы могут соответствовать идентификационным меткам зубов (например, 32 класса для номеров зубов плюс класс «фон»). Можно использовать один класс «зуб», однако здесь мы стремимся к интегрированной идентификации, поэтому включаем классы для каждого положения зуба. Дополнительно ветка регрессии корректирует координаты ROI для более точного охвата зуба.
(b) голова для масок (mask head) – небольшая 3D FCN, которая предсказывает воксельную маску для зуба в данном ROI. Например, эта голова может состоять из 3-х слоёв свёрток 3×3×3 с активацией ReLU, с последующим увеличением разрешения до размера ROI и выходом через функцию сигмоида для каждого вокселя, определяя, принадлежит ли он зубу. Обычно маска предсказывается с меньшим разрешением (например, 28^3 вокселей) по сравнению с исходным объёмом, а затем масштабируется до оригинального размера. Каждая маска для ROI обрабатывается независимо; при обучении mask head обучается только для истинного класса данного ROI, чтобы избежать путаницы между классами.

Детали обучения: Модель обучается на размеченных объёмах, где каждому зубу присвоены класс и маска. Обучение проводится с минимизацией многозадачной функции потерь:

\mathcal{L} = \mathcal{L}_{RPN\_cls} + \mathcal{L}_{RPN\_bbox} + \mathcal{L}_{cls} + \mathcal{L}_{bbox} + \mathcal{L}_{mask}.

Здесь LRPN_cls – бинарная кросс-энтропия для классификации предложений (зуб против фона), LRPN_bbox – smooth-L1 потеря для регрессии ограничивающих рамок (только для положительных якорей), Lcls – кросс-энтропия для классификации ROI (по меткам зубов), Lbbox – L1 потеря для уточнения координат ROI (для истинного класса), а Lmask – обычно воксельно ориентированная кросс-энтропия с функцией сигмоида или Dice-лосс для предсказанной маски по сравнению с ground truth (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC) (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). Каждому зубу из ground truth назначается соответствующее предложение ROI (с наибольшим IoU) для контроля маски и классификации. Кроме того, применяются стандартные методы, такие как аугментация данных (случайные повороты, масштабирование, добавление шума), чтобы модель была инвариантна к ориентации скана и его качеству. В процессе обучения модель учится генерировать предложения ROI, точно охватывающие зубы, и сегментировать каждый зуб внутри ROI.

Заметные компоненты: Мы внедряем несколько усовершенствований, предложенных в последних исследованиях:

  1. Обучаемая оценка сходства в блоке NMS RPN, как предложено в работе Cui et al. (2019), где используется обучаемая матрица для определения избыточности предложений (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Это помогает в случаях, когда зубы расположены близко друг к другу (например, моляры), и перекрывающиеся предложения могут запутывать процедуру NMS.

  2. Модуль пространственного контекста, который учитывает относительное положение обнаруженных зубов для улучшения классификации (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images) (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images). Например, знание того, что зуб является последним в дуге и не имеет соседнего позади, помогает отнести его к группе зубов мудрости (третьих моляров). На практике после первоначальной детекции можно применять правила анатомии или использовать небольшую графическую модель для коррекции идентификационных меток – наш MVP включает простую корректировку на основе правил: мы гарантируем, что присвоенные метки соответствуют допустимой последовательности зубов, что устраняет случайные ошибки в идентификации.

  3. Бэкбон может быть инициализирован на основе модели, предварительно обученной на медицинских изображениях (transfer learning, например, при сегментации всей головы), что повышает эффективность обучения. Также рассматривается использование механизма внимания в блоке mask head для фокусировки на границах, как это предлагается в некоторых современных работах (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), хотя это имеет второстепенное значение.

Пример реализации: Данный MVP может быть реализован на PyTorch или TensorFlow. Фактически, существует open-source реализация 3D Mask R-CNN – например, работа Duboisset et al. (2023) предоставляет кастомные CUDA-операции для 3D ROI Align и NMS (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). Мы можем построить решение на основе такого кода, адаптировав размеры якорей и число классов под задачу сегментации зубов. Выходная информация нашей системы, при подаче нового КБКТ-скана, будет представлять собой набор бинарных масок (по одной для каждого обнаруженного зуба) и метку классификации для каждой маски (номер зуба). Эти маски можно объединить в единый сегментационный labelmap или преобразовать в отдельные STL-модели для каждого зуба. После обучения вся сеть выдаёт результаты за считанные секунды на один объём (так как основное время тратится на работу базовой CNN, а блоки ROI работают с фиксированным числом предложений). Это удовлетворяет требованиям MVP: модель обнаруживает положение каждого зуба, сегментирует его 3D-форму и проводит идентификацию – всё в одном интегрированном решении.


4. Результаты и метрики

Для оценки методов сегментации и детекции зубов используется ряд метрик производительности. Ключевые метрики включают меры объёмного перекрытия, ошибки на границе поверхностей и показатели детекции/классификации:

  • Коэффициент схожести Dice (DSC), также известный как F1-score в контексте сегментации, измеряет степень совпадения предсказанного объёма зуба (PP) с истинным объёмом (GG). Он определяется как

DSC=2∣P∩G∣∣P∣+∣G∣,DSC = \frac{2|P \cap G|}{|P| + |G|},
  • где ∣⋅∣ обозначает количество вокселей (объём). Значение Dice, равное 1 (или 100%), указывает на полное совпадение, а 0 – на отсутствие совпадения. DSC чувствителен как к ложноположительным, так и к ложноотрицательным ошибкам. Большинство опубликованных моделей глубокого обучения достигают DSC в диапазоне 0.90–0.95 при сегментации зубов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), что означает, что 90–95% вокселей совпадают правильно. Например, в работе Cui et al. сообщается DSC ≈0.924 (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), а независимая модель 3D U-Net от Chen et al. достигла DSC около 0.91 на тестовой выборке – эти высокие значения свидетельствуют о высокой точности сегментации.

  • Intersection over Union (IoU) или индекс Жаккара, определяемый как

IoU = \frac{|P \cap G|}{|P \cup G|},
  • связан с Dice-коэффициентом соотношением

DSC = 2\frac{IoU}{1+IoU}
  • IoU несколько строже; например, DSC в 90% соответствует IoU около 82%. Ezhov et al. (2019) сообщили об усреднённом IoU равном 0.94 в своей доработанной модели V-Net (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), что является отличным результатом и соответствует лучшим достижениями.

  • Precision и Recall (точность и полнота): При рассмотрении задачи детекции зубов (как объектов) рассчитывают точность (precision) по формуле

\text{Precision} = \frac{TP}{TP+FP}

и полноту (recall) по формуле

\text{Recall} = \frac{TP}{TP+FN}
  • где TPTP – число правильно обнаруженных зубов, FPFP – число ложноположительных обнаружений (объектов, ошибочно принятых за зубы), а FNFN – число пропущенных зубов. В instance-сегментации детекция считается успешной (TP), если предсказанный объект имеет достаточное перекрытие с истинным зубом (например, IoU > 0.5). Высокая точность означает малое число ложных срабатываний, а высокая полнота – малое число пропущенных объектов. Многие современные методы сообщают практически идеальные значения точности и полноты при детекции зубов. Например, ToothNet достиг полноты 99.55% (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) – то есть практически каждый зуб был обнаружен – а точность, вероятно, превышает 99%, так как практически не генерируются лишние объекты. Другое исследование с использованием 3D U-Net в многоступенчатой схеме показало точность около 0.98 и полноту около 0.83 (relu) при сегментации, что означает, что модель слегка недосегментировала некоторые зубы (не полностью охватывая их, что снижает полноту). F1-score для детекции вычисляется как гармоническое среднее точности и полноты, что часто используется в задачах обнаружения объектов. Идеально, если оба показателя выше 99% (F1 ≈ 0.99), чтобы ни один зуб не был пропущен и не было ложных срабатываний. Особенно важно достичь высокой полноты в стоматологии, ведь пропущенный зуб может привести к неправильному планированию лечения – поэтому методы нацелены на достижение полноты порядка 0.95–1.00 даже при допуске незначительного числа ложноположительных срабатываний.

  • Average Symmetric Surface Distance (ASSD) – эта метрика оценивает ошибку в определении поверхности. Она вычисляет среднее расстояние от каждой точки предсказанной поверхности зуба до ближайшей точки истинной поверхности и наоборот, а затем усредняет эти значения (отсюда название «симметричная»). Если SPS_P и SGS_G – множества точек поверхности предсказания и ground truth соответственёно, ASSD определяется как:

ASSD(P, G) = \frac{1}{|S_P|+|S_G|}\left(\sum_{x\in S_P}\min_{y\in S_G}d(x,y) + \sum_{y\in S_G}\min_{x\in S_P}d(x,y)\right)

Используя эти метрики, можно сравнивать различные методы. В целом, подходы на основе глубокого обучения значительно превосходят традиционные методы как по объёмному перекрытию, так и по точности определения границ поверхностей. Методы, не основанные на обучении, могут давать Dice на уровне 70–85% (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images), тогда как CNN-методы регулярно превышают 90% (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Среди методов глубокого обучения модели instance-сегментации немного превосходят чистые семантические сегментационные модели по точности выделения отдельных зубов. В одном сравнении 3D U-Net (обрабатывающий все зубы как один класс) достиг примерно 88% Dice, в то время как подход на основе Mask R-CNN – около 92% Dice на тех же данных (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Модель instance-сегментации имеет преимущество почти идеальной детекции и маркировки. Многоступенчатые подходы (от грубого к тонкому) также показывают очень высокое перекрытие – например, двухэтапный V-Net от Ezhov достиг IoU 94% (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Стоит отметить, что многие исследования проводятся на собственных приватных датасетах, поэтому абсолютные значения могут различаться в зависимости от сложности данных. Систематический обзор Tarce et al. (2024), охватывающий 34 исследования, установил, что у большинства моделей DSC выше 90%, а точность идентификации для каждого зуба варьируется от 83% до 99% (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Нижняя граница в 83% может соответствовать случаям, когда модели испытывали трудности с правильной идентификацией нескольких зубов (например, путаница между соседними номерами), тогда как качество сегментации оставалось высоким.

С практической точки зрения такие результаты приближаются к клиническим требованиям. Например, средняя ошибка определения поверхности в 0.2 мм обычно не имеет клинического значения (внутренний разброс ручной сегментации зачастую выше). Высокие значения Dice указывают на то, что большая часть объёма зуба выделена корректно, что достаточно для задач обнаружения кариеса или измерения объёма зуба. Однако необходимо учитывать некоторые сценарии неудач: если модель иногда полностью пропускает зуб (Dice = 0 для данного зуба), это критическая ошибка. Даже 1%-ная ошибка детекции (что может означать пропуск одного зуба в скане) может быть недопустимой в клинической практике, если она не будет обнаружена и исправлена. К счастью, такие методы, как ToothNet, практически устранили случаи пропуска зубов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Другой проблемой является разделение соприкасающихся зубов – иногда сегментация может объединять два смежных зуба в один кластер, снижая полноту детекции. Лучшие методы решают эту проблему с помощью специальных техник разделения экземпляров (как в предлагаемом MVP). Анализ реальных случаев показал, что модели хорошо справляются с обычной анатомией, однако могут возникать сложности в крайних случаях: например, наличие металлического стержня или нескольких имплантатов может создавать сильные артефакты, сбивающие сеть с толку и приводящие к недосегментации в этих областях (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images). Ретенированные зубы мудрости или зубы с выраженной аномальной позицией также могут ввести алгоритмы идентификации в заблуждение, если они нарушают обычный пространственный порядок (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images) (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images). Таким образом, несмотря на высокие совокупные метрики, важно тестировать методы на сложных случаях, чтобы гарантировать их стабильную работу в клинических условиях. На данный момент лучшие подходы демонстрируют результаты, сопоставимые с экспертной сегментацией стандартных случаев, а оставшиеся проблемы связаны с обработкой экстремальных ситуаций (металлические артефакты, необычная анатомия) и обеспечением удобства использования выходных данных без необходимости длительной ручной корректировки.


5. Открытый код и литература

Научное сообщество уже разработало несколько open-source инструментов и датасетов, способствующих развитию данной области. Одним из заметных ресурсов является датасет CTooth (а также расширенная версия CTooth+ с вызова MICCAI 2023 STS Challenge), который является публично доступным и включает бенчмарк для сегментации зубов ([2206.08778] CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images). Авторы также опубликовали код для 3D attention U-Net моделей, протестированных на датасете CTooth ([2206.08778] CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images), что позволяет другим исследователям воспроизводить и развивать их результаты с Dice ~88%. Кроме того, победившие в вызове ToothFairy 2023 Challenge методы описаны в отчёте на arXiv ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation) ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation) – многие из них использовали продвинутые полусупервизорные техники для работы с неразмеченными данными, а их код (часто на базе PyTorch Lightning или MONAI) был предоставлен организаторами вызова.

Существуют также универсальные 3D-сегментационные фреймворки, такие как nnU-Net, который адаптирован для сегментации зубов. Например, инструмент DentalSegmentator, представленный в 2024 году, построен на nnU-Net и выполняет сегментацию нескольких оральных структур (верхняя и нижняя челюсти, зубы, каналы) на КТ/КБКТ-сканах (DentalSegmentator: robust deep learning-based CBCT image segmentation | medRxiv) (DentalSegmentator: robust deep learning-based CBCT image segmentation | medRxiv). Авторы обучили модель на 470 сканах и сообщили о показателе Dice ~94% на внешних тестовых данных, что демонстрирует её устойчивость (DentalSegmentator: robust deep learning-based CBCT image segmentation | medRxiv). Они также опубликовали предварительно обученную модель и плагин для 3D Slicer, что делает её удобным решением для клинических исследований. Однако данный инструмент сегментирует зубы как один объединённый класс (все зубы вместе), а не как отдельные объекты – он нацелен на моделирование всей челюсти, поэтому для анализа каждого зуба необходимо дополнительно разделять объединённые сегменты и маркировать их вручную или с помощью другого алгоритма.

Для instance-сегментации исследователи могут найти код для реализации 3D Mask R-CNN на GitHub. Например, проект 3D-Mask-RCNN от gdavid57 (на GitHub) – реализация на TensorFlow с кастомными 3D NMS и операциями ROI Align (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC). Другой пример – проект на PyTorch от arthur801031 («3D multi-resolution RCNN»), который применял Mask R-CNN для МРТ-данных и может быть адаптирован для КТ. Эти репозитории дают отправную точку для разработчиков, желающих обучить модели на собственных данных зубов. Кроме того, проект Duboisset et al. (2023) для instance-сегментации в микроскопических изображениях (Cellpose3D) содержит код, который можно адаптировать для сегментации зубов, так как он также решает задачу выделения множества экземпляров в объёме (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC).

С академической стороны наблюдается резкий рост публикаций по этой теме за последнее десятилетие. На ведущих конференциях по медицинской визуализации, таких как MICCAI и ISBI, опубликовано множество работ, посвящённых сегментации зубов. Например, модель ToothNet была представлена на CVPR 2019 (одной из ведущих конференций по компьютерному зрению) (ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images), что свидетельствует о широком интересе компьютерного сообщества. Журналы, такие как International Journal of Computer Assisted Radiology and Surgery (IJCARS) и Dentomaxillofacial Radiology, публиковали работы по автоматической сегментации зубов с использованием CNN в период 2018–2020 гг. Более недавно, журналы вроде Applied Sciences (MDPI) опубликовали систематический обзор 2024 года (Tarce et al.) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), а Frontiers in Artificial Intelligence представил статью о 3D Mask R-CNN для эмбриологии с подробным объяснением 3D ROI-процедуры (End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC), что было использовано нами для методологической ясности. На arXiv также можно найти препринты самых современных методов: например, отчёт по STS Challenge (Wang et al., 2024) ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation) и статью nnFormer (Zhou et al., 2021). Для подробного списка литературы можно привести следующие группы работ:

  • Статьи по сегментации с использованием глубокого обучения: CVPR 2019 (Cui et al.), TMI 2022 (Li et al. – «Fully automated 3D tooth identification…»), Machine Vision and Applications 2021 (Lin et al. – метод слияния данных) и различные работы на конференциях SPIE Medical Imaging и ISBI с 2017 по 2020 годы, в которых использовались модификации U-Net.

  • Обзоры и систематические исследования: Помимо обзора Tarce 2024 (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), существует систематический обзор 2022 года в Dent. Materials Journal от Irigoyen et al. и обзор 2023 года по глубокому обучению в стоматологической информатике (Analysis of Deep Learning Techniques for Dental Informatics: A Systematic Literature Review - PMC) (Analysis of Deep Learning Techniques for Dental Informatics: A Systematic Literature Review - PMC).

  • Публикации, описывающие публичные датасеты: статья о датасете CTooth (ICIRA 2022) ([2206.08778] CTooth: A Fully Annotated 3D Dataset and Benchmark for Tooth Volume Segmentation on Cone Beam Computed Tomography Images) и статья по STS Challenge (arXiv 2024) ([2407.13246] STS MICCAI 2023 Challenge: Grand challenge on 2D and 3D semi-supervised tooth segmentation) – эти работы являются ключевыми для описания данных.

  • Коммерческие/клинические инструменты: хотя не всегда публикуются в научных журналах, стоит отметить white papers или документы FDA для продуктов, таких как Diagnocat – платформа ИИ, описывающая возможности сегментации зубов. На сайте Diagnocat указано, что их ИИ способен сегментировать зубы, кости, каналы и т.д., а также генерировать 3D STL-модели для каждого зуба автоматически (CBCT Segmentation Software - 3D CBCT Mandible Analysis | Diagnocat) (CBCT Segmentation Software - 3D CBCT Mandible Analysis | Diagnocat). Это свидетельствует о том, что технология достигла уровня, пригодного для коммерческого применения. Другие компании, такие как Planmeca или Carestream (производители оборудования), также начали интегрировать алгоритмы ИИ для сегментации в своём программном обеспечении для ортодонтического планирования, хотя подробности остаются закрытыми.

В общем, богатство доступного кода и литературы значительно ускоряет развитие данной области. Заинтересованные специалисты могут использовать такие датасеты, как CTooth, применять фреймворки типа nnU-Net или MONAI (в которых уже реализована Swin UNETR) и обращаться к вышеупомянутым статьям для воспроизведения современных результатов без необходимости начинать с нуля.


6. Обсуждение и выводы

Рассмотренные решения для детекции, классификации и сегментации зубов в 3D обладают своими достоинствами и недостатками. Классические методы (пороговая обработка, алгоритмы расширения областей, методы уровня) предоставляют интуитивно понятный контроль и не требуют обучающих данных, но они не справляются в сложных случаях с низким контрастом или при соприкосновении зубов – их правила слишком жёсткие для разнообразия клинических сканов (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). В противоположность им современные подходы глубокого обучения обладают более высокой точностью и степенью автоматизации, обучаясь на примерах преодолевать шум и анатомическую изменчивость. Среди этих методов, сегментация на основе 3D CNN (например, U-Net/V-Net) весьма эффективна для выделения общей структуры зуба, достигая высоких значений Dice в многочисленных исследованиях (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Основной их недостаток заключается в том, что они трактуют все зубы как один класс (если не использовать множественную разметку), что усложняет выделение отдельных экземпляров. Кроме того, такие сети требуют значительных вычислительных ресурсов для обработки полного 3D-объёма, хотя используются техники, такие как обучение на патчах или снижение разрешения, чтобы смягчить эту проблему. Двухэтапные instance-сегментационные сети (варианты Mask R-CNN) добавляют дополнительный уровень сложности: они специально решают задачу разделения экземпляров и могут предсказывать метки зубов, что является большим плюсом для стоматолога, стремящегося к индивидуальной идентификации каждого зуба. Эти модели, как демонстрируют ToothNet и предложенный нами MVP, предоставляют почти полное решение – их недостатки заключаются в более сложном процессе обучения и несколько увеличенном времени инференса. Однако, учитывая типичный объём КБКТ (около 300^3 вокселей), даже сложная модель может работать за 1–2 минуты на GPU, что приемлемо в клинических условиях (а многие решения достигают времени менее 30 секунд).

Одностадийные детекторы могут упростить и ускорить процесс, но проблема заключается в обеспечении такой же точности сегментации тонких стоматологических структур. На данный момент они менее исследованы; возможно, при дальнейшем развитии одностадийные методы (например, 3D YOLO с присоединённой сегментационной ветвью) смогут достичь показателей, сопоставимых с Mask R-CNN, при этом оставаясь более лёгкими. Если это удастся, то такое решение станет большим преимуществом для применения в условиях ограниченных вычислительных ресурсов.

Ещё одним важным направлением являются модели на основе трансформеров: они обещают улучшенное захватывание глобального контекста – трансформер может естественным образом понимать расположение всех 32 зубов и избегать противоречивых предсказаний (например, когда два зуба претендуют на одну и ту же позицию). Однако недостатком трансформеров является необходимость в больших обучающих датасетах для раскрытия их потенциала и высокий вычислительный спрос. В стоматологической визуализации данных традиционно немного, но благодаря вызовам, предоставляющим больше сканов, и техникам предварительного обучения на других медицинских данных (ссылка) или самообучению, этот барьер постепенно снижается. Мы ожидаем, что гибриды трансформеров (например, Swin UNETR, nnFormer) станут более востребованными в ближайшие годы для сегментации зубов, как это уже наблюдается в задачах общей медицинской сегментации.

В перспективе выделяются несколько направлений развития. Одно из них – мультимодальность: сочетание КБКТ с внутриральными оптическими сканами (позволяющими получать высокодетализированные поверхности эмали) или с 2D рентгеновскими снимками (bitewing) может улучшить сегментацию коронок и выявление кариеса. Уже есть исследование, объединившее данные внутриральных сканов для уточнения моделей зубов на КБКТ (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Аналогично, интеграция информации о мягких тканях (например, МРТ или фотографии) может помочь в определённых анализах. Ещё одно направление – адаптация к домену и обобщение: создание моделей, способных стабильно работать с данными, полученными с различных сканеров и по разным протоколам. Работа DentalSegmentator показала, что обучение на разнообразном наборе данных приводит к высокой обобщаемости (DentalSegmentator: robust deep learning-based CBCT image segmentation | medRxiv). Техники нормализации интенсивности, аугментации (симуляция артефактов и т.д.) и состязательного обучения могут снизить зависимость от конкретного источника данных. Полусупервизорное и несупервизорное обучение будут особенно важны, поскольку разметка 3D-данных является дорогостоящей – результаты STS Challenge показывают, что даже при наличии немногих размеченных объёмов творческое использование неразмеченных данных (например, консистентное обучение, псевдомаркировка) может дать высококачественные модели. Это особенно важно для клиник, которые могут дообучить публичную модель на небольшом локальном датасете.

С точки зрения практической реализации в стоматологии можно выделить несколько рекомендаций:

  • Валидация и участие клинициста: Даже лучшая модель должна изначально использоваться с участием пользователя. Программное обеспечение может автоматически сегментировать зубы, а затем позволить стоматологу или технику быстро проверить и внести коррективы. Необходим интуитивно понятный интерфейс (например, плагин для 3D Slicer или интеграция с программным обеспечением для планирования), чтобы ИИ действительно экономил время, а не добавлял сложности.

  • Регуляторное одобрение: Любой инструмент, используемый в клинической практике, должен проходить тщательное тестирование и быть одобрен (например, получение маркировки CE в Европе или одобрение FDA в США). Это требует проверки работы модели на различных популяциях пациентов и гарантии отсутствия систематических ошибок в некоторых случаях. Методы объяснимого ИИ могут быть использованы для выделения областей, в которых модель испытывает неопределённость, чтобы привлекать дополнительное внимание пользователя.

  • Обновление с новыми данными: По мере развития стоматологической визуализации (повышение разрешения сканеров, новые методы снижения артефактов) модели следует периодически переобучать или обновлять. Идеальное решение на базе ИИ должно совершенствоваться со временем, используя корректировки, внесённые клиницистами, – своего рода непрерывное обучение (с осторожностью, чтобы избежать катастрофического забывания).

  • Применение в планировании лечения: После сегментации зубов могут быть автоматизированы дополнительные анализы: обнаружение кариеса или трещин, измерение длины корней, проверка окклюзии и т.д. Таким образом, сегментация зубов является базовым этапом, открывающим дополнительные возможности ИИ. Клиники, применяющие такие технологии, могут перейти к полностью цифровому рабочему процессу, где КБКТ предоставляет виртуальную модель пациента, включающую зубы, кости и, возможно, нервы, готовую для симуляции процедур.

В заключение, область 3D-сегментации зубов на КТ значительно продвинулась вперёд: методы глубокого обучения теперь достигают точности, сопоставимой с ручной сегментацией, выполненной экспертами (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review). Наш всесторонний анализ, учитывающий форматы данных, алгоритмы от U-Net до трансформеров и методы оценки, завершился предложением MVP на базе Mask R-CNN, который объединяет детекцию, сегментацию и идентификацию зубов. Сочетание высоких значений Dice (>90%), низких ошибок поверхностей (<0.3 мм) и почти идеальной детекции, наблюдаемой у современных лучших моделей (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review) (The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review), внушает оптимизм. Остаётся ряд вызовов по созданию универсально устойчивых и удобных для использования моделей, но тенденция ясна: автоматический 3D-анализ зубов становится достижимой реальностью. С продолжающимися исследованиями в области мультимодальных данных, архитектур на основе трансформеров и методов обучения с ограниченным числом аннотаций можно ожидать появления ещё более мощных и универсальных решений. Это, в конечном итоге, принесёт пользу клинической стоматологии, снижая объём ручной работы и позволяя принимать решения на основе точных 3D-данных. Достижения, задокументированные в литературе (см. список ниже), составляют прочную основу для как академических исследований, так и разработки коммерческих продуктов на базе ИИ для стоматологии (CBCT Segmentation Software - 3D CBCT Mandible Analysis | Diagnocat). В ближайшие годы эти инструменты сегментации на базе ИИ, скорее всего, перейдут из исследовательских лабораторий в повседневную практику стоматологических клиник, что станет значительным шагом вперёд в цифровой медицине.


Ссылки:
The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review
The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review
The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review
The Application of Artificial Intelligence for Tooth Segmentation in CBCT Images: A Systematic Review
End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC
End-to-end 3D instance segmentation of synthetic data and embryo microscopy images with a 3D Mask R-CNN - PMC
ToothNet: Automatic Tooth Instance Segmentation and Identification From Cone Beam CT Images
relu
DentalSegmentator: robust deep learning-based CBCT image segmentation | medRxiv
CBCT Segmentation Software - 3D CBCT Mandible Analysis | Diagnocat

Теги:
Хабы:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Публикации

Ближайшие события