Привет. Меня зовут Олег Карташев, и я руковожу отделом компьютерного зрения в «Северсталь Диджитал». Мы занимаемся проектами для металлургической и добывающей промышленности. В 2024 году мы стали кластером «Искусственного интеллекта» в ИТ «Северстали» и стараемся соответствовать этому названию. Для этого не только применяем устоявшиеся, хорошо зарекомендованные подходы, но и активно пробуем новое.
Если провести сотню собеседований, отсмотреть пару десятков подрядчиков, видно, что многое в CV (Computer Vision) для промышленности продолжает крутиться вокруг хорошо зарекомендовавших себя детекторов: Yolo разных версий, Faster RCNN, Mask RCNN. Мы тоже во многом живём на них: безопасность на производстве контролируется Yolo-детекторами, дефекты поверхности металла в плоском прокате работают на Faster RCNN и Mask RCNN. Это уже бейзлайн, который зачастую и доходит до продуктива.
Но на месте не стоят ни архитектуры нейронок, ни подходы к решению задач.
Если посмотреть на текущие тренды, то можно выделить следующее:
в статьях преобладают архитектуры, основанные на трансформерах;
появляется все больше foundation-моделей;
модели работают в открытом мире и учатся в self-supervised манере;
инструменты для CV используют для автоматизации универсальные модели, например, CLIP, Dinov2, Segment Anything;
развиваются few-shot, single-shot и zero-shot подходы, unsupervised и self-supervised обучение.
О том, для чего мы применяем это, я и расскажу подробнее.
Метрики
В первую очередь хотелось бы улучшать метрики моделей. Что ни говори, можно иметь очень удобные инструменты для команды, но гораздо важнее улучшать пользовательский опыт, снижать нагрузку на диспетчеров, которым приходится отсматривать предикты моделей.
И в этом нам помогают трансформеры. Архитектура трансформеров основана на механизме внимания, чтобы эффективно обрабатывать последовательные данные (изображения в этом случае тоже представляются в виде последовательности).Трансформеры используются уже давно, но всё же применяются они ещё осторожно, особенно когда в игру вступают ограничения вычислительных мощностей. Мы опробовали их на задачах контроля дефектов конвейерных лент, причем учитывался опыт, накопленный разработчиками в определении дефектов автомобилей. Такой вот трансфер подхода из одного популярного домена в металлургию. Не последний в этой статье.
Страхование конвейеров
На первых итерациях применялась модель из семейства FaseterRCNN, имплементации Detectron2. В ходе множественных экспериментов модель показала себя неплохо с точки зрения полноты предсказаний, но данный эффект достигался с ущербом к точности. Это создаёт дополнительную нагрузку на оператора: человеку приходится отсматривать больший объём изображений для контроля. Со временем это может привести к отклонению предиктов «на автомате», и система потеряет свою эффективность. А если цель преобразуется в автоматическую остановку конвейера, требования к точности станут ещё жестче.
Попытки фильтровать предсказания посредством применения различных подходов, в том числе ограничения по физическим размерам, использование цикличности процесса для сопоставления дефектов, не давали результата. Было множество ложных срабатываний на загрязнения, блики, различные шумовые артефакты, схожие с паттерном повреждений.
На этом рисунке ложное срабатывание на корд. Это критичный дефект, по которому необходимо остановить ленту.
А получилось оно из-за такого вот примера с ребристой текстурой дефекта.
Мы решили искать иной архитектурный подход к реализации модели – добавлять attention, чтобы улучшить точность предсказаний, но не потерять полноту. В основу реализации алгоритма взят оригинальный Detection Transformer (DETR).
DETR решает задачу детекции объектов как image-to-set. На вход модель принимает изображение, а на выходе она отдает список из всех объектов на изображении. Каждый объект содержит вероятность принадлежности к определённому классу, боксы, ограничивающие объект. На первом этапе сверточная нейросеть извлекает из изображения признаки. На втором этапе — энкодер-декодер архитектура трансформера генерирует предсказания. Self-attention механизм позволяет модели опираться на отдельные участки изображения при предсказании. Фильтрация и обработка боксов происходят с помощью венгерского алгоритма, модель не требует дополнительных пост-обработок, например, NMS. Это открывает вариации для экспериментов с уже качественными предсказаниями.
В роли претрейна для обучения модели была выбрана реализация, предоставленная авторами оригинальной статьи и выложенная в open source в зоопарке модель HuggingFace.
К сожалению, данные веса не позволили получить результаты в кратчайшие сроки: метрики были заметно хуже, чем мы получали на FasterRCNN.
Вначале казалось, что обучение не сходится, график AP болтался около нуля.
Но мы не теряли надежд.
В итоге, после различных попыток больше чем на 120 часов на 2080 Ti, удалось заставить DETR учиться.
Помог подбор размера батча, learning rate, очень длительный разогрев, отказ от dilated convolutions и претрейн. Ещё помог датасет для претрейна, составленный из изображений конвейерных лент с разных производств «Северстали», который мы использовали для получения своих весов для последующего обучения финальной версии модели.
Отказ от dilated convolutions вместе с auxiliary-loss позволил сэкономить половину видеопамяти и учить в два раза быстрее. А проработав датасет, убрав лишнюю синтетику, отсмотрев ложняки, мы наконец побили свой Faster RCNN Resnet 101, не потеряв в скорости.
Данный подход позволил получить во многих аспектах результаты лучше, чем у FaseterRCNN.
На выходе мы получили менее чувствительную модель, которая не теряла в полноте. В данном проекте процесс цикличный: одни и те же участки ленты мы наблюдаем каждые несколько минут. Поэтому меньшая чувствительность при высокой полноте — достаточно сильный критерий при реализации алгоритма.
Модель справляется с детекцией повреждений и необходимых для поиска артефактов (например, вода). На примерах ниже отображена работа multi-head-attention модели.
Благодаря такому решению, модель не обращает внимание на схожие с повреждениями паттерны, а пытается выбрать именно те, которые принадлежат искомым классам повреждений. Таким образом, мы получаем меньше ложно-положительных результатов, что достаточно позитивно сказывается на пользовательском опыте оператора.
Также мы решили воспользоваться тем, что данная архитектура не требует постобработки, а значит, есть некоторый временной вычислительный запас. Поэтому мы решили имплементировать дополнительный алгоритм фильтрации, помимо предложенного в архитектуре — weighted boxes fusion.
Зачастую детекторы пользуются обычным non-max suppression алгоритмом, что может подавлять и истинные предсказания. Если бы такой механизм применялся в DETR, то мы бы не могли получить предсказание модели, если бы вероятность принадлежности к классу no-Object была бы выше. Таким образом, мы решили не ограничивать выходы модели вероятностью, а ансамблировать все выходы по классам.
Такой подход позволяет сохранять высокую чувствительность, но при этом не снижать полноту предсказаний. На выходе мы получаем уникальные для каждого объекта боксы.
В итоге мы получили алгоритм на основе DETR + weighted-fusion-boxes — более точный, но без потерь на полноту предсказаний.
Хирургическая точность, или медицина в металлургии
Второй пример переноса подхода, более характерный для одного домена, в металлургию — это использование StarDist (GitHub - stardist/stardist: StarDist - Object Detectionwith Star-convex Shapes). Данный алгоритм разрабатывался в целях сегментации или детекции клеток и их ядер на микроскопических снимках.
При условии плотного расположения объектов на изображении, классические подходы к сегментации могут некорректно обрабатывать контуры, что приводит к их объединению (например, если работать с Unet++). Если брать детекторы семейства MaskRCNN, то они сначала работают с боксами, а потом выстраивают маску объекта, что негативно сказывается на итоговых метриках и результатах.
В отличие от других алгоритмов, StarDist работает с двумя типами расстояний: радиальным, где центр — это центр объекта, и классическим полем расстояний, что позволяет отделять объекты друг от друга.
Поле расстояний используется для определения уникального объекта, а радиальное расстояние необходимо для применения NMS, что позволит оставлять только уверенные объекты. Дополнительно при обучении используются два типа масок: одна для классификации, другая — для определения инстансов объекта. Такой подход позволяет получать достаточно точные для выполнения задачи маски объектов и относить их к тому или иному типу.
Разметка может проводиться классическими средствами и по классическим стандартам. Мы применяли COCO с последующей конвертацией в четыре маски: type, instance, dist, stardist. Для стратифицированного деления датасетов использовалось расстояние Вассерштейна, что позволило делить изображения не по инстансам, как делалось бы при классической детекции, а попиксельно, с учётом гистограмм распределений классов пикселей на изображении.
Данная модель обучается с использованием пяти лосс-функций. Их взвешивание и подбор данного гиперпараметра, как вес каждого лосса, достаточно сильно сказывается на результатах обучения. Дополнительно модель позволяет возвращать контуры объектов, но и тут точность выигрывает перед классическими алгоритмами, которыми обычно решают в промышленности подобные задачи. Да и вариативность бэкбонов будоражит. Мы использовали библиотеку Timm для извлечения признаков изображений, но никто не запрещает применять такие модели, как, например, SAM (о нем позже).
Как и любой другой сегментационный алгоритм, здесь требуется добавить некоторую постобработку на выходы модели. Нами использовался алгоритм голосования по большинству, что позволяло сегментировать объекты целиком, без “дырок” в виде вкраплениий пикселей внутри объекта. Сам процесс постобработки отделен от модели, что позволяет использовать numba без каких-либо доработок со стороны разработчика.
Также стоит отметить, что модель удалось успешно конвертировать в более удобные для инференса форматы и применять half-precision без вреда для точности.
Использование этого подхода позволяет получить точную классификацию объектов на изображении и решить разнообразные задачи, будь то детекция, или сегментация, или просто поиск контуров объектов.
Данные
Foundation-модели здесь тоже сильно облегчают некоторые задачи.
Анализ датасетов
Например, мы используем Voxel51 для анализа датасетов. Помимо функционала по отрисовке ground truth и предиктов, у него есть опция кластеризовать данные. Для этого можно использовать CLIP или DINOv2. Мы использовали DINOv2.
Далее, когда у нас есть эмбеддинги и их кластеризация, можно заглянуть в каждый «островок» и подумать, нужны ли нам эти данные, и нужно ли нам расширять этот кластер.
Вот кластер с пересвеченными дефектами.
А вот маленький кластер, в который попадает определённый вид дефекта.
А сюда попали разные вкрапления.
Разметка
Готовую разметку обсудили, но что, если её еще нет? Разметка – это головная боль любого DS в CV. Ну если только вы не эстет и перфекционист, любящий рисовать pixel-perfect многоугольники.
К счастью, появляющиеся foundation-модели позволяют в разы упрощать процесс разметки.
Давайте представим, что у нас есть задача разметить несколько сотен камней на нескольких сотнях изображений, которые выглядят примерно так.
Есть вариант отдать разметку в human-in-the-loop сервис. Задача не выглядит очень сложной, но надо составить ТЗ, проверочные задания, и всё равно отсмотреть получившуюся разметку и повторить итерацию. В целом для такой задачи – рабочий вариант. Второй вариант — попросить помощи у экспертов с производства. Не всегда у производства есть человек с выделенным на это временем. Ну и третий вариант – посадить за разметку DS, он все сделает хорошо, заодно разберётся с корнер-кейсами, воспитает в себе «насмотренность» для данной задачи. DS наливает себе десять кружек кофе, вставляет спички в глаза и начинает размечать не покладая рук. В следующий раз у него заканчивается кофе, новый кофе заказать времени нет, так как бэклог не ждёт, и энтузиазм DS постепенно начинает угасать. DS хочет применять свой разум более рационально.
На помощь приходит уже хорошо зарекомендовавший себя Segment Anything Model. Segment Anything – та самая foundation модель, которая может сегментировать любое изображение в любом стиле, будь то картины художников или кадры с камер над конвейером.
И это дает нам гораздо более мощный инструмент.
Процесс может быть разный, но для разметки примерно следующий:
прогоняем датасет через segment anything, сохраняем контуры в COCO или другой CVAT-совместимый формат;
загружаем датасет в CVAT v2;
уточняем разметку в CVAT, в котором с некоторого времени доступны различные модели, в том числе Segment Anything;
правим получившуюся разметку, добавляя или исключая области, размечаем оставшиеся объекты. При этом необходимости двигать точки контуров не возникнет, Segment Anything очень неплохо добавляет области в текущую маску по точкам (или убирает).
Можно размечать и с нуля, но это подойдет не для всех задач. На практике получается так: если у нас весь кадр занят размечаемыми объектами (например: окатыши, руда), то лучше сначала прогнать датасет и сгенерировать первоначальную разметку.
Если размечаемые объекты на кадре разрежены (например: грузы, люди), то удобнее будет размечать с нуля.
Почему бы не использовать Segment Anything напрямую? Причин использовать — несколько. Первая — её размер и скорость инференса. Все-таки инференс на одну картинку занимает несколько секунд на карте уровня 2080Ti. А для наших задач нужен реалтайм, да и карты часто поменьше, а иногда есть смысл и их сэкономить и делать инференс на CPU (если частота кадров небольшая). Вторая — точность разметки. Всё-таки foundation модель не тюнилась на конкретные задачи, и если мы дополним авторазметку ручной, результат получится сильно лучше. Третья — DS всё равно должен знать, что у него в датасете, какие корнер-кейсы, какие выбросы, что может произойти в будущем. Полная автоматизация процесса может привести к сильному и неприятному разбросу результатов в будущем.
Синтетика
И, наконец, что если у нас нет ни готовой разметки, ни изображений, которые надо разметить?
Проект важный— любой новый разрыв ленты повлечет серьёзные последствия. Но примеров того, как выглядит порыв под нашими камерами, нет.
Оверсемплинг не помогает сети растить обобщающую способность. Copy-paste ведёт к переобучению. К счастью, у нас есть диффузионки и множественные их модификации.
Например, если взять Stable Diffusion и поменять в ней часть, которая отвечает за guidance, и учить только эту часть, тогда мы превратим её в инструмент гармонизации изображений.
На вход подается фон с наивно (читай, copy-paste) вставленным требуемым для нас изображением, а также маска этого изображения.
Более подробно про работу модели можно прочитать в статье.
Общий алгоритм действий следующий:
Выбираем входное изображение и маску дефекта.
Выбираем выходное изображение и генерируем маску для нового дефекта.
Наивно вставляем дефект по маске для нового дефекта.
Проходимся моделью. В случае небольшой видеокарты, можно работать не с целым изображением, а с вырезанным участком 512х512 вокруг нового дефекта, и уже его подавать на вход модели. Следующим шагом наивно встраиваем результат работы модели обратно.
PROFIT.
Примеры работы модели
Верхний ряд — результат работы. Это изображение, куда помещали дефект.
Нижний ряд — изображение, откуда брали дефект, маска дефекта.
Пример 2
Пример 3
Пример 4
Пример 5
Вблизи дефекты получаются неотличимы от реальных (синтетика – посередине).
В целом, синтетика, особенно если её отобрать после генерации, хорошо влияет на общие метрики. Если тестировать только на реальных данных, то видно, что наихудшие метрики при использовании чисто синтетики, при использовании только реальных данных – уже сильно лучше. Но 25% синтетики добавляет еще 7 пунктов к F1.
В качестве резюме хотелось бы сказать, что модные подходы можно и нужно пробовать даже для консервативных предметных областей. Это интересно для DS, позволяет улучшать метрики или собирать данные там, где их нет. Современные подходы экономят время на рутинные операции, позволяет глубже анализировать исходные данные.
Будем рады, если поделитесь своими примерами, как вы применили современные большие нейронки для привычных промышленных задач.