Привет. Меня зовут Олег, и я руковожу отделом компьютерного зрения в «Северсталь Диджитал». Мы занимаемся проектами для металлургической и добывающей промышленности. В 2024 году мы стали кластером «Искусственного интеллекта» в ИТ «Северстали» и стараемся соответствовать этому названию. Для этого не только применяем устоявшиеся, хорошо зарекомендованные подходы, но и активно пробуем новое.
Если провести сотню собеседований, отсмотреть пару десятков подрядчиков, видно, что многое в CV (Computer Vision) для промышленности продолжает крутиться вокруг хорошо зарекомендовавших себя детекторов: Yolo разных версий, Faster RCNN, Mask RCNN. Мы тоже во многом живём на них: безопасность на производстве контролируется Yolo-детекторами, дефекты поверхности металла в плоском прокате работают на Faster RCNN и Mask RCNN. Это уже бейзлайн, который зачастую и доходит до продуктива.
Но на месте не стоят ни архитектуры нейронок, ни подходы к решению задач.
Если посмотреть на текущие тренды, то можно выделить следующее:
● в статьях преобладают архитектуры, основанные на трансформерах;
● появляется все больше foundation-моделей;
● модели работают в открытом мире и учатся в self-supervised манере;
● инструменты для CV используют для автоматизации универсальные модели, например, CLIP, Dinov2, Segment Anything;
● развиваются few-shot, single-shot и zero-shot подходы, unsupervised и self-supervised обучение.
О том, для чего мы применяем это, я и расскажу подробнее.