Mazepov Jul 9 2023 at 08:59

Семантическая сегментация на основе архитектуры U-Net и определение расстояния между объектами

Medium

7 min

20K

Python * Machine learning * Artificial IntelligenceSmart HouseData Engineering *

Technotext Winner 2023

+28

Comments 12

aspid-crazy Jul 9 2023 at 15:35

С интересом читал о Segment anything model, тогда стало очень интересно, сложно ли ее прикрутить для каких-то практических задач. Я никогда не занимался нейросетями, но для кругозора почитать всегда интересно. Особенно о применении новейших технологий в DIY проектах, которые можно потянуть в одно лицо. Не пробовали использовать саму эту модель, или их публичные датасеты?

IamSVP Jul 10 2023 at 04:44

мало того, что сетка тяжелая (т.е. не может работать REAL TIME - кот уже съест все КОТлеты, пока придет предупреждение), так после сегментации как понять, где тут кот, где тут стена, а где котлеты?

aspid-crazy Jul 10 2023 at 06:44

Вероятно, после выполнения сегментации, используются другие нейросети для опознания конкретного объекта в сегменте. Но качество сегментирования, на приведенной Вами картинке, конечно - мое почтение.

IamSVP Jul 10 2023 at 07:04

вы можете и сами попробовать

Mazepov Jul 10 2023 at 06:49

Да, сетка тяжелая. Время инференса получается больше 200 мсек, что конечно не приемлемо в коммерческих проектах. Были мысли ускорить время инференса с помощью TensorRT (можно в разы ускорить), но опять-таки - это наполовину учебная,исследовательская работа, которую можно допиливать бесконечно долго))

S_A Jul 10 2023 at 14:37

Картинка круть) в принципе для SAM есть FastSAM и MobileSAM вариации.

Задачу с котом конечно они не решат. Тут можно и yolov8-seg приплести бы... А можно и как выше рекомендовали, классификатор контуров какой.

Можно докидывать эвристик ("котлеты в центре", "движется в сцене только кошка" - background subtraction), но понятно, на другой сцене они развалятся.

Лично я бы заряжал конкретно в этой задаче yolov8n-seg, table или/и plate вроде есть в coco (могу ошибаться).

Более абстрактно если подходить... Технически контуры от SAM можно эмбеддить и иметь базу ближайших, считай knn, но в плане инференса это недешево.

Mazepov Jul 10 2023 at 06:43

Спасибо за статью, интересно будет почитать, ранее не видел её! Я не стал брать готовые модели и готовые размеченные датасеты, потому что хотелось прям с нуля всё сделать и описать весь процесс)

S_A Jul 10 2023 at 14:48

Unet тут был правильным выбором, заводится с десятков примеров.

С точки зрении теории это потому что каждый пиксель считай пример. С object detection такой номер не пройдет...

berng Jul 10 2023 at 12:53

Из каких соображений подбирали коэффициент 0.25 между кросс-энтропией и дайс?

Mazepov Jul 10 2023 at 13:30

Исключительно эмпирическим путем экспериментов) Вначале использовал только bce, но позже прочитал, что в сегментации можно немного подмешать DICE к loss для лучшего результата. Результат действительно улучшился и модель стала работать качественнее.

Zhivoi Mar 28 at 11:23

А можно ссылку на архив с исходными картинками (images и masks) и видеофайлом (cat_7.mp4)?

Mazepov May 18 at 14:23

Если ещё актуально, то напишите в лс.