Comments 10
С интересом читал о Segment anything model, тогда стало очень интересно, сложно ли ее прикрутить для каких-то практических задач. Я никогда не занимался нейросетями, но для кругозора почитать всегда интересно. Особенно о применении новейших технологий в DIY проектах, которые можно потянуть в одно лицо. Не пробовали использовать саму эту модель, или их публичные датасеты?
мало того, что сетка тяжелая (т.е. не может работать REAL TIME - кот уже съест все КОТлеты, пока придет предупреждение), так после сегментации как понять, где тут кот, где тут стена, а где котлеты?
Вероятно, после выполнения сегментации, используются другие нейросети для опознания конкретного объекта в сегменте. Но качество сегментирования, на приведенной Вами картинке, конечно - мое почтение.
вы можете и сами попробовать
Да, сетка тяжелая. Время инференса получается больше 200 мсек, что конечно не приемлемо в коммерческих проектах. Были мысли ускорить время инференса с помощью TensorRT (можно в разы ускорить), но опять-таки - это наполовину учебная,исследовательская работа, которую можно допиливать бесконечно долго))
Картинка круть) в принципе для SAM есть FastSAM и MobileSAM вариации.
Задачу с котом конечно они не решат. Тут можно и yolov8-seg приплести бы... А можно и как выше рекомендовали, классификатор контуров какой.
Можно докидывать эвристик ("котлеты в центре", "движется в сцене только кошка" - background subtraction), но понятно, на другой сцене они развалятся.
Лично я бы заряжал конкретно в этой задаче yolov8n-seg, table или/и plate вроде есть в coco (могу ошибаться).
Более абстрактно если подходить... Технически контуры от SAM можно эмбеддить и иметь базу ближайших, считай knn, но в плане инференса это недешево.
Спасибо за статью, интересно будет почитать, ранее не видел её! Я не стал брать готовые модели и готовые размеченные датасеты, потому что хотелось прям с нуля всё сделать и описать весь процесс)
Из каких соображений подбирали коэффициент 0.25 между кросс-энтропией и дайс?
Семантическая сегментация на основе архитектуры U-Net и определение расстояния между объектами