Комментарии 5
Зачем Yolov5s?
Например более быстрая Yolov5n даже на изображении 320px показывает очень точные результаты.
В моем случае инференс для детектора лиц на CPU Ryzen 5 занимает 32мс, NMS стремиться к нулю, максимум 16мс на картинках с большим количеством лиц, но все это написано на Delphi и работает через TensorFlow Lite под windows 10.
А вы смотрели в сторону DeepStream? Он умеет делать все что вы описали. Кажется, что с DeepStream можно сэкономить и на разработке и на поддержке
Смотрели, но когда смотрели - нужной версии не выпустили под Jetson'ы, (которая бы работала с TensorRT 8), а понижать версию TensorRT до 7 не хотелось. Плюс там целый вагон абстракций, который нужно разобрать и осознать. Когда я увидел что они сделали инференс TensorRT как плагин для gstreamer, я подумал что пожалуй освоим DeepStream в следующий раз. В текущей обстановке мы вообще Jetson Nano не можем закупить и поэтому этот проект пока на паузе.
А реализация NMS на GPU себя оправдала?
Мы делаем подобный пайплайн, с несколькими этапами обработки. Основной затык оказался в скорости декодинга видео на GPU. Возможно после перехода из RGBA формата в YUV "упремся" в другой bottleneck. Пока NMS на CPU и перекидывание большого количества данных не не являются проблемой.
Оптимизация препроцессинга и постпроцессинга нейросети Yolov5 с помощью CUDA, Thrust и Nvidia Perfomance primitives