Комментарии 4
Как долго вы размечали данные и какой был объем?
Сроки и объём разметки сильно зависят от задачи и модели.
Для простых кейсов мы укладывались примерно в 1–2 недели, для более сложных и нестандартных сценариев — до 1–2 месяцев.
Объём данных тоже варьировался: от нескольких тысяч размеченных объектов до десятков тысяч, в зависимости от требуемой точности и разнообразия сцен.
В ряде задач мы использовали готовые датасеты и библиотеки (например, COCO), а затем доразмечали и адаптировали данные под конкретные условия и домен.
Что вижу из своей практики.
Декодировать весь поток на CPU и потом отправлять его весь на инференс большая нагрузка.
(1) Декодируйте H264 на GPU. либо только IFRAME на CPU при помощи того же pyav, при наличии движения в кадре можете начинать Декодировать B кадры на промежуток времени и делать полный инференс.
Таким образом во многих сценах уменьшите нагрузку на CPU/GPU в разы.

Как мы построили систему видеоаналитики на open source и довели её до продакшена