Обновить

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели5.9K
Всего голосов 8: ↑6 и ↓2+5
Комментарии8

Комментарии 8

Архитектура, код, датасет, модель, хоть что-то для реального сравнения есть? Или тупо "мы сделали аналоговнет, но не покажем и не дадим, джентльменам у нас верят наслово"?

Логика возражения понятная, отвечу споконо и по существу, а не

Статья - на конкретную тему по конкретному кейсу, описанному в статье. "Инженерный отчет" и результаты экспериментов, а не полный стек (код, модель, датасеты). Архитектуру и код мы не покажем, потому что это наше ноу-хау и они используются в коммерческих проектах/пилотах.

Мы показываем то, что можно/хотим показать: настройки, список baseline'ов, время и память для каждого метода, графики, визуальные примеры разбиения сцен. Практически максимально прозрачно описали эксперимент. Все сравнения сделаны на одном и том же видео, с одинаковым кластеризатором (DBSCAN/HDBSCAN) и одинаковыми параметрами, мы явно перечисляем все используемые модели (от простых гистограмм до DINOv2/ViT) и даём численные метрики по времени/памяти. Один и тот же пайплайн применен ко всем методам, включая TAPe. Это не научная публикация - мы просто показываем эффект и делимся находками.

В вашем другом комменте про "не пытается показывать применимость к реальным задачам" есть заодно и ответ на этот тезис- про YouTube и купить самолет. Это лишь одна из многих возможных задач.

Пайплайн сам по себе интересный, но статья пляшет не столько вокруг пайплайна, сколько вокруг этого самого "TAPe". Который весь офигенный, но мы никому не покажем.

И это при том, что сейчас в датасатанизме столько новых игрушек и методов, что даже настоящие прорывные технологии, опубликованные с бумагами, кодом и готовыми моделями, могут год на полке лежать прежде чем в них кто-то потенциал увидит. Если у них нет громких имён, за которыми народ следит.

Что уж тут говорить про "у нас прорыв, но мы его никому не покажем".

Но спасибо за ваш коммент – мы сегодня выкатим демо-стенд, где любой желающий может повторить то же самое, что мы делаем конкретно с TAPe-данными в DBSCAN, но с любым видео. Кину ссылку

https://monitor.comexp.net/?scenario=cluster

вот, если любопытно. принимает любое видео (кроме .avi), обрабатывает через DBSCAN с параметрами по умолчанию и отдаёт обратно разбиение.

Проблема мне кажется преувеличенной, I-фреймы нужны для перемотки и их все равно нужно вставлять с какой-то периодичностью.

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

Впрочем, эта статья даже не пытается показывать применимость к реальным задачам. Что уныло.

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

оптимизация I-фреймов, которую здесь представляет эксперимент, заключалась бы в стратегии их расположения во время энкодинга. это позволило бы очень сильно уменьшить кол-во расчётов, необходимых для самого по себе энкодинга, а также позволило бы сжимать видео намного эффективнее – просто потому что поисковая стратегия лучшего их расположения лучше и быстрее

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации