oopatow9 мар в 09:42

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Средний

18 мин

5.9K

Машинное обучение * Визуализация данных * Искусственный интеллект

Аналитика

Комментарии 8

acc0unt 9 мар в 10:35

Архитектура, код, датасет, модель, хоть что-то для реального сравнения есть? Или тупо "мы сделали аналоговнет, но не покажем и не дадим, джентльменам у нас верят наслово"?

oopatow 9 мар в 13:35

Логика возражения понятная, отвечу споконо и по существу, а не

Статья - на конкретную тему по конкретному кейсу, описанному в статье. "Инженерный отчет" и результаты экспериментов, а не полный стек (код, модель, датасеты). Архитектуру и код мы не покажем, потому что это наше ноу-хау и они используются в коммерческих проектах/пилотах.

Мы показываем то, что можно/хотим показать: настройки, список baseline'ов, время и память для каждого метода, графики, визуальные примеры разбиения сцен. Практически максимально прозрачно описали эксперимент. Все сравнения сделаны на одном и том же видео, с одинаковым кластеризатором (DBSCAN/HDBSCAN) и одинаковыми параметрами, мы явно перечисляем все используемые модели (от простых гистограмм до DINOv2/ViT) и даём численные метрики по времени/памяти. Один и тот же пайплайн применен ко всем методам, включая TAPe. Это не научная публикация - мы просто показываем эффект и делимся находками.

В вашем другом комменте про "не пытается показывать применимость к реальным задачам" есть заодно и ответ на этот тезис- про YouTube и купить самолет. Это лишь одна из многих возможных задач.

acc0unt 10 мар в 10:06

Пайплайн сам по себе интересный, но статья пляшет не столько вокруг пайплайна, сколько вокруг этого самого "TAPe". Который весь офигенный, но мы никому не покажем.

И это при том, что сейчас в датасатанизме столько новых игрушек и методов, что даже настоящие прорывные технологии, опубликованные с бумагами, кодом и готовыми моделями, могут год на полке лежать прежде чем в них кто-то потенциал увидит. Если у них нет громких имён, за которыми народ следит.

Что уж тут говорить про "у нас прорыв, но мы его никому не покажем".

oopatow 9 мар в 13:35

Но спасибо за ваш коммент – мы сегодня выкатим демо-стенд, где любой желающий может повторить то же самое, что мы делаем конкретно с TAPe-данными в DBSCAN, но с любым видео. Кину ссылку

oopatow 9 мар в 20:26

https://monitor.comexp.net/?scenario=cluster

вот, если любопытно. принимает любое видео (кроме .avi), обрабатывает через DBSCAN с параметрами по умолчанию и отдаёт обратно разбиение.

digrobot 9 мар в 12:18

Проблема мне кажется преувеличенной, I-фреймы нужны для перемотки и их все равно нужно вставлять с какой-то периодичностью.

acc0unt 9 мар в 12:47

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

Впрочем, эта статья даже не пытается показывать применимость к реальным задачам. Что уныло.

oopatow 9 мар в 20:28

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

оптимизация I-фреймов, которую здесь представляет эксперимент, заключалась бы в стратегии их расположения во время энкодинга. это позволило бы очень сильно уменьшить кол-во расчётов, необходимых для самого по себе энкодинга, а также позволило бы сжимать видео намного эффективнее – просто потому что поисковая стратегия лучшего их расположения лучше и быстрее

Зарегистрируйтесь на Хабре, чтобы оставить комментарий