Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео / Хабр

Мы открыли и разрабатываем новый способ обработки информации - TAPe (Theory of Active Perception, Теория активного восприятия). Работаем над ней давно, результаты мягко говоря впечатляющие, постепенно начинаем ими делиться. Немного писали о Теории на Хабре здесь. Исторически мы начали именно с обработки видео (когда-нибудь об этом расскажем).

В этой статье покажем результаты сравнения разных методов обработки видео (гистограммы, Фурье, структурной похожести, ML-модели) и TAPe в задаче сегментации видео. TAPe в области компьютерного зрения - это Майк Тайсон и/или Майкл Джордан среди любителей (хорошо, еще не Майк Тайсон, но уже вполне себе Рокки Бальбоа). На фоне методов Теории даже супер прокаченные модели на стероидах растерянно сидят в углу ринга. (Ладно, пока что это все влажные мечты, мы даже еще не вышли толком на ринг; но, как мы помним, главное – это величие замысла).

План такой: сначала ~~вобьем в крышку гроба всей ML-индустрии~~ расскажем и покажем результаты TAPe. Затем - о результатах тестирования "стандартных математических" методов, потом покажем результаты десятка ML-моделей. Отдельную главу посвятим DINOv2. Будет много наглядных графиков и видео.

Краткий ликбез про I-фреймы и проблему автоматического деления видео на сцены

Одной из главных целей существования видеокодеков и причина их вариации заключается в экономии места - "сосредоточение" труда в их разработке всегда была компрессия данных, чтобы передача видео занимала как можно меньше памяти, при этом не снижая качества самого исходного видео.

Довольно прорывной фишкой в этом деле является концепция кадров типа IDR (Instantaneous Decoder Refresh), также называемых I-кадрами или I-фреймами. В этом году ей исполняется уже 23 года – для инноваций в области технологий, пожалуй, звучит удивительно. Со времен далекого 2003 года принцип работы I-кадров почти не изменился: для передачи видео необязательно передавать совершенно каждый кадр. В зависимости от того, насколько видео динамичное, можно описывать кадры как определенный "базовый" кадр, а затем серию изменений в частях этого кадра по мере продолжения видео, вплоть до того, пока этих изменений не станет настолько много, что от изначального кадра не останется почти ни одной оригинальной части. В каком-то смысле схема очень похожая на то, как меняются сцены в фильме. Например, 10-ти часовое видео высыхания краски на стене можно описать буквально парой I-фреймов, сэкономив таким образом память в тысячи раз.

Фундаментальный вопрос в том, каким образом мы вообще можем определить момент, в который нам необходимо "вставить" I-фрейм – то есть, когда можно посчитать, что произошла смена сцены? Эту задачу пытались решать многие, различными способами (использованием пикселей напрямую, использованием гистограмм, а также другими комплексными математическими расчетами, замедляющими первоначальную обработку видео). Так, например, эта задача являлась очень важной для YouTube и Google во время разработки ими кодека AV1, который используется сегодня на платформе. По большому счету, задачу (или уже проблему?) так и не решили.

Мы попробовали эту задачу решить с помощью TAPe и в наших экспериментах результаты показались нам хорошими. Тогда мы решили сравнить различные методы нахождения ключевых кадров.

Для тестирования мы использовали DBSCAN/HDBSCAN

Для более простой и стабильной обработки для этой задачи мы использовали "простое" ПО для кластеризации данных DBSCAN. Разделив кадры на определённые кластеры, мы смогли увидеть способность различных видов данных описать исходное видео и передать информацию о сценах - то есть о "похожести" кадров видео друг с другом – для нахождения натуральных границ между ними.

[Для тех, кто не в курсе: DBSCAN (Density-based spatial clustering of applications with noise, плотностной алгоритм пространственной кластеризации с присутствием шума) анализирует плотность данных и на ее основе делит их на кластеры. В Quora есть хорошее объяснение принципов работы DBSCAN на примере кластеризации толпы людей на празднике.]

Алгоритм кластеризации из массива данных выделяет определенный сегмент. Такой алгоритм никоим образом не создан для видео, для картинок, а создан для информации в широком смысле слова. Когда ему скармливают данные, DBSCAN из большого массива данных выделяет кластеры, которые близки друг другу по некоему условно центральному значению. Мы же взяли алгоритм кластеризации, чтобы проверить, как он справится с кластеризацией именно видео. Видео – это те же самые данные с какими-то параметрами.

Было интересно посмотреть, какие параметры алгоритм кластеризации сам сможет взять, если мы ему отдадим просто сырое видео. А также, как он разделит видео на сцены, если мы поможем ему всевозможными, нам известными, способами: в первую очередь, отдадим ему видео не в виде файла и даже не в виде пикселей, а преобразованное в простую кодировку с помощью известных нам математических методов, которые используются сегодня повсеместно в задачах компьютерного зрения, а также с помощью ML-моделей и методов TAPe. Эти кодировки мы и отдали в DBSCAN, чтобы осмотреть, как с помощью разных методов DBSCAN сможет разделить это видео на кластеры (в данном случае кластеры – это сцены, сегменты).

Для теста мы отдавали реальное видео – эпизод из «Интерстеллара» (но, увы, не легендарный момент "It's impossible! - No, it's necessary"). По результатам тестов мы построили графики "работы" каждой кодировки, а также получили видео, как та или иная кодировка поделила эпизод на сцены. Все их можно посмотреть ниже.

Какие параметры мы сравнивали

Во время тестов мы естественным образом выделили несколько ключевых параметров, по которым можно сравнить кодировки:

Время построения индекса или время получения исходных данных
Размер файла, который получается в результате
Время получения кластеров
Качество кластеризации. Эмпирический параметр, который мы не оцифровывали. Мы смотрели на то, правильно или неправильно разделены сцены видео. Это видно, что называется, невооруженным глазом.

Почему в итоге использовали HDBSCAN

После получения первых результатов мы решили использовать HDBSCAN – иерархическую вариацию DBSCAN, потому что иначе данные для НЕ-гистограмных методов не было возможности нормализовать.

В HDBSCAN параметр EPS определяется автоматически. Общими параметрами для анализов всех методов были:

min_cluster_size - это минимальная длина сцены. Выставленная как 36 кадров или же 1.5 секунды;

min_samples - минимальное количество кадров, находящимися друг с другом по соседству в каждом кластере. Выставленное как 12 (то есть равное половины секунды).

Это позволило контролировать, чтобы каждый кадр в сцене похож на N-ное количество других кадров в этой же сцене, и исключить попадание в них шума.

Самые большие изменения отмечаются в первой сцене, где нормализованные значения приводят к более высокому (и, как кажется, правильному) скоплению кадров. Также в ненормализованных кадрах DBSCAN находит больше "мусора". Последняя сцена в каждом видео состоит из фрагментов, которые DBSCAN не смог отнести ни в какую-либо другую сцену. В ненормализованных версиях наблюдается самая большая разница между этими кадрами.

РЕЗУЛЬТАТЫ ТЕСТОВ

TAPe работает с видео на порядки лучше любой другой кодировки, включая многомиллиардной (в долларах) DINOv2 (да и v3, но об этом мы расскажем в другой статье).

Итак, мы провели следующие эксперименты с TAPe – "схлопывание" каналов RGB и по NTSC (0.299 ∙ Red + 0.587 ∙ Green + 0.114 ∙ Blue, стандарту, по которому это происходит в большей части программ по типу ffmpeg или каких-либо видеоплееров).

Результаты:

Получение исходных данных: 10-11 секунд;
Анализ полученных данных: 1 сек (самая быстрая из ML-моделей - DINOv2, больше 20 сек);
Вес файла: меньше 1 Мб (у ML-моделей - мегабайты);
Параметры, шт. (!) - не раскрываем. Меньше на несколько порядков, чем у ML моделей и "традиционных" методов. У ML - миллионы параметров.
Точность: оказался ближе всех. Точно выделил сцены, оставил мало шума.
Графики и видео:

TAPe.mp4

	Время построения индекса, сек	Время получения кластеров, сек	Размер индекса (вес файла), Мб	Количество параметров	Вес каждого параметра, байт
Гистограммы 8	27.32	13.35	6.5Мб	(888) = 512	4
Гистограммы 16	26.64	111.72	52Мб	(161616)=4096	4
Гистограммы 32	26.82	1003.64	411Мб	(323232)=32768	4
Гистограммы 64	28.72	9458.78	3.3Гб	(646464)=262144	4
Sobel	18.23	4277.93	3.2Гб	129600	8
Canny	14.13	4227.2	407Мб	129600	1 (целое число)
Optical Flow	2958.72	8739.	3.2Гб	259200	4
HOG	530.43	2225.93	1.7Гб	67968	8
ML	507.90	774.99	315Мб	25088	4
Структурная похожесть	1181.052	>10000	51ГБ	2073600	8
Фурье	77.65	>10000	9.6ГБ	388800	8

ML-модель	Подтип/размер модели	Время построения индекса, сек	Время получения кластеров, сек	Размер индекса (вес файла), Мб	Параметры модели (млн)
ConvNeXt (2022)	Tiny	235.1	46.71	10.11	28.6
	Small	373.76	46.35	10.11	50.2
	Base	540.88	45.59	13.48	88.6
	Large	962.17	45.16	20.21	197.8
EfficientNetV2 (2021)	S	562.3	43.07	16.85	21.5
	M	839.03	42.97	16.85	54.1
	L	1259.9	43.27	16.85	118.5
RegNet_Y (2020)	800MF	244.69	43.12	10.11	6.4
	1_6Gf	391.08	43.09	11.69	11.2
	3_2GF	347,59	46.21	19.90	19.4
Swin (2021)	T	284.39	41.57	10.11	28.3
	S	497.48	40.88	10.11	49.6
	B	694.84	44.41	13.48	87.8
ViT (2020)	B16	537.44	44.29	10.11	86.6
	B32	234.29	40.80	10.11	88.2
	L16	1529.23	43.82	13.48	304.3
Inception (GoogleNet, 2015)	V3	370.82	40.82	26.95	27.2
DenseNet (2016)	121	452.96	44.22	13.48	8
	169	523.12	41.22	21.90	14.1
	201	625.96	44.83	25.27	20
ResNeXt (2016)	50_32x4d	314.22	39.37	26.95	25
	101_32x8d	750.81	39.24	26.95	88.8
Wide ResNet (2016)	50_2	501.32	39.28	26.95	68.9
	101_2	856.3	39.21	26.95	126.9
MobileNet (2021/22)	V3 Small	169.98	39.03	26.95	2.5
	V3 Large	184.09	37.67	7.58	5.5
ShuffleNet (2018)	V2 X0 5	129.51	38.06	12.63	1.4
	V2 X1 0	163	41.06	13.48	2.3
	V2 X1 5	164	41.37	13.48	3.5
MNaSNet (2018)	0.5	144.73	41.39	16.85	2.2
	0.75	165.67	36.17	16.85	3.2
	1.0	152.96	36.68	16.85	4.4
	1,3	188,71	33,96	16.85	6.3
DINOv2	ViT-B/14	5220	21.49	9.7	86

Наш «домашний» НИИ обошёл DINOv2, ViT и десятки ML‑моделей в сегментации видео

Краткий ликбез про I-фреймы и проблему автоматического деления видео на сцены

Для тестирования мы использовали DBSCAN/HDBSCAN

РЕЗУЛЬТАТЫ ТЕСТОВ

Теперь переходим к результатам "традиционных математических" методов и ML-моделей.

Выводы по итогам экспериментов: только факты

Бонус: графики и видео ML-моделей, включая ViT и DINOv2

Выводы про ML: проблема fitting'а, размера контекста

Результаты для DBSCAN DinoV2 (2025)