Комментарии 2
Как именно использовался batching? несколько запросов на одни и те же изображения (использовался ли тут kv-cache) или просто идет поток изображений с обработчика видео а vllm может одновременно в результате обрабатывать запросы с разных видео (continious batching)? Как выбирались кадры видео, все подряд или с некоторым интервалом, есть ли анализ на значимые изменения на видео при выборе ключевых кадров?
Как оценивалось качество результата? Открытые маленькие модели, способны ли они вообще к оценке происходящего на видео по цепочке кадров? Условно говоря на видео идет человек и размахивает руками, показывая направление, куда нужно двигаться второму человеку, который смотрит на первого.. появится ли в текстовом описании этот факт или там будет человек махает руками и идет, другой человек стоит и смотрит на первого..?
Какие-то нововведения в CUDA завезли, может за счет них еще какие-то оптимизации появятся:
https://www.phoronix.com/news/NVIDIA-CUDA-Tile-IR-Open-Source

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций