Комментарии 1
Как именно использовался batching? несколько запросов на одни и те же изображения (использовался ли тут kv-cache) или просто идет поток изображений с обработчика видео а vllm может одновременно в результате обрабатывать запросы с разных видео (continious batching)? Как выбирались кадры видео, все подряд или с некоторым интервалом, есть ли анализ на значимые изменения на видео при выборе ключевых кадров?
Как оценивалось качество результата? Открытые маленькие модели, способны ли они вообще к оценке происходящего на видео по цепочке кадров? Условно говоря на видео идет человек и размахивает руками, показывая направление, куда нужно двигаться второму человеку, который смотрит на первого.. появится ли в текстовом описании этот факт или там будет человек махает руками и идет, другой человек стоит и смотрит на первого..?
Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций