Как стать автором
Поиск
Написать публикацию
Обновить

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.2K
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Комментарии 1

Как именно использовался batching? несколько запросов на одни и те же изображения (использовался ли тут kv-cache) или просто идет поток изображений с обработчика видео а vllm может одновременно в результате обрабатывать запросы с разных видео (continious batching)? Как выбирались кадры видео, все подряд или с некоторым интервалом, есть ли анализ на значимые изменения на видео при выборе ключевых кадров?

Как оценивалось качество результата? Открытые маленькие модели, способны ли они вообще к оценке происходящего на видео по цепочке кадров? Условно говоря на видео идет человек и размахивает руками, показывая направление, куда нужно двигаться второму человеку, который смотрит на первого.. появится ли в текстовом описании этот факт или там будет человек махает руками и идет, другой человек стоит и смотрит на первого..?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации