В машинном обучении существуют модели, способные работать с данными в разных форматах, например — с текстом и изображениями. Причём, во втором случае они умеют не просто распознавать объекты в отдельных кадрах, но и обнаруживать между ними сложные пространственно-временные отношения, анализируя видеоролик в целом.
Такие модели называют LVLM (Large Vision Language Model), или большие зрительно-языковые модели. В их разработке используется архитектура трансформеров, что позволяет им эффективно обрабатывать большие объёмы данных.
LVLM применяются в основном для автоматического аннотирования видеозаписей, что экономит миллионы часов ручного труда. С их помощью составляется описание для роликов на YouTube и других сервисах видеохостинга. Также LVLM могут применяться для создания текстовых описаний к записям с камер видеонаблюдения и последующего поиска по ним.
Наиболее мощными LVLM сегодня считаются VideoLLaMA2, LLaVA-NEXT-Video, Video-LLaVA, VideoChat2, Tarsier и ShareGPT4Video. Из них Taiser генерирует самые точные (но и самые краткие) аннотации, а ShareGPT4Video хоть и впечатляет объёмными описаниями, чаще других галлюцинирует и повторяется.
На коротких фрагментах современные LVLM уже могут описывать видео с приемлемой детальностью. Однако им всё ещё сложно работать с контекстом при анализе длинных видеороликов, особенно с частой сменой планов.
Недавно китайскими исследователями был предложен тест FIOVA (Five In One Video Annotations) для оценки качества работы LVLM. В нём используется сравнение сразу с пятью аннотациями независимых авторов, а длина сравниваемого текста увеличена как минимум в 4 раза.