Что такое VLM? Рассказываютэксперты лаборатории искуственного интеллекта компании «Криптониа».
Обычно нейросети работают с каким-то одним форматом данных. Например, большие языковые модели (LLM) обрабатывают текст, а диффузионные модели генерируют картинки. Однако есть и более универсальные решения, способные одновременно анализировать текст и изображения.
К такому типу мультимодальных нейросетей как раз относится VLM (Vision-Language Model).
Понимать связь между текстом и картинками нужно для разбора научных статей, подготовки презентаций и во многих других задачах, где иллюстрации органично дополняют текстовые описания.
Понятие VLM возникло в процессе развития машинного обучения и стало общеупотребительным в 2019 году, когда появилась модель ViLBERT (Vision-and-Language BERT).
Концепция VLM стала основой мультимодальных систем, объединяющих технологии компьютерного зрения и обработки естественного языка. Она активно используется в разных областях, от образования и здравоохранения до робототехники и умной видеоаналитики.
Сегодня есть множество VLM, как проприетарных, так и с открытым исходным кодом. Самые известные «закрытые» — GPT от OpenAI, Gemini от Google и Claude от Anthropic. Среди открытых популярны модели семейства LLaVA и китайская Qwen-VL.
Модели следующего поколения называют VLA (Vision-Language-Action). Они не просто анализируют увиденное, но и выполняют действия в физическом мире. Например, в сценарии Ambi Robotics они управляют манипуляторами роботов при сортировке посылок.







