Нейронкам делегируют многое, но остаются сложности — LLM в научной деятельности и работе с кодом / Комментарии / Хабр

По ходу статьи вы рассуждаете о необходимости объединять разнообразные форматы данных (текст, снимки, графики) в рамках единой мультимодальной модели и указываете на дискуссию между подходами “большие универсальные” vs. “компактные специализированные” системы. Как именно вы оцениваете эффективность этих подходов при работе с мультимодальным контекстом?

Например, на практике не станет ли Retrieval-Augmented Generation (RAG) с многомерными векторными БД слишком ресурсоёмким для “больших” MLLM, а попытка сократить модель до “малой” существенно ударит по качеству анализа сложных типов данных (вроде медицинских снимков и текстовых записей врача)?

Расскажите пожалуйста о критериях выбора оптимального размера и архитектуры MLLM, если набор мультимодальной информации очень велик и разнороден.