Comments 8
Время LLM уходит, приходит время мультимодальных систем - видео, звук, текст, а в скором времени наверняка и кинематика и кинестетика всё в одной модели. Open ai и google представили свои системы и очевидно они имеют гораздо более высокий потенциал быть полезными для обычного человека, чем чистые LLM системы или связки генеративных моделей. Думаю не сильно ошибусь, если скажу, что в течение года Meta выпустит открытую мультимодальную систему для общественности.
скорее наоборот -- все остальные модальности обрабатываются "как язык". ведь именно трансформерная архитектура (родом из языковых моделей) -- дала возможность творить чудеса и с изображениями. как я понял, научились работать с механизмом внимания -- и вуаля. сначала применили на других модальностях, а теперь стала возможна и полная мультимодальность.
но, конечно, нам срочно нужна мультимодальная opensource модель!.. потому что, грустно и бесперспективно теперь возиться с отдельными моделями, когда есть gpt-4o...)
Смотря что считать мультимодальной. так то https://llava-vl.github.io/ есть (со зрением).
И есть подход когда тупо рядом вешаем что-то вроде Stable Diffusion (KoboldCpp с некоторых пор так может, в llava-based модели он конечно тоже может уже)
Colpali?
шикарный ликбез по гпт )
Большое спасибо за статью, отдельное спасибо за дополнительные ссылки.
Как считаете, когда они убьют "свободный" поиск и заставят людей читать только то, что соответствует "политике партии"?
LLM field landscape