Как стать автором
Обновить

Комментарии 7

Время LLM уходит, приходит время мультимодальных систем - видео, звук, текст, а в скором времени наверняка и кинематика и кинестетика всё в одной модели. Open ai и google представили свои системы и очевидно они имеют гораздо более высокий потенциал быть полезными для обычного человека, чем чистые LLM системы или связки генеративных моделей. Думаю не сильно ошибусь, если скажу, что в течение года Meta выпустит открытую мультимодальную систему для общественности.

скорее наоборот -- все остальные модальности обрабатываются "как язык". ведь именно трансформерная архитектура (родом из языковых моделей) -- дала возможность творить чудеса и с изображениями. как я понял, научились работать с механизмом внимания -- и вуаля. сначала применили на других модальностях, а теперь стала возможна и полная мультимодальность.

но, конечно, нам срочно нужна мультимодальная opensource модель!.. потому что, грустно и бесперспективно теперь возиться с отдельными моделями, когда есть gpt-4o...)

Смотря что считать мультимодальной. так то https://llava-vl.github.io/ есть (со зрением).

И есть подход когда тупо рядом вешаем что-то вроде Stable Diffusion (KoboldCpp с некоторых пор так может, в llava-based модели он конечно тоже может уже)

шикарный ликбез по гпт )

Большое спасибо за статью, отдельное спасибо за дополнительные ссылки.

Как считаете, когда они убьют "свободный" поиск и заставят людей читать только то, что соответствует "политике партии"?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории