high_fly 15 мая 2024 в 21:10

LLM field landscape

Средний

43 мин

6.8K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Обзор

+14

Комментарии 8

Apxuej 16 мая 2024 в 06:33

Время LLM уходит, приходит время мультимодальных систем - видео, звук, текст, а в скором времени наверняка и кинематика и кинестетика всё в одной модели. Open ai и google представили свои системы и очевидно они имеют гораздо более высокий потенциал быть полезными для обычного человека, чем чистые LLM системы или связки генеративных моделей. Думаю не сильно ошибусь, если скажу, что в течение года Meta выпустит открытую мультимодальную систему для общественности.

Siddthartha 16 мая 2024 в 08:20

скорее наоборот -- все остальные модальности обрабатываются "как язык". ведь именно трансформерная архитектура (родом из языковых моделей) -- дала возможность творить чудеса и с изображениями. как я понял, научились работать с механизмом внимания -- и вуаля. сначала применили на других модальностях, а теперь стала возможна и полная мультимодальность.

Siddthartha 16 мая 2024 в 08:22

но, конечно, нам срочно нужна мультимодальная opensource модель!.. потому что, грустно и бесперспективно теперь возиться с отдельными моделями, когда есть gpt-4o...)

vikarti 2 июн 2024 в 03:13

Смотря что считать мультимодальной. так то https://llava-vl.github.io/ есть (со зрением).

И есть подход когда тупо рядом вешаем что-то вроде Stable Diffusion (KoboldCpp с некоторых пор так может, в llava-based модели он конечно тоже может уже)