mefdayy 23 мая в 13:36

Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной

2 мин

6.7K

Блог компании BotHubИскусственный интеллект

Комментарии 7

Shannon 23 мая в 15:22

Первые диффузионные llm представлены 3 месяца назад, и код и веса открыты:

Можно в живую посмотреть, как подбираются токены в реальном времени:
https://huggingface.co/spaces/multimodalart/Dream

У первых моделей качество очень сильно хромает, но скорости безумны. У гугла в разы больше ресурсов, и если им удалось побороть проблему с качеством, то это покажет другим создателям моделей, что этот путь не безнадежен.

ogregor 23 мая в 21:38

Извините но я процетирую себя от 28.02.25 :

"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"

Shannon 24 мая в 09:23

Извините но я процетирую себя от 28.02.25 :
"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"

Диффузионные не меняют парадигму текущих LLM, они не исправляют проблему галлюцинаций, уверенности в своем неверном ответе, не исправляют зависимость от размера контекста, который чем выше, тем хуже качество ответа, а лишь ускоряют скорость инференса за счет снижения качества и возрастания требований к обучению примерно в 5 раз.

"Главных" новостей хватает на каждый год, разработчикам подо всё нужно выбивать бюджет и ресурсы на обучение, иначе новостей было бы больше:

Диффузионная архитектура появилась на 2 года раньше трансформеров в 2015 году, трансформеры представлены в 2017 году.
В 2021 году была SUNDAE, один из первых рабочих прототипов диффузионных LM работающий не на авторегрессии. Может и ещё раньше было что-то рабочее.
В 2022 году диффузионные текстовые модели применялись в картиночных нейросетях.
Первый перспективный прототип диффузионных языковых моделей CodeFusion представлен 06.03.23 размером 75M, по их словам конкурирующая с gpt-3 в кодирование.
В декабре 2024 представлен то, что уже можно назвать LLM (ключевое тут Large) с мышлением названным DoT. Уже тогда интернет называл это будущим LLM.
В феврале 2025 представлены рабочие модели LLM размером 7-8B, которые уже в бенчмарках конкурируют с авторегрессивными вариантами, но вне бенчмарков не впечатляют.
В мае 2025 гугл представляет Gemini Diffusion.

Splinter91 23 мая в 23:59

Mercury Coder вышел в феврале, ещё подобная система, но качество не очень.

mbtr 24 мая в 04:01

У последовательной генерации больше потенциала приблизиться к интеллекту, поскольку текст человеками генерируется последовательно, и в этом процессе заложены закономерности мышления. Генерация текста из шума неизбежно будет страдать болезнями генерации картинок/видео - отсутствие концептуального понимания того, что генерируется, будет приводить к регулярной ерунде на экране. Только если с картинками результат можно отбраковать за несколько секунд, то с текстом все гораздо сложнее.

ptrue 25 мая в 10:19

текст человеками генерируется последовательно,

Интересное утверждение. Пруфов нет ли случайно?

Генерация текста из шума неизбежно будет страдать ...

Так она не из шума в из авторегиессионного эмбеддинга же генерит.

muRmot 27 мая в 21:18

"А протестировать все популярные модели прямо сейчас без ограничений можно на платформе BotHub. "
Протестироватъ можно 2 чата гпт не платно. Трепанация.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий