Как стать автором
Обновить

Комментарии 7

Первые диффузионные llm представлены 3 месяца назад, и код и веса открыты:

https://m-arriola.com/bd3lms/
https://m-arriola.com/bd3lms/

Можно в живую посмотреть, как подбираются токены в реальном времени:
https://huggingface.co/spaces/multimodalart/Dream

У первых моделей качество очень сильно хромает, но скорости безумны. У гугла в разы больше ресурсов, и если им удалось побороть проблему с качеством, то это покажет другим создателям моделей, что этот путь не безнадежен.

Извините но я процетирую себя от 28.02.25 :

"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"

Извините но я процетирую себя от 28.02.25 :
"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"

Диффузионные не меняют парадигму текущих LLM, они не исправляют проблему галлюцинаций, уверенности в своем неверном ответе, не исправляют зависимость от размера контекста, который чем выше, тем хуже качество ответа, а лишь ускоряют скорость инференса за счет снижения качества и возрастания требований к обучению примерно в 5 раз.

"Главных" новостей хватает на каждый год, разработчикам подо всё нужно выбивать бюджет и ресурсы на обучение, иначе новостей было бы больше:

  • Диффузионная архитектура появилась на 2 года раньше трансформеров в 2015 году, трансформеры представлены в 2017 году.

  • В 2021 году была SUNDAE, один из первых рабочих прототипов диффузионных LM работающий не на авторегрессии. Может и ещё раньше было что-то рабочее.

  • В 2022 году диффузионные текстовые модели применялись в картиночных нейросетях.

  • Первый перспективный прототип диффузионных языковых моделей CodeFusion представлен 06.03.23 размером 75M, по их словам конкурирующая с gpt-3 в кодирование.

  • В декабре 2024 представлен то, что уже можно назвать LLM (ключевое тут Large) с мышлением названным DoT. Уже тогда интернет называл это будущим LLM.

  • В феврале 2025 представлены рабочие модели LLM размером 7-8B, которые уже в бенчмарках конкурируют с авторегрессивными вариантами, но вне бенчмарков не впечатляют.

  • В мае 2025 гугл представляет Gemini Diffusion.

Mercury Coder вышел в феврале, ещё подобная система, но качество не очень.

У последовательной генерации больше потенциала приблизиться к интеллекту, поскольку текст человеками генерируется последовательно, и в этом процессе заложены закономерности мышления. Генерация текста из шума неизбежно будет страдать болезнями генерации картинок/видео - отсутствие концептуального понимания того, что генерируется, будет приводить к регулярной ерунде на экране. Только если с картинками результат можно отбраковать за несколько секунд, то с текстом все гораздо сложнее.

текст человеками генерируется последовательно,

Интересное утверждение. Пруфов нет ли случайно?

Генерация текста из шума неизбежно будет страдать ...

Так она не из шума в из авторегиессионного эмбеддинга же генерит.

"А протестировать все популярные модели прямо сейчас без ограничений можно на платформе BotHub. "
Протестироватъ можно 2 чата гпт не платно. Трепанация.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий