Комментарии 7
Первые диффузионные llm представлены 3 месяца назад, и код и веса открыты:

Можно в живую посмотреть, как подбираются токены в реальном времени:
https://huggingface.co/spaces/multimodalart/Dream
У первых моделей качество очень сильно хромает, но скорости безумны. У гугла в разы больше ресурсов, и если им удалось побороть проблему с качеством, то это покажет другим создателям моделей, что этот путь не безнадежен.
Извините но я процетирую себя от 28.02.25 :
"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"
Извините но я процетирую себя от 28.02.25 :
"На самом деле это главная новость за последние 8 лет. С момента появления трансформеров"
Диффузионные не меняют парадигму текущих LLM, они не исправляют проблему галлюцинаций, уверенности в своем неверном ответе, не исправляют зависимость от размера контекста, который чем выше, тем хуже качество ответа, а лишь ускоряют скорость инференса за счет снижения качества и возрастания требований к обучению примерно в 5 раз.
"Главных" новостей хватает на каждый год, разработчикам подо всё нужно выбивать бюджет и ресурсы на обучение, иначе новостей было бы больше:
Диффузионная архитектура появилась на 2 года раньше трансформеров в 2015 году, трансформеры представлены в 2017 году.
В 2021 году была SUNDAE, один из первых рабочих прототипов диффузионных LM работающий не на авторегрессии. Может и ещё раньше было что-то рабочее.
В 2022 году диффузионные текстовые модели применялись в картиночных нейросетях.
Первый перспективный прототип диффузионных языковых моделей CodeFusion представлен 06.03.23 размером 75M, по их словам конкурирующая с gpt-3 в кодирование.
В декабре 2024 представлен то, что уже можно назвать LLM (ключевое тут Large) с мышлением названным DoT. Уже тогда интернет называл это будущим LLM.
В феврале 2025 представлены рабочие модели LLM размером 7-8B, которые уже в бенчмарках конкурируют с авторегрессивными вариантами, но вне бенчмарков не впечатляют.
В мае 2025 гугл представляет Gemini Diffusion.
Mercury Coder вышел в феврале, ещё подобная система, но качество не очень.
У последовательной генерации больше потенциала приблизиться к интеллекту, поскольку текст человеками генерируется последовательно, и в этом процессе заложены закономерности мышления. Генерация текста из шума неизбежно будет страдать болезнями генерации картинок/видео - отсутствие концептуального понимания того, что генерируется, будет приводить к регулярной ерунде на экране. Только если с картинками результат можно отбраковать за несколько секунд, то с текстом все гораздо сложнее.
Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной