Search
Write a publication
Pull to refresh
19
10

Tech Lead Ai Agents, Engineer Ai, Researcher

Send message

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Level of difficultyEasy
Reading time7 min
Views1.6K

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM

Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.

Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут. GRPO работает здорово и довольно стабильно, но на уровне токенов.

То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".

А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.

В чем преимущество такого подхода?

1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.

Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе).

Читать далее

Kimi-K2

Level of difficultyEasy
Reading time14 min
Views7.1K

Модель Kimi-K2, разработанная Moonshot AI, представляет собой один из самых амбициозных проектов в экосистеме открытых LLM. Она использует архитектуру Mixture-of-Experts (MoE) и насчитывает триллион параметров, при этом благодаря «разряженной» активации задействует для каждого токена лишь порядка 32 миллиардов параметров. Kimi-K2 сочетает в себе передовые методы оптимизации внимания для обработки сверхдлинных контекстов (до 128 тысяч токенов), инновационный оптимизатор MuonClip для стабильного и эффективного обучения на потрясающем объёме данных (15,5 триллионов токенов), а также комплексный пост-тюнинг для превращения базовой модели в интерактивного, агентно-ориентированного ассистента.

Читать далее

Text-to-LoRA: мгновенная адаптация трансформеров

Level of difficultyEasy
Reading time8 min
Views2.7K

Исследователи Sakana AI разработали Text-to-LoRA (T2L), гиперсеть, которая динамически генерирует веса Low-Rank Adaptation (LoRA) для больших языковых моделей на основе описаний целевых задач на естественном языке. Этот метод обеспечивает эффективную адаптацию без предварительной настройки (zero-shot), превосходя установленные базовые показатели и достигая производительности, сравнимой с тонко настроенными адаптерами на ранее не встречавшихся задачах.

Читать далее

Диффузионные языковые модели наступают

Level of difficultyEasy
Reading time5 min
Views3.4K

Оглавление

Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.

Читать далее

Inference-Time Scaling for Generalist Reward Modeling

Level of difficultyEasy
Reading time7 min
Views557

 DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

Читать далее

SakanaAi: как CTM переосмысливает нейросети через биологию

Level of difficultyEasy
Reading time8 min
Views1.3K

Искусственный интеллект добился значительного прогресса благодаря архитектурам глубокого обучения, однако эти системы все еще сталкиваются со значительными ограничениями в рассуждениях здравого смысла, обобщении и прозрачности. Статья «Машины непрерывного мышления» (CTM) представляет новую архитектуру нейронной сети, которая устраняет эти ограничения, явно включая нейронную синхронизацию в качестве фундаментального компонента, черпая вдохновение из того, как биологический мозг обрабатывает информацию.

Читать далее

I-CON: Периодическая таблица машинного обучения

Level of difficultyMedium
Reading time14 min
Views2.6K

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

Читать далее

Mamba 2 + Transformer = Nemotron H

Level of difficultyEasy
Reading time12 min
Views731

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Level of difficultyEasy
Reading time23 min
Views4.2K

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Представьте себе будущее, где десятки ИИ-агентов от разных производителей легко и безопасно общаются друг с другом. Звучит фантастически? Уже нет! Google только что выпустил революционный протокол Agent2Agent (A2A), способный полностью изменить ваш подход к автоматизации и совместной работе систем искусственного интеллекта.

Почему это важно? A2A позволяет агентам ИИ объединяться, решая задачи быстрее и эффективнее, чем когда-либо. Это значит меньше затрат, выше производительность и, главное — полная свобода интеграции агентов от любых поставщиков.

Хотите узнать первым, как именно работает A2A и почему Google делает ставку на мультиагентное будущее?

Не упустите возможность заглянуть в завтрашний день!

Читать далее

Как LLM выучивают факты и почему они галлюцинируют?

Level of difficultyEasy
Reading time9 min
Views3.9K

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее

Qwen2.5-Omni: Мультимодальная модель нового поколения

Level of difficultyEasy
Reading time8 min
Views3.3K

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта!

Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему.

Почему это меняет всё?
Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре.
Мгновенное взаимодействие — потоковая передача данных без задержек.
Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого!

Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает?

Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

Читать далее

DAPO: революционный RL-алгоритм от ByteDance

Reading time22 min
Views1.2K

DAPO: революционный RL-алгоритм от ByteDance

Привет, друзья! 👋
Представляем Вам новый увлекательный обзор передовых методов обучения RL от ByteDance.

ByteDance продемонстрировала обновленный подход к обучению больших языковых моделей (LLM), который преодолевает ключевые ограничения классических методов, такие как коллапс энтропии, зашумление данных и жесткая привязка к KL-дивергенции. DAPO — это не просто алгоритм, а целый набор инноваций, которые меняют правила игры в области RLHF (Reinforcement Learning from Human Feedback).

Читать далее

MCP (Model Context Protocol)

Level of difficultyEasy
Reading time11 min
Views27K

В последнее время аббревиатура MCP стала все более часто появляться в некоторых статьях и разделах комментариев на arXiv или Daily Papers Hugging Face, которые я просматриваю. Внезапно осознав, что мое представление об этом лишь приблизительное, я решил изучить его более подробно и поделиться с вами.

Читать далее

Законы масштабирования дистилляции

Level of difficultyMedium
Reading time45 min
Views4.4K

После того, как DeepSeek представил в open source свой метод дистилляции знаний для R1, исследователи из Apple и Оксфордского университета быстро предложили закон масштабирования дистилляции и уже 28 февраля завершили все эксперименты и загрузили 67-страничную статью на arXiv.

Apple исследовали законы масштабирования дистилляции и сделали интересные выводы:

1. Почему слишком мощный учитель может ухудшить результаты ученика?

2. Как дистилляция подчиняется законам масштабирования?

3. Какое уравнение оптимизирует процесс дистилляции?

4. Почему дистилляция эффективнее обучения с нуля, но только в определённых условиях?

Читать далее

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Level of difficultyMedium
Reading time15 min
Views2.5K

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Level of difficultyMedium
Reading time18 min
Views2.1K

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

Читать далее

От генерации к рассуждению: эволюция языковых моделей от GPT до RL

Level of difficultyHard
Reading time93 min
Views4.2K

В контексте стремительного развития больших языковых моделей (LLM) особое внимание уделяется повышению их способности к логическим рассуждениям. Одним из значимых достижений в этой области является модель DeepSeek-R1, разработанная для стимулирования reasoning-способностей LLM с помощью методов обучения с подкреплением (Reinforcement Learning, RL). DeepSeek-R1 представляет собой инновационный подход, направленный на улучшение качества генерации ответов в задачах, требующих многошаговых логических выводов.

Читать далее

MoE: Как Смесь Экспертов меняет правила игры в мире AI

Level of difficultyMedium
Reading time11 min
Views3.5K

При просмотре последних опубликованных статей вы можете заметить в названиях слово «MoE». Что же означает это «MoE» и почему его так часто используют сейчас? В этом наглядном руководстве мы подробно рассмотрим этот важный компонент с более чем 50 иллюстрациями: Смесь Экспертов (MoE)!

Читать далее

Преемник BERT: ModernBERT

Level of difficultyEasy
Reading time21 min
Views2.4K

ModernBERT: Новое поколение моделей-кодировщиков для эффективного NLP 🚀

«Эволюция BERT наконец здесь — быстрее, умнее, с поддержкой длинного контекста»

📌 Основные особенности

- 🚀 В 2-4 раза быстрее, чем DeBERTaV3

- 📏 Длина контекста до 8k токенов (в 16 раз больше, чем у BERT)

- 💻 Понимание кода

- ⚡ Эффективное использование памяти (<1/5 от DeBERTa)

- 🧩 Гибридное внимание (локальное + глобальное)


🧠 Инновации в архитектуре

1. Rotary Position Embedding (RoPE)
- Обеспечивает лучшее понимание позиций для длинных контекстов.

2. GeGLU Activation
- Улучшает нелинейные возможности модели.

3. Гибридный механизм внимания
- Чередование слоев глобального и локального внимания.

4. Обучение без заполнения
- Упаковка последовательностей для повышения эффективности на 20%.


🌟 Основные применения

- 🔍 RAG-системы с длинным контекстом

- 💻 Поиск и анализ кода

- 📰 Понимание документов

- 📊 Семантический поиск


Преобразите ваш NLP-пайплайн с ModernBERT уже сегодня!

Читать далее

Революция в математическом мышлении малых языковых моделей с rStar-Math

Level of difficultyMedium
Reading time16 min
Views3.7K

В данной статье представлен метод rStar-Math, демонстрирующий способность малых языковых моделей (SLM) достигать конкурентоспособных результатов, сопоставимых и даже превосходящих показатели модели OpenAI o1 в задачах математического рассуждения, без использования дистилляции знаний из более крупных моделей. Ключевой особенностью rStar-Math является применение "глубокого мышления" посредством поиска по дереву Монте-Карло (MCTS), где SLM выступает в роли модели политики, генерируя последовательность шагов решения, а другая SLM оценивает их, действуя как модель вознаграждения за процесс. Представлены три ключевые инновации: метод синтеза данных CoT с расширением кода, новый подход к обучению модели предпочтения процессов (PPM) и стратегия саморазвития. Экспериментальные результаты показывают значительное улучшение математических способностей SLM, подтверждая эффективность предложенного подхода.

Читать далее
1

Information

Rating
1,340-th
Registered
Activity

Specialization

Data Scientist, Application Developer
Lead
Maths
Applied math
Python
Algorithms and data structures
Object-oriented design
Software development
Code Optimization
Visual Studio
Git
Linux