All streams
Search
Write a publication
Pull to refresh
23
8.4

Tech Lead Ai Agents, Engineer Ai, Researcher

Send message

От GPT-2 к gpt-oss: анализ достижений архитектуры

Level of difficultyEasy
Reading time21 min
Views2.7K

📝 Описание

На этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4.

Читать далее

Deep Think with Confidence (DeepConf): уверенные рассуждения с ранней остановкой

Level of difficultyEasy
Reading time5 min
Views686

На этой неделе разбираем методику Deep Think with Confidence (DeepConf) — подход к рассуждениям LLM, который измеряет локальную уверенность модели по ходу генерации и использует её для ранней остановки низкокачественных трасс, а также для взвешенной агрегации ответов офлайн. DeepConf не требует дообучения модели и легко встраивается в существующие inference‑стеки, при этом одновременно:

- Повышает точность на сложных бенчмарках (до 99.9% на AIME 2025 с GPT‑OSS‑120B),

- Существенно сокращает вычисления за счёт раннего отсечения «плохих» цепочек (до −84.7% токенов).

Читать далее

Schema Guided Reasoning: метод структурированного рассуждения AI

Level of difficultyEasy
Reading time8 min
Views2.8K

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

- Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
- Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
- Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
- Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
- Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
- Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
- Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

Читать далее

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Level of difficultyEasy
Reading time7 min
Views660

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.)

Читать далее

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Level of difficultyEasy
Reading time7 min
Views2K

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM

Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.

Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут. GRPO работает здорово и довольно стабильно, но на уровне токенов.

То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".

А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.

В чем преимущество такого подхода?

1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.

Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе).

Читать далее

Kimi-K2

Level of difficultyEasy
Reading time14 min
Views9.9K

Модель Kimi-K2, разработанная Moonshot AI, представляет собой один из самых амбициозных проектов в экосистеме открытых LLM. Она использует архитектуру Mixture-of-Experts (MoE) и насчитывает триллион параметров, при этом благодаря «разряженной» активации задействует для каждого токена лишь порядка 32 миллиардов параметров. Kimi-K2 сочетает в себе передовые методы оптимизации внимания для обработки сверхдлинных контекстов (до 128 тысяч токенов), инновационный оптимизатор MuonClip для стабильного и эффективного обучения на потрясающем объёме данных (15,5 триллионов токенов), а также комплексный пост-тюнинг для превращения базовой модели в интерактивного, агентно-ориентированного ассистента.

Читать далее

Text-to-LoRA: мгновенная адаптация трансформеров

Level of difficultyEasy
Reading time8 min
Views2.8K

Исследователи Sakana AI разработали Text-to-LoRA (T2L), гиперсеть, которая динамически генерирует веса Low-Rank Adaptation (LoRA) для больших языковых моделей на основе описаний целевых задач на естественном языке. Этот метод обеспечивает эффективную адаптацию без предварительной настройки (zero-shot), превосходя установленные базовые показатели и достигая производительности, сравнимой с тонко настроенными адаптерами на ранее не встречавшихся задачах.

Читать далее

Диффузионные языковые модели наступают

Level of difficultyEasy
Reading time5 min
Views3.4K

Оглавление

Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.

Читать далее

Inference-Time Scaling for Generalist Reward Modeling

Level of difficultyEasy
Reading time7 min
Views584

 DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

Читать далее

SakanaAi: как CTM переосмысливает нейросети через биологию

Level of difficultyEasy
Reading time8 min
Views1.3K

Искусственный интеллект добился значительного прогресса благодаря архитектурам глубокого обучения, однако эти системы все еще сталкиваются со значительными ограничениями в рассуждениях здравого смысла, обобщении и прозрачности. Статья «Машины непрерывного мышления» (CTM) представляет новую архитектуру нейронной сети, которая устраняет эти ограничения, явно включая нейронную синхронизацию в качестве фундаментального компонента, черпая вдохновение из того, как биологический мозг обрабатывает информацию.

Читать далее

I-CON: Периодическая таблица машинного обучения

Level of difficultyMedium
Reading time14 min
Views2.7K

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

Читать далее

Mamba 2 + Transformer = Nemotron H

Level of difficultyEasy
Reading time12 min
Views858

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Level of difficultyEasy
Reading time23 min
Views5K

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Представьте себе будущее, где десятки ИИ-агентов от разных производителей легко и безопасно общаются друг с другом. Звучит фантастически? Уже нет! Google только что выпустил революционный протокол Agent2Agent (A2A), способный полностью изменить ваш подход к автоматизации и совместной работе систем искусственного интеллекта.

Почему это важно? A2A позволяет агентам ИИ объединяться, решая задачи быстрее и эффективнее, чем когда-либо. Это значит меньше затрат, выше производительность и, главное — полная свобода интеграции агентов от любых поставщиков.

Хотите узнать первым, как именно работает A2A и почему Google делает ставку на мультиагентное будущее?

Не упустите возможность заглянуть в завтрашний день!

Читать далее

Как LLM выучивают факты и почему они галлюцинируют?

Level of difficultyEasy
Reading time9 min
Views4K

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее

Qwen2.5-Omni: Мультимодальная модель нового поколения

Level of difficultyEasy
Reading time8 min
Views3.7K

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта!

Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему.

Почему это меняет всё?
Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре.
Мгновенное взаимодействие — потоковая передача данных без задержек.
Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого!

Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает?

Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

Читать далее

DAPO: революционный RL-алгоритм от ByteDance

Reading time22 min
Views1.3K

DAPO: революционный RL-алгоритм от ByteDance

Привет, друзья! 👋
Представляем Вам новый увлекательный обзор передовых методов обучения RL от ByteDance.

ByteDance продемонстрировала обновленный подход к обучению больших языковых моделей (LLM), который преодолевает ключевые ограничения классических методов, такие как коллапс энтропии, зашумление данных и жесткая привязка к KL-дивергенции. DAPO — это не просто алгоритм, а целый набор инноваций, которые меняют правила игры в области RLHF (Reinforcement Learning from Human Feedback).

Читать далее

MCP (Model Context Protocol)

Level of difficultyEasy
Reading time11 min
Views34K

В последнее время аббревиатура MCP стала все более часто появляться в некоторых статьях и разделах комментариев на arXiv или Daily Papers Hugging Face, которые я просматриваю. Внезапно осознав, что мое представление об этом лишь приблизительное, я решил изучить его более подробно и поделиться с вами.

Читать далее

Законы масштабирования дистилляции

Level of difficultyMedium
Reading time45 min
Views4.5K

После того, как DeepSeek представил в open source свой метод дистилляции знаний для R1, исследователи из Apple и Оксфордского университета быстро предложили закон масштабирования дистилляции и уже 28 февраля завершили все эксперименты и загрузили 67-страничную статью на arXiv.

Apple исследовали законы масштабирования дистилляции и сделали интересные выводы:

1. Почему слишком мощный учитель может ухудшить результаты ученика?

2. Как дистилляция подчиняется законам масштабирования?

3. Какое уравнение оптимизирует процесс дистилляции?

4. Почему дистилляция эффективнее обучения с нуля, но только в определённых условиях?

Читать далее

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Level of difficultyMedium
Reading time15 min
Views2.5K

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Level of difficultyMedium
Reading time18 min
Views2.3K

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

Читать далее
1

Information

Rating
737-th
Registered
Activity

Specialization

Data Scientist, Application Developer
Lead
Maths
Applied math
Python
Algorithms and data structures
Object-oriented design
Software development
Code Optimization
Visual Studio
Git
Linux