Articles / Profile of Verbasik / Habr

Tech Lead Ai Agents, Engineer Ai, Researcher

ProfileArticles25PostsNewsComments14

@Verbasik Oct 5 at 07:41

От GPT-2 к gpt-oss: анализ достижений архитектуры

Easy

21 min

7.5K

Artificial IntelligenceMachine learning *

Review

Translation

📝 Описание

На этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4.

Читать далее

+22

@Verbasik Sep 14 at 06:30

Deep Think with Confidence (DeepConf): уверенные рассуждения с ранней остановкой

Easy

5 min

5K

Artificial IntelligenceMachine learning *

Review

На этой неделе разбираем методику Deep Think with Confidence (DeepConf) — подход к рассуждениям LLM, который измеряет локальную уверенность модели по ходу генерации и использует её для ранней остановки низкокачественных трасс, а также для взвешенной агрегации ответов офлайн. DeepConf не требует дообучения модели и легко встраивается в существующие inference‑стеки, при этом одновременно:

- Повышает точность на сложных бенчмарках (до 99.9% на AIME 2025 с GPT‑OSS‑120B),

- Существенно сокращает вычисления за счёт раннего отсечения «плохих» цепочек (до −84.7% токенов).

Читать далее

+3

@Verbasik Sep 6 at 10:11

Schema Guided Reasoning: метод структурированного рассуждения AI

Easy

8 min

5.7K

Artificial IntelligenceMachine learning *

Review

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

- Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
- Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
- Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
- Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
- Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
- Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
- Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

Читать далее

-5

@Verbasik Sep 6 at 09:58

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Easy

7 min

3.3K

Machine learning * Artificial Intelligence

Review

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

• Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
• Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
• Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
• Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
• Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
• Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
• Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.)

Читать далее

0

@Verbasik Aug 10 at 17:56

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Easy

7 min

6.9K

Machine learning *

Review

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM

Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.

Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут. GRPO работает здорово и довольно стабильно, но на уровне токенов.

То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".

А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.

В чем преимущество такого подхода?

1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.

Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе).

Читать далее

+1

@Verbasik Jul 20 at 06:09

Kimi-K2

Easy

14 min

9.2K

Machine learning *

Review

Модель Kimi-K2, разработанная Moonshot AI, представляет собой один из самых амбициозных проектов в экосистеме открытых LLM. Она использует архитектуру Mixture-of-Experts (MoE) и насчитывает триллион параметров, при этом благодаря «разряженной» активации задействует для каждого токена лишь порядка 32 миллиардов параметров. Kimi-K2 сочетает в себе передовые методы оптимизации внимания для обработки сверхдлинных контекстов (до 128 тысяч токенов), инновационный оптимизатор MuonClip для стабильного и эффективного обучения на потрясающем объёме данных (15,5 триллионов токенов), а также комплексный пост-тюнинг для превращения базовой модели в интерактивного, агентно-ориентированного ассистента.

Читать далее

+8

@Verbasik Jul 6 at 13:46

Text-to-LoRA: мгновенная адаптация трансформеров

Easy

8 min

2.1K

Artificial Intelligence

Review

Исследователи Sakana AI разработали Text-to-LoRA (T2L), гиперсеть, которая динамически генерирует веса Low-Rank Adaptation (LoRA) для больших языковых моделей на основе описаний целевых задач на естественном языке. Этот метод обеспечивает эффективную адаптацию без предварительной настройки (zero-shot), превосходя установленные базовые показатели и достигая производительности, сравнимой с тонко настроенными адаптерами на ранее не встречавшихся задачах.

Читать далее

+3

@Verbasik Jun 29 at 09:29

Диффузионные языковые модели наступают

Easy

5 min

2.6K

Artificial Intelligence

Review

Оглавление

Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.

Читать далее

+3

@Verbasik May 30 at 14:29

Inference-Time Scaling for Generalist Reward Modeling

Easy

7 min

346

Machine learning *

Review

DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

Читать далее

0

@Verbasik May 18 at 12:59

SakanaAi: как CTM переосмысливает нейросети через биологию

Easy

8 min

796

Machine learning *

Review

Искусственный интеллект добился значительного прогресса благодаря архитектурам глубокого обучения, однако эти системы все еще сталкиваются со значительными ограничениями в рассуждениях здравого смысла, обобщении и прозрачности. Статья «Машины непрерывного мышления» (CTM) представляет новую архитектуру нейронной сети, которая устраняет эти ограничения, явно включая нейронную синхронизацию в качестве фундаментального компонента, черпая вдохновение из того, как биологический мозг обрабатывает информацию.

Читать далее

+1

@Verbasik May 11 at 06:25

I-CON: Периодическая таблица машинного обучения

Medium

14 min

2K

Machine learning * Algorithms *

Review

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

Читать далее

0

@Verbasik Apr 30 at 11:19

Mamba 2 + Transformer = Nemotron H

Easy

12 min

719

Artificial Intelligence

Review

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее

0

@Verbasik Apr 20 at 08:24

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Easy

23 min

3.8K

Artificial Intelligence

Review

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Представьте себе будущее, где десятки ИИ-агентов от разных производителей легко и безопасно общаются друг с другом. Звучит фантастически? Уже нет! Google только что выпустил революционный протокол Agent2Agent (A2A), способный полностью изменить ваш подход к автоматизации и совместной работе систем искусственного интеллекта.

Почему это важно? A2A позволяет агентам ИИ объединяться, решая задачи быстрее и эффективнее, чем когда-либо. Это значит меньше затрат, выше производительность и, главное — полная свобода интеграции агентов от любых поставщиков.

Хотите узнать первым, как именно работает A2A и почему Google делает ставку на мультиагентное будущее?

Не упустите возможность заглянуть в завтрашний день!

Читать далее

+3

@Verbasik Apr 13 at 08:40

Как LLM выучивают факты и почему они галлюцинируют?

Easy

9 min

2.7K

Artificial Intelligence

Review

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее

0

@Verbasik Apr 6 at 09:17

Qwen2.5-Omni: Мультимодальная модель нового поколения

Easy

8 min

2.4K

Artificial Intelligence

Review

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта!

Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему.

✨ Почему это меняет всё?
✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре.
✅ Мгновенное взаимодействие — потоковая передача данных без задержек.
✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого!

Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает?

Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

Читать далее

+3

@Verbasik Mar 30 at 09:11

DAPO: революционный RL-алгоритм от ByteDance

22 min

894

Machine learning * Artificial Intelligence

Review

DAPO: революционный RL-алгоритм от ByteDance

Привет, друзья! 👋
Представляем Вам новый увлекательный обзор передовых методов обучения RL от ByteDance.

ByteDance продемонстрировала обновленный подход к обучению больших языковых моделей (LLM), который преодолевает ключевые ограничения классических методов, такие как коллапс энтропии, зашумление данных и жесткая привязка к KL-дивергенции. DAPO — это не просто алгоритм, а целый набор инноваций, которые меняют правила игры в области RLHF (Reinforcement Learning from Human Feedback).

Читать далее

+5

@Verbasik Mar 23 at 07:52

MCP (Model Context Protocol)

Easy

11 min

24K

Artificial Intelligence

Review

В последнее время аббревиатура MCP стала все более часто появляться в некоторых статьях и разделах комментариев на arXiv или Daily Papers Hugging Face, которые я просматриваю. Внезапно осознав, что мое представление об этом лишь приблизительное, я решил изучить его более подробно и поделиться с вами.

Читать далее

+9

@Verbasik Mar 16 at 09:17

Законы масштабирования дистилляции

Medium

45 min

3.3K

Artificial IntelligenceMachine learning *

Review

После того, как DeepSeek представил в open source свой метод дистилляции знаний для R1, исследователи из Apple и Оксфордского университета быстро предложили закон масштабирования дистилляции и уже 28 февраля завершили все эксперименты и загрузили 67-страничную статью на arXiv.

Apple исследовали законы масштабирования дистилляции и сделали интересные выводы:

1. Почему слишком мощный учитель может ухудшить результаты ученика?

2. Как дистилляция подчиняется законам масштабирования?

3. Какое уравнение оптимизирует процесс дистилляции?

4. Почему дистилляция эффективнее обучения с нуля, но только в определённых условиях?

Читать далее

+6

@Verbasik Mar 9 at 12:16

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Medium

15 min

1.9K

Artificial IntelligenceBiotechnologies

Review

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

+2

@Verbasik Mar 2 at 06:49

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Medium

18 min

1.7K

Artificial Intelligence

Review

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

Читать далее

+1

1

Rating: Does not participate

Registered: July 5 2022

Activity: November 26 at 08:52

Ученый по данным, Разработчик приложений

Ведущий

Математика

Прикладная математика

Python

Алгоритмы и структуры данных

Объектно-ориентированное проектирование

Разработка программного обеспечения

Оптимизация кода

Visual Studio

Git

Linux