Статьи / Профиль Verbasik / Хабр

Все потоки

Tech Lead Ai Agents, Engineer Ai, Researcher

39

Подписчики

ПрофильСтатьи25ПостыНовостиКомментарии14

Verbasik 5 окт 2025 в 07:41

От GPT-2 к gpt-oss: анализ достижений архитектуры

Простой

21 мин

8K

Искусственный интеллектМашинное обучение *

Обзор

Перевод

📝 Описание

На этой неделе разбираем релиз GPT-OSS — первых полностью открытых моделей OpenAI с момента GPT-2 в 2019 году. Две модели: gpt-oss-20b и gpt-oss-120b представляют собой современные LLM с архитектурой MoE (Mixture of Experts), оптимизированные для рассуждений и способные работать на одном GPU благодаря квантованию MXFP4.

Читать далее

+22

Verbasik 14 сен 2025 в 06:30

Deep Think with Confidence (DeepConf): уверенные рассуждения с ранней остановкой

Простой

5 мин

6K

Искусственный интеллектМашинное обучение *

Обзор

На этой неделе разбираем методику Deep Think with Confidence (DeepConf) — подход к рассуждениям LLM, который измеряет локальную уверенность модели по ходу генерации и использует её для ранней остановки низкокачественных трасс, а также для взвешенной агрегации ответов офлайн. DeepConf не требует дообучения модели и легко встраивается в существующие inference‑стеки, при этом одновременно:

- Повышает точность на сложных бенчмарках (до 99.9% на AIME 2025 с GPT‑OSS‑120B),

- Существенно сокращает вычисления за счёт раннего отсечения «плохих» цепочек (до −84.7% токенов).

Читать далее

+3

Verbasik 6 сен 2025 в 10:11

Schema Guided Reasoning: метод структурированного рассуждения AI

Простой

8 мин

15K

Искусственный интеллектМашинное обучение *

Обзор

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

- Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
- Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
- Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
- Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
- Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
- Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
- Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.).

Читать далее

-4

Verbasik 6 сен 2025 в 09:58

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Простой

7 мин

5K

Машинное обучение * Искусственный интеллект

Обзор

📝 Описание

Рассматриваем подход Schema Guided Reasoning (SGR) — метод структурированного промптинга, который направляет рассуждения LLM через типизированные схемы и явные рабочие процессы. Также разбираем расширение для пространственного рассуждения — SG² (Schema-Guided Scene-Graph Reasoning), многоагентный фреймворк «рассуждай-пока-извлекаешь» для задач по графам сцены. Подходы демонстрируют прирост точности на 5–10% и достигают 95%+ воспроизводимости, одновременно снижая галлюцинации за счёт валидации схем и программного извлечения фактов.

🔍 Ключевые особенности

• Структурированные выводы: типизированные схемы (JSON Schema / Pydantic) обеспечивают контроль формата и смысла ответа.
• Три паттерна рассуждения: Cascade, Routing, Cycle — для разных типов задач и контроля шага рассуждений.
• Constrained decoding: CFG/grammar-ограничения для безопасной генерации, автоматические повторы при валидации.
• Мультиагентная архитектура SG²: разделение на модуль рассуждений и модуль извлечения с программным доступом к графу.
• Программное извлечение: генерация Python-кода для обхода scene-graph вместо жёстких API.
• Снижение галлюцинаций: разделение контекста и схема-навигация уменьшают отвлечения и ошибочные выводы.
• Совместимость: OpenAI Structured Outputs, Instructor, LangChain, Pydantic AI, локальные бэкенды (xgrammar/Outlines/etc.)

Читать далее

0

Verbasik 10 авг 2025 в 17:56

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Простой

7 мин

9.3K

Машинное обучение *

Обзор

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM

Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.

Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут. GRPO работает здорово и довольно стабильно, но на уровне токенов.

То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".

А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.

В чем преимущество такого подхода?

1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.

Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе).

Читать далее

+1

Verbasik 20 июл 2025 в 06:09

Kimi-K2

Простой

14 мин

32K

Машинное обучение *

Обзор

Модель Kimi-K2, разработанная Moonshot AI, представляет собой один из самых амбициозных проектов в экосистеме открытых LLM. Она использует архитектуру Mixture-of-Experts (MoE) и насчитывает триллион параметров, при этом благодаря «разряженной» активации задействует для каждого токена лишь порядка 32 миллиардов параметров. Kimi-K2 сочетает в себе передовые методы оптимизации внимания для обработки сверхдлинных контекстов (до 128 тысяч токенов), инновационный оптимизатор MuonClip для стабильного и эффективного обучения на потрясающем объёме данных (15,5 триллионов токенов), а также комплексный пост-тюнинг для превращения базовой модели в интерактивного, агентно-ориентированного ассистента.

Читать далее

+8

Verbasik 6 июл 2025 в 13:46

Text-to-LoRA: мгновенная адаптация трансформеров

Простой

8 мин

5.6K

Искусственный интеллект

Обзор

Исследователи Sakana AI разработали Text-to-LoRA (T2L), гиперсеть, которая динамически генерирует веса Low-Rank Adaptation (LoRA) для больших языковых моделей на основе описаний целевых задач на естественном языке. Этот метод обеспечивает эффективную адаптацию без предварительной настройки (zero-shot), превосходя установленные базовые показатели и достигая производительности, сравнимой с тонко настроенными адаптерами на ранее не встречавшихся задачах.

Читать далее

+3

Verbasik 29 июн 2025 в 09:29

Диффузионные языковые модели наступают

Простой

5 мин

6.3K

Искусственный интеллект

Обзор

Оглавление

Диффузионные языковые модели (DLM) представляют собой революционную альтернативу традиционным авторегрессионным большим языковым моделям (AR-LLM), таким как GPT. Если AR-LLM генерируют текст последовательно, токен за токеном, справа налево, что приводит к линейному росту времени и вычислительных затрат с увеличением длины ответа, то DLM заимствуют идею из успешных диффузионных моделей изображений и аудио. Они учатся восстанавливать текст из зашумленной версии, постепенно «размывая» шум и уточняя ответ. Это позволяет DLM генерировать текст целиком и итеративно улучшать его качество, что открывает возможности для более быстрой и когерентной генерации за счет параллельного обновления нескольких токенов и возможности исправления ошибок в процессе.

Читать далее

+2

Verbasik 30 мая 2025 в 14:29

Inference-Time Scaling for Generalist Reward Modeling

Простой

7 мин

1K

Машинное обучение *

Обзор

DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга.

Читать далее

0

Verbasik 18 мая 2025 в 12:59

SakanaAi: как CTM переосмысливает нейросети через биологию

Простой

8 мин

2.2K

Машинное обучение *

Обзор

Искусственный интеллект добился значительного прогресса благодаря архитектурам глубокого обучения, однако эти системы все еще сталкиваются со значительными ограничениями в рассуждениях здравого смысла, обобщении и прозрачности. Статья «Машины непрерывного мышления» (CTM) представляет новую архитектуру нейронной сети, которая устраняет эти ограничения, явно включая нейронную синхронизацию в качестве фундаментального компонента, черпая вдохновение из того, как биологический мозг обрабатывает информацию.

Читать далее

+1

Verbasik 11 мая 2025 в 06:25

I-CON: Периодическая таблица машинного обучения

Средний

14 мин

4.9K

Машинное обучение * Алгоритмы *

Обзор

Исследователи из МiT, Microsoft и Goggle создали фреймворк, который может изменить подход к разработке алгоритмов машинного обучения - I-Con (Information Contrastive Learning).

Он объединил и систематизировал более 20 классических методов ML — от кластеризации до контрастивного обучения в единую структуру, напоминающую периодическую таблицу. Как и ее химический прародитель, эта таблица не только упорядочивает известные алгоритмы, но и указывает на пробелы, где могут существовать еще не открытые методы.

Читать далее

0

Verbasik 30 апр 2025 в 11:19

Mamba 2 + Transformer = Nemotron H

Простой

12 мин

2.5K

Искусственный интеллект

Обзор

Nemotron-H реализует гибридную архитектуру Mamba-Transformer, где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2, а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning.

Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?

Читать далее

0

Verbasik 20 апр 2025 в 08:24

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Простой

23 мин

14K

Искусственный интеллект

Обзор

Эра мультиагентов? Как LangChain, только на стероидах: протокол Agent2Agent (A2A) от Google + MCP

Представьте себе будущее, где десятки ИИ-агентов от разных производителей легко и безопасно общаются друг с другом. Звучит фантастически? Уже нет! Google только что выпустил революционный протокол Agent2Agent (A2A), способный полностью изменить ваш подход к автоматизации и совместной работе систем искусственного интеллекта.

Почему это важно? A2A позволяет агентам ИИ объединяться, решая задачи быстрее и эффективнее, чем когда-либо. Это значит меньше затрат, выше производительность и, главное — полная свобода интеграции агентов от любых поставщиков.

Хотите узнать первым, как именно работает A2A и почему Google делает ставку на мультиагентное будущее?

Не упустите возможность заглянуть в завтрашний день!

Читать далее

+3

Verbasik 13 апр 2025 в 08:40

Как LLM выучивают факты и почему они галлюцинируют?

Простой

9 мин

6.9K

Искусственный интеллект

Обзор

🔬 Почему языковые модели "знают" факты… и почему они врут? Новое исследование от Google DeepMind раскрывает секреты обучения LLM

Вы когда-нибудь задумывались, как огромные языковые модели (LLM) превращают триллионы слов из интернета в четкие факты? И почему иногда они так уверенно выдают полную чушь? 🤔

В Google DeepMind решили покопаться в этой загадке и провели детальное исследование процессов, которые стоят за обучением моделей. Они взяли синтетические биографии шести вымышленных людей и наблюдали, как модель шаг за шагом переходит от хаотичного предсказания токенов к формированию точных ассоциаций — например, связывает имя человека с его датой рождения или профессией.

📈 А если интересно глубже...Узнайте, как распределение данных влияет на скорость обучения, какие стратегии учебной программы работают лучше всего и почему слишком частое повторение одних и тех же примеров может быть опасным.

Исследуйте вместе с нами 🚀

Читать далее

+1

Verbasik 6 апр 2025 в 09:17

Qwen2.5-Omni: Мультимодальная модель нового поколения

Простой

8 мин

7.6K

Искусственный интеллект

Обзор

🚀 Qwen2.5-Omni — революция в мире искусственного интеллекта!

Представьте AI, который понимает не только текст, но и изображения, звуки и даже речь — и делает это мгновенно, в режиме реального времени! Qwen2.5-Omni от Alibaba Group — это прорывная мультимодальная модель, которая объединяет все эти возможности в единую мощную систему.

✨ Почему это меняет всё?
✅ Полная мультимодальность — обработка текста, изображений и аудио в одной архитектуре.
✅ Мгновенное взаимодействие — потоковая передача данных без задержек.
✅ Универсальность — идеально подходит для чат-ботов, анализа медиа, голосовых ассистентов и многого другого!

Хотите узнать, как Qwen2.5-Omni превосходит конкурентов и какие уникальные возможности предлагает?

Читайте наш технический обзор и убедитесь сами — это будущее AI уже здесь!

Читать далее

+3

Verbasik 30 мар 2025 в 09:11

DAPO: революционный RL-алгоритм от ByteDance

22 мин

2.7K

Машинное обучение * Искусственный интеллект

Обзор

DAPO: революционный RL-алгоритм от ByteDance

Привет, друзья! 👋
Представляем Вам новый увлекательный обзор передовых методов обучения RL от ByteDance.

ByteDance продемонстрировала обновленный подход к обучению больших языковых моделей (LLM), который преодолевает ключевые ограничения классических методов, такие как коллапс энтропии, зашумление данных и жесткая привязка к KL-дивергенции. DAPO — это не просто алгоритм, а целый набор инноваций, которые меняют правила игры в области RLHF (Reinforcement Learning from Human Feedback).

Читать далее

+5

Verbasik 23 мар 2025 в 07:52

MCP (Model Context Protocol)

Простой

11 мин

89K

Искусственный интеллект

Обзор

В последнее время аббревиатура MCP стала все более часто появляться в некоторых статьях и разделах комментариев на arXiv или Daily Papers Hugging Face, которые я просматриваю. Внезапно осознав, что мое представление об этом лишь приблизительное, я решил изучить его более подробно и поделиться с вами.

Читать далее

+9

Verbasik 16 мар 2025 в 09:17

Законы масштабирования дистилляции

Средний

45 мин

8.6K

Искусственный интеллектМашинное обучение *

Обзор

После того, как DeepSeek представил в open source свой метод дистилляции знаний для R1, исследователи из Apple и Оксфордского университета быстро предложили закон масштабирования дистилляции и уже 28 февраля завершили все эксперименты и загрузили 67-страничную статью на arXiv.

Apple исследовали законы масштабирования дистилляции и сделали интересные выводы:

1. Почему слишком мощный учитель может ухудшить результаты ученика?

2. Как дистилляция подчиняется законам масштабирования?

3. Какое уравнение оптимизирует процесс дистилляции?

4. Почему дистилляция эффективнее обучения с нуля, но только в определённых условиях?

Читать далее

+6

Verbasik 9 мар 2025 в 12:16

Evo-2: ИИ модель для генерации генома, которая знает все древо жизни

Средний

15 мин

4.8K

Искусственный интеллектБиотехнологии

Обзор

Evo 2 — крупномасштабная языковая модель (Large Language Model), обученная на корпусе из 9 триллионов токенов геномных последовательностей, охватывающих все домены жизни (бактерии, археи, эукариоты, вирусы бактериофагов и прочие).

Читать далее

+2

Verbasik 2 мар 2025 в 06:49

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Средний

18 мин

5K

Искусственный интеллект

Обзор

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

Читать далее

+2

1

В рейтинге: Не участвует

Зарегистрирован: 5 июля 2022

Активность: 5 февраля в 14:44

Ученый по данным, Разработчик приложений

Ведущий

Математика

Прикладная математика

Python

Алгоритмы и структуры данных

Объектно-ориентированное проектирование

Разработка программного обеспечения

Оптимизация кода

Visual Studio

Git

Linux