
Обычно нейросети нужно тренировать на мощном железе, сконцентрированном в одном датацентре. Результат такой тренировки попадает в руки той бигтех-корпорации, которой по карману иметь свои датацентры и самостоятельно тренировать модели за бешеные миллионы баксов. Есть ли другой путь?
Встречайте INTELLECT-2 — первую параметрическую модель размером 32B, обученную с помощью асинхронного обучения с подкреплением (RL) на динамическом, однородном рое вычислительных узлов. Доступ к узлам изолирован и не требует дополнительных привилегий — теоретически, это могут быть какие-то компьютеры волонтёров в интернете.
Инфра под это, мягко говоря, нестандартная. Разработчикам пришлось написать несколько компонентов с нуля, и вот что у них получилось...
Важные ссылки
Статья написана на основе более подробного технического отчета: primeintellect.ai/intellect-2
Посмотреть работу модели в онлайн-чате можно здесь: chat.primeintellect.ai
Модель лежит на Hugging Face
Описанный в статье фреймворк Prime-RL лежит на GitHub
В ходе разработки INTELLECT-2, появилось несколько опенсорсных компонентов. Все вместе они называются PRIME-RL — новый фреймворк, созданный для распределенного асинхронного обучения с подкреплением. Состоит из нескольких частей: TOPLOC верифицирует роллауты от недоверенных инференс-воркеров, а SHARDCAST эффективно транслирует контрольные веса от тренировочных нод к инференс-вокерам.
Помимо инфраструктурных компонентов, разработчики улучшили стандартный протокол тренировки GRPO и способы фильтрации данных. Всё это критически важно для стабилизации обучения и гарантий, что модель успешно усвоила тренировочную цель и улучшила свою базу — QwQ-32B.
Исходный код INTELLECT-2, инфраструктурный код и данные выкладывается в открытый доступ. Команда верит, что будущее — за открытыми исследованиями в области децентрализованного обучения и приглашает всех к сотрудничеству.
Больше заметок о нейросетях в телеграме @1red2black

Новая парадигма
В последнее время, все говорят о test-time compute scaling. Это одна из самых популярных идей для масштабирования LLM. Улучшения достигаются тем, что модель может больше времени провести в ризонинге.
По классике, тренировка с подкреплением жестко централизована. Тебе нужен мощный датацентр с колоцированными GPU и быстрым соединением между серверами в кластере. INTELLECT-2 меняет парадигму: разработчики эксплуатируют тот факт, что обучение с подкреплением по своей природе асинхронно и хорошо подходит для децентрализованных, глобально распределенных вычислений.
Инфраструктура
Давайте детально посмотрим на все компоненты, тем более что они лежат в опенсорсе, и вы сами можете их использовать.
- Полностью асинхронный фреймворк обучения с подкреплением, разработанный для децентрализованного обучения
- Определяет процедуру генерации роллаутов, тренировку модели и рассылку весов
- Позволяет проводить обучение на гетерогенных, ненадежных сетях
- Реализация трейнера использует PyTorch FSDP2, инференс использует vLLM, а верификаторы используют схему GENESYS, представленную в SYNTHETIC-1
SHARDCAST: Библиотека для распространения больших файлов по HTTP, с древовидной топологией сети, которая эффективно передает обновленные веса модели всем децентрализованным инференс-воркерам

TOPLOC:
- Схема хеширования с учетом локальности данных, которая позволяет делать эффективный и верифицируемый инференс
- Обнаруживает подмену данных или изменение точности в инференсе модели и надежно работает на неизвестном GPU-железе
- Инференс-воркеры генерируют роллауты. Эти файлы загружаются через подписанные URL, события в чейне запускают валидаторы TOPLOC для их проверки; успешно проверенные файлы поступают в трейнер, а при обнаруждении попытки обмана — соответствующий узел выбрасывается из пула вычислителей

- Предоставляет инфраструктуру для агрегации и координации глобальных вычислительных ресурсов
- Оркестратор на Rust и сервис обнаружения координируют воркеры, которым не нужно дополнительных доступов — ноды автоматически регистрируются, оборудование проверяется, ноды начинают отправлять хартбиты и запрашивают задачи в Docker-контейнерах. В это же время, оркестратор распределяет рабочие нагрузки, отслеживает "здоровье" системы, управляет доступами до пула и фиксирует вклад каждого участника.

Протокол обучения
Тренировочные данные и подкрепление:
- 285k верифицируемых задач (математика и кодинг) из NuminaMath-1.5, Deepscaler и SYNTHETIC-1
- Бинарное подкрепление за задачу + награда за длину позволяет пользователям распределять thinking tokens во время инференса
- Двухэтапный асинхронный RL: рассылка новых проверочных весов полностью сочетается с идущим параллельно инференсом и обучением — так устраняется бутылочное горлышко в общении компонентов.

Двустороннее клиппирование GRPO: Стабилизирует обучение, смягчает пики градиентов с помощью двустороннего клиппирования отношения вероятностей

Продвинутая фильтрация данных: Комбинирует офлайн и онлайн-фильтрацию, что позволяет выбирать достаточной сложности задачи, и значительно повышает эффективность обучения модели

Агрессивное клиппирование градиентов: Решает проблему расширения норм градиентов при масштабировании, что положительно сказывается на стабильности обучения
Эксперименты
Исследование проводилась на двух основных экспериментах:
- TARGET-SHORT: экспериментальный запуск на материале с небольшими длинами (для получения эффетивного ризонинга)
- TARGET-LONG: основной прогон теста, с большими длинами
Утилизация вычислительных ресурсов: В ходе экспериментов, удалось совместить коммуникацию с вычислениями, используя двухэтапное асинхронное обучение с подкреплением.
Подкрепление:
- На протяжении обучения видно значительное увеличение награды, что указывает на повышение производительности модели в решении математических задач и задач по кодингу
- Зафиксировано снижение штрафов за длину. Впрочем, значительно медленнее, чем во время других абляционных экспериментов
Производительность на бенчмарках: Удалось статистически значимо повысить производительность QwQ-32B на математических бенчмарках и бенчмарках по кодингу.

В целом, поскольку QwQ-32B уже интенсивно обучена с помощью RL, сложно получить какие-то существенные улучшения на бенчмарках, кроме как улучшить результат на тренировочном датасете. Чтобы получить более значительные результаты, вероятно, нужно взять более сильную базовую модель (Qwen3?), более качественные датасеты, или как-то улучшить саму RL-среду.
Что дальше?
INTELLECT-2 — первый шаг к продвинутым, действительно открытым и децентрализованно обученным рассуждающим моделям. В ближайшие месяцы у команды разработчиков в планах:
Увеличение соотношения инференса к тренировочным вычислениям
- Инференс идеально параллелится и не требует коммуникации. Сложная и мощная (в смысле количества флопсов на инференс) RL-среда естественным образом подходят для децентрализованного обучения
Tool Calls & Multi-Turn RL
Для полномасштабного inference-time compute в научных и исследовательских целях нужно дать моделям встроенные инструменты для ризонинга — веб-поиск, интерпретаторы Python и т.д.
Краудсорсинг RL-задач и сред
Опенсорс имеет уникальное преимущество. Распределенный RL все еще очень новая штука, многое всё ещё предстоит разработать. Но с правильным комьюнити и возможностью сообщества совместно достигать большие цели, опенсорсный ИИ всё ещё может обогнать закрытые лаборатории
Мерджинг моделей и DiLoCo
Объединение независимо обученных RL-моделей — либо в конце цепочки, либо непрерывно через DiLoCo — для создания единой унифицированной модели. Нужно масштабировать децентрализованный RL на гораздо больший объем вычислений
Все подробности есть в техническом отчете.
Присоединяйтесь!
Команда INTELLECT-2 работает над децентрализованным RL. Текущий фокус разработки направлен на ризонинг, инструменты, краудсорсинг высококачественных данных, оптимизацию инфраструктуры и протокола обучения.
Проект открыт для сотрудничества со всеми, кто заинтересован в совместном создании опенсорсного и децентрализованного AGI.