Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры / Хабр

В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей.

Но вот парадокс: на тестах она достигает показателей выше, чем модели в 10 раз больше, а на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.

В своей предыдущей публикации я уже затрагивал тему того, что качество обучающих данных важнее, чем их количество. Данная модель этому очередное подтверждение.

Что произошло: цифры

Давайте сначала просто посмотрим на результаты.

Тест	Nanbeige 3B	Qwen 4B	Qwen 8B	Qwen 32B
Математика (AIME 2025)	85.6	81.3	67.3	72.9
Наука (GPQA)	82.2	67.2	62.0	68.7
Вызов функций (BFCL-V4)	53.8	44.9	42.2	47.9

Результаты Nanbeige 3B лучше по всем бенчмаркам и она даже опережает модель в 32B параметров, которая в 10 раз больше.

Почему это оказалось возможно? Потому что разработчики Nanbeige сделали не очередную попытку усилить модель на большем датасете. Они вместо этого сделали правильно 5 следующих вещей.

Хитрость 1: Качество данных вместо объема

Интернет - помойка. 90% текстов либо бесполезны, либо откровенно вредны для обучения модели. Андрей Карпатый уже озвучивал это в своих рассуждениях о прогрессе к достижению AGI.

Стандартный подход: Собираются огромные датасеты, набирается 100 триллионов токенов, проводится какая-то общая валидация и все это скармливается модели.

Подход Nanbeige: Собрали данные → отфильтровал по 20 критериям (информационная плотность, логичность, грамотность) → сравнили с базой хороших примеров → оставили только самое лучшее.

Результат: 23 триллиона чистых проверенных токенов. Не 100, не 50, а 23. Но ценность каждого токена в датасете значительно выше.

Просто для аналогии: если вы хотите выучить язык, лучше прочитать одну хорошую книгу 5 раз, чем 5 плохих книг по одному разу.

Хитрость 2: График обучения важнее, чем кажется

Учебные материалы были разбиты по сложности.

Разумный студент: сначала читает простой учебник, потом переходит на более сложный материал.

Качественная модель: сначала обучается на смешанных данных, потом всё больше и больше на высококачественных.

Разработчики внедрили FG-WSD (Fine-Grained Warmup-Stable-Decay) - расписание обучения, которое постепенно повышает долю качественных данных.

Этап	Объем токенов	Learning Rate	Данные
Разминка	0.1T	0 → 4.5e-4	-
Разнообразие	12.4T	4.5e-4	Medium + High quality
Качество	6.5T	4.5e-4	Только top 10%
Распад	4T	4.5e-4 → 1.5e-6	Финализация

На бенчмарках это дало в среднем +10% к результатам по сравнению с обычным методом WSD.

Хитрость 3: Научить модель объяснять, а не просто знать ответ

Модель может знать правильный ответ, но по неправильным причинам. Это плохо, потому что:

Она не сможет адаптироваться к похожим задачам
Она не сможет объяснить своё решение
Её логика будет хрупкой

Как они это исправили:

Модель решает задачу (несколько вариантов)
Берётся лучший ответ, проверяется логика
Автоматически восстанавливается цепь рассуждений, которая привела к ответу

Это как если бы вы сначала решили задачу быстро, потом переписали решение аккуратно, чтобы было ясно, как вы к нему пришли.

Результат: 16% прирост на тестах "общего качества" без потерь на reasoning.

Хитрость 4: Обучение у "учителя" методом DPD

У Nanbeige есть большая сильная модель (Nanbeige3.5-Pro). Они заставили маленькую модель учиться, наблюдая, как большая решает задачи.

Но не просто копировать ответы как это обычно делается при дистилляции, а пытаться копировать правильный процесс мышления.

Как это работает:

Большая модель решает 1000 задач (несколько вариантов на каждую)
Маленькая модель смотрит на варианты и учится:
- На хороших ответах: "вот так надо думать"
- На плохих ответах: "вот так думать не надо"

Результат: +30% к производительности на некоторых тестах (особенно на function/tool calling).

Хитрость 5: "Поощрение" за правильность

После всего выше описанного они использовали ещё один метод - reinforcement learning (RL). Но не на общем датасете, а на трёх специализированных:

Математика & наука

Модель решает задачу
Проверяющая программа использует Python для валидации
Если правильно → модель получает "поощрение"

Программирование

Модель пишет код
Код автоматически тестируется
Если тесты проходят → поощрение

Общение с людьми

Модель генерирует ответ
Экспертная система оценивает качество
Лучшие ответы используются для обучения

Важный момент: примеры выбирались не случайно. Брали только те, что сложноваты, но решаемы (10–90% сложности). Тривиальные примеры и невозможные были пропущены.

Результат: Стабильное улучшение по всем направлениям без "схлопывания" на узких задачах.

Что это значит практически?

Модель работает на обычном оборудовании:

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  use_fast=False,
  trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  torch_dtype='auto',
  device_map='auto',
  trust_remote_code=True
)
prompt = "Столица России это"
input_ids = tokenizer(prompt, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)

И вот у вас есть reasoning-модель на 8Гб памяти (если использовать BF16, Q4 требует всего 2,5Гб). Можно использовать LMStudio для запуска GGUF версий без заморочек.

Плюсы:

Работает локально (можно использовать на чувствительных данных)
Быстрая производительность на инференсе (до 3 раз быстрее 8B моделей)
Поддерживает tool calling (можно делать агентов)
64K контекст (можно работать с большими текстами)
Open-source (можно дообучить под свои задачи)
По моим тестам и в Q8, и в Q4 квантизации вполне хорошо придерживается русского языка, как в процессе размышлений, так и при ответе

На что обратить внимание

Это не панацея.

✗ На некоторых узких задачах 32B модели её обыгрывают
✗ Может ошибаться (как и все AI)
✗ На этических вопросах может быть странной о чем предупреждают авторы

Но в целом - это серьёзный результат, который переопределяет, что возможно в масштабе 3B параметров.

Итоги

Nanbeige4-3B доказывает:

Размер модели ≠ её качество
Правильное обучение важнее, чем масштабирование
Маленькие модели могут быть практичны для реальных задач

Где скачать:

P.S. Модель была обучена в Boss Zhipin (компания из Китая, которая занимается HR-технологиями). Но открыли её для всех. Это редко и хорошо.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

4.35%Да, облачно6

55.8%Да, локально77

39.86%Нет55

Проголосовали 138 пользователей. Воздержались 24 пользователя.