
В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей.
Но вот парадокс: на тестах она достигает показателей выше, чем модели в 10 раз больше, а на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.
В своей предыдущей публикации я уже затрагивал тему того, что качество обучающих данных важнее, чем их количество. Данная модель этому очередное подтверждение.
Что произошло: цифры
Давайте сначала просто посмотрим на результаты.
Тест | Nanbeige 3B | Qwen 4B | Qwen 8B | Qwen 32B |
|---|---|---|---|---|
Математика (AIME 2025) | 85.6 | 81.3 | 67.3 | 72.9 |
Наука (GPQA) | 82.2 | 67.2 | 62.0 | 68.7 |
Вызов функций (BFCL-V4) | 53.8 | 44.9 | 42.2 | 47.9 |
Результаты Nanbeige 3B лучше по всем бенчмаркам и она даже опережает модель в 32B параметров, которая в 10 раз больше.
Почему это оказалось возможно? Потому что разработчики Nanbeige сделали не очередную попытку усилить модель на большем датасете. Они вместо этого сделали правильно 5 следующих вещей.
Хитрость 1: Качество данных вместо объема
Интернет - помойка. 90% текстов либо бесполезны, либо откровенно вредны для обучения модели. Андрей Карпатый уже озвучивал это в своих рассуждениях о прогрессе к достижению AGI.
Стандартный подход: Собираются огромные датасеты, набирается 100 триллионов токенов, проводится какая-то общая валидация и все это скармливается модели.
Подход Nanbeige: Собрали данные → отфильтровал по 20 критериям (информационная плотность, логичность, грамотность) → сравнили с базой хороших примеров → оставили только самое лучшее.
Результат: 23 триллиона чистых проверенных токенов. Не 100, не 50, а 23. Но ценность каждого токена в датасете значительно выше.
Просто для аналогии: если вы хотите выучить язык, лучше прочитать одну хорошую книгу 5 раз, чем 5 плохих книг по одному разу.
Хитрость 2: График обучения важнее, чем кажется
Учебные материалы были разбиты по сложности.
Разумный студент: сначала читает простой учебник, потом переходит на более сложный материал.
Качественная модель: сначала обучается на смешанных данных, потом всё больше и больше на высококачественных.
Разработчики внедрили FG-WSD (Fine-Grained Warmup-Stable-Decay) - расписание обучения, которое постепенно повышает долю качественных данных.
Этап | Объем токенов | Learning Rate | Данные |
|---|---|---|---|
Разминка | 0.1T | 0 → 4.5e-4 | - |
Разнообразие | 12.4T | 4.5e-4 | Medium + High quality |
Качество | 6.5T | 4.5e-4 | Только top 10% |
Распад | 4T | 4.5e-4 → 1.5e-6 | Финализация |
На бенчмарках это дало в среднем +10% к результатам по сравнению с обычным методом WSD.
Хитрость 3: Научить модель объяснять, а не просто знать ответ
Модель может знать правильный ответ, но по неправильным причинам. Это плохо, потому что:
Она не сможет адаптироваться к похожим задачам
Она не сможет объяснить своё решение
Её логика будет хрупкой
Как они это исправили:
Модель решает задачу (несколько вариантов)
Берётся лучший ответ, проверяется логика
Автоматически восстанавливается цепь рассуждений, которая привела к ответу
Это как если бы вы сначала решили задачу быстро, потом переписали решение аккуратно, чтобы было ясно, как вы к нему пришли.
Результат: 16% прирост на тестах "общего качества" без потерь на reasoning.
Хитрость 4: Обучение у "учителя" методом DPD
У Nanbeige есть большая сильная модель (Nanbeige3.5-Pro). Они заставили маленькую модель учиться, наблюдая, как большая решает задачи.
Но не просто копировать ответы как это обычно делается при дистилляции, а пытаться копировать правильный процесс мышления.
Как это работает:
Большая модель решает 1000 за��ач (несколько вариантов на каждую)
Маленькая модель смотрит на варианты и учится:
На хороших ответах: "вот так надо думать"
На плохих ответах: "вот так думать не надо"
Результат: +30% к производительности на некоторых тестах (особенно на function/tool calling).
Хитрость 5: "Поощрение" за правильность
После всего выше описанного они использовали ещё один метод - reinforcement learning (RL). Но не на общем датасете, а на трёх специализированных:
Математика & наука
Модель решает задачу
Проверяющая программа использует Python для валидации
Если правильно → модель получает "поощрение"
Программирование
Модель пишет код
Код автоматически тестируется
Если тесты проходят → поощрение
Общение с людьми
Модель генерирует ответ
Экспертная система оценивает качество
Лучшие ответы используются для обучения
Важный момент: примеры выбирались не случайно. Брали только те, что сложноваты, но решаемы (10–90% сложности). Тривиальные примеры и невозможные были пропущены.
Результат: Стабильное улучшение по всем направлениям без "схлопывания" на узких задачах.
Что это значит практически?
Модель работает на обычном оборудовании:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
'Nanbeige/Nanbeige4-3B-Base',
use_fast=False,
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
'Nanbeige/Nanbeige4-3B-Base',
torch_dtype='auto',
device_map='auto',
trust_remote_code=True
)
prompt = "Столица России это"
input_ids = tokenizer(prompt, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)
И вот у вас есть reasoning-модель на 8Гб памяти (если использовать BF16, Q4 требует всего 2,5Гб). Можно использовать LMStudio для запуска GGUF версий без заморочек.
Плюсы:
Работает локально (можно использовать на чувствительных данных)
Быстрая производительность на инференсе (до 3 раз быстрее 8B моделей)
Поддерживает tool calling (можно делать агентов)
64K контекст (можно работать с большими текстами)
Open-source (можно дообучить под свои задачи)
По моим тестам и в Q8, и в Q4 квантизации вполне хорошо придерживается русского языка, как в процессе размышлений, так и при ответе
На что обратить внимание
Это не панацея.
✗ На некоторых узких задачах 32B модели её обыгрывают
✗ Может ошибаться (как и все AI)
✗ На этических вопросах может быть странной о чем предупреждают авторы
Но в целом - это серьёзный результат, который переопределяет, что возможно в масштабе 3B параметров.
Итоги
Nanbeige4-3B доказывает:
Размер модели ≠ её качество
Правильное обучение важнее, чем масштабирование
Маленькие модели могут быть практичны для реальных задач
Где скачать:
P.S. Модель была обучена в Boss Zhipin (компания из Китая, которая занимается HR-технологиями). Но открыли её для всех. Это редко и хорошо.
