В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей.

Но вот парадокс: на тестах она достигает показателей выше, чем модели в 10 раз больше, а на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.

В своей предыдущей публикации я уже затрагивал тему того, что качество обучающих данных важнее, чем их количество. Данная модель этому очередное подтверждение.

Что произошло: цифры

Давайте сначала просто посмотрим на результат��.

Тест

Nanbeige 3B

Qwen 4B

Qwen 8B

Qwen 32B

Математика (AIME 2025)

85.6

81.3

67.3

72.9

Наука (GPQA)

82.2

67.2

62.0

68.7

Вызов функций (BFCL-V4)

53.8

44.9

42.2

47.9

Результаты Nanbeige 3B лучше по всем бенчмаркам и она даже опережает модель в 32B параметров, которая в 10 раз больше.

Почему это оказалось возможно? Потому что разработчики Nanbeige сделали не очередную попытку усилить модель на большем датасете. Они вместо этого сделали правильно 5 следующих вещей.

Хитрость 1: Качество данных вместо объема

Интернет - помойка. 90% текстов либо бесполезны, либо откровенно вредны для обучения модели. Андрей Карпатый уже озвучивал это в своих рассуждениях о прогрессе к достижению AGI.

Стандартный подход: Собираются огромные датасеты, набирается 100 триллионов токенов, проводится какая-то общая валидация и все это скармливается модели.

Подход Nanbeige: Собрали данные → отфильтровал по 20 критериям (информационная плотность, логичность, грамотность) → сравнили с базой хороших примеров → оставили только самое лучшее.

Результат: 23 триллиона чистых проверенных токенов. Не 100, не 50, а 23. Но ценность каждого токена в датасете значительно выше.

Просто для аналогии: если вы хотите выучить язык, лучше прочитать одну хорошую книгу 5 раз, чем 5 плохих книг по одному разу.

Хитрость 2: График обучения важнее, чем кажется

Учебные материалы были разбиты по сложности.

Разумный студент: сначала читает простой учебник, потом переходит на более сложный материал.

Качественная модель: сначала обучается на смешанных данных, потом всё больше и больше на высококачественных.

Разработчики внедрили FG-WSD (Fine-Grained Warmup-Stable-Decay) - расписание обучения, которое постепенно повышает долю качественных данных.

Этап

Объем токенов

Learning Rate

Данные

Разминка

0.1T

0 → 4.5e-4

-

Разнообразие

12.4T

4.5e-4

Medium + High quality

Качество

6.5T

4.5e-4

Только top 10%

Распад

4T

4.5e-4 → 1.5e-6

Финализация

На бенчмарках это дало в среднем +10% к результатам по сравнению с обычным методом WSD.

Хитрость 3: Научить модель объяснять, а не просто знать ответ

Модель может знать правильный ответ, но по неправильным причинам. Это плохо, потому что:

  1. Она не сможет адаптироваться к похожим задачам

  2. Она не сможет объяснить своё решение

  3. Её логика будет хрупкой

Как они это исправили:

  1. Модель решает задачу (несколько вариантов)

  2. Берётся лучший ответ, проверяется логика

  3. Автоматически восстанавливается цепь рассуждений, которая привела к ответу

Это как если бы вы сначала решили задачу быстро, потом переписали решение аккуратно, чтобы было ясно, как вы к нему пришли.

Результат: 16% прирост на тестах "общего качества" без потерь на reasoning.

Хитрость 4: Обучение у "учителя" методом DPD

У Nanbeige есть большая сильная модель (Nanbeige3.5-Pro). Они заставили маленькую модель учиться, наблюдая, как большая решает задачи.

Но не просто копировать ответы как это обычно делается при дистилляции, а пытаться копировать правильный процесс мышления.

Как это работает:

  1. Большая модель решает 1000 задач (несколько вариантов на каждую)

  2. Маленькая модель смотрит на варианты и учится:

    • На хороших ответах: "вот так надо думать"

    • На плохих ответах: "вот так думать не надо"

Результат: +30% к производительности на некоторых тестах (особенно на function/tool calling).

Хитрость 5: "Поощрение" за правильность

После всего выше описанного они использовали ещё один метод - reinforcement learning (RL). Но не на общем датасете, а на трёх специализированных:

Математика & наука

  • Модель решает задачу

  • Проверяющая программа использует Python для валидации

  • Если правильно → модель получает "поощрение"

Программирование

  • Модель пишет код

  • Код автоматически тестируется

  • Если тесты проходят → поощрение

О��щение с людьми

  • Модель генерирует ответ

  • Экспертная система оценивает качество

  • Лучшие ответы используются для обучения

Важный момент: примеры выбирались не случайно. Брали только те, что сложноваты, но решаемы (10–90% сложности). Тривиальные примеры и невозможные были пропущены.

Результат: Стабильное улучшение по всем направлениям без "схлопывания" на узких задачах.


Что это значит практически?

Модель работает на обычном оборудовании:

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  use_fast=False,
  trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  torch_dtype='auto',
  device_map='auto',
  trust_remote_code=True
)
prompt = "Столица России это"
input_ids = tokenizer(prompt, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)

И вот у вас есть reasoning-модель на 8Гб памяти (если использовать BF16, Q4 требует всего 2,5Гб). Можно использовать LMStudio для запуска GGUF версий без заморочек.

Плюсы:

  • Работает локально (можно использовать на чувствительных данных)

  • Быстрая производительность на инференсе (до 3 раз быстрее 8B моделей)

  • Поддерживает tool calling (можно делать агентов)

  • 64K контекст (можно работать с большими текстами)

  • Open-source (можно дообучить под свои задачи)

  • По моим тестам и в Q8, и в Q4 квантизации вполне хорошо придерживается русского языка, как в процессе размышлений, так и при ответе

На что обратить внимание

Это не панацея.

✗ На некоторых узких задачах 32B модели её обыгрывают
✗ Может ошибаться (как и все AI)
✗ На этических вопросах может быть странной о чем предупреждают авторы

Но в целом - это серьёзный результат, который переопределяет, что возможно в масштабе 3B параметров.


Итоги

Nanbeige4-3B доказывает:

  • Размер модели ≠ её качество

  • Правильное обучение важнее, чем масштабирование

  • Маленькие модели могут быть практичны для реальных задач

Где скачать:


P.S. Модель была обучена в Boss Zhipin (компания из Китая, которая занимается HR-технологиями). Но открыли её для всех. Это редко и хорошо.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
А вы пользуетесь маленькими LLM?
4.44%Да, облачно6
55.56%Да, локально75
40%Нет54
Проголосовали 135 пользователей. Воздержались 23 пользователя.