Да, есть подозрения, но от части их развеивает тот факт, что при локальном запуске модель действительно генерирует очень много разных вариантов при размышлениях. Для 3B модели сделать 20к токенов на 1 ответ по моему опыту абсолютный рекорд. Даже 20-30B обычно не дают на ответ больше 8-10к токенов.
Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры