С новой моделью MiMo-7B Xiaomi стремится продемонстрировать, что математические и программные задачи могут эффективно решаться относительно небольшими языковыми моделями. По словам компании, результаты должны соответствовать или даже превосходить результаты, достигнутые более крупными конкурентами.

В то время как многие современные модели рассуждений с открытым исходным кодом используют 32 миллиарда параметров, Xiaomi полагается на архитектуру из 7B параметров, стремясь максимизировать ее эффективность с помощью специально разработанных стратегий предварительного и последующего обучения.
Исследовательская группа сообщает, что MiMo-7B был предварительно обучен примерно на 25 триллионах токенов с целью раннего ознакомления модели с шаблонами рассуждений. Для поддержки этого были разработаны новые инструменты извлечения для математических формул и кода, охватывающие такие форматы, как HTML и PDF. Также использовался трехэтапный процесс смешивания данных, подчеркивающий синтетически сгенерированные задачи.
В ходе финальной фазы предварительной подготовки доля математических и кодовых данных была увеличена примерно до 70 процентов. Длина контекста была увеличена до 32 768 токенов, чтобы позволить модели обрабатывать более сложные, расширенные рассуждения.
Другим элементом процесса обучения является многотокенное прогнозирование (MTP), в котором модель пытается предвидеть несколько последующих токенов одновременно. Эта техника предназначена для повышения точности и ускорения вывода.
После предварительной подготовки две версии модели были дополнительно улучшены с использованием обучения с подкреплением (RL): MiMo-7B-RL-Zero была обучена непосредственно на основе базовой модели, в то время как MiMo-7B-RL была разработана на основе ранее настроенной версии SFT. Обучающие данные включают 130 000 проверяемых математических и программных задач.
Особое внимание было уделено системе вознаграждений за задачи, связанные с кодом, которая использует «Test Difficulty Driven Reward» для взвешивания отдельных тестовых случаев по сложности. Этот подход призван решить распространенную проблему скудных вознаграждений, когда модели получают мало обратной связи для особенно сложных задач.
Для повышения стабильности обучения был использован метод «Easy Data Re-Sampling». Задачи, с которыми модель уже хорошо справляется, выбираются реже, что повышает эффективность выборки без искажения обучения.
Согласно отчету, MiMo-7B-RL набирает 55,4 балла на математическом бенчмарке AIME 2025 — на 4,7 балла выше, чем o1-mini от OpenAI. На LiveCodeBench v5 модель набирает 57,8 процента, значительно опережая 32B QwQ-Preview от Alibaba с 41,9 процента. Однако недавно выпущенная Alibaba Qwen3-30B-A3B набирает 62,6 процента на том же бенчмарке, а модель Qwen3-4B также превосходит своего более крупного предшественника с 54,2 процента. Эти результаты позиционируют MiMo-7B-RL как конкурентоспособную запись в тенденции к меньшим, высокопроизводительным моделям рассуждений.
Авторы также отмечают текущие проблемы. Поддержание стабильного баланса между математическими и кодовыми возможностями во время обучения с подкреплением является сложной задачей, а такие проблемы, как непреднамеренное смешивание языков — например, вывод на китайском языке в заданиях на английском языке — остаются нерешенными.
Xiaomi опубликовала MiMo-7B-Base, MiMo-7B-RL-Zero и MiMo-7B-RL под открытой лицензией на GitHub. Компания также рассматривает проект как методологический вклад, показывающий, что меньшие модели могут проникать в области, традиционно доминируемые более крупными системами, посредством целевых стратегий обучения.