Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения
Xiaomi опубликовала компактную языковую модель MiMo, которую обучили рассуждать на этапе претрейна. По производительности она сопоставима с GPT o1-mini. Код и веса моделей открыты и доступны на Hugging Face.
Разработчики MiMo отмечают, что практически все рассуждающие языковые модели с открытым кодом основаны на базовых нейросетях с относительно большим количеством параметров. Например, модели, которые могут анализировать код, построены на базе нейросетей с 32 млрд параметров. Исследователи считают, что лучших результатов можно добиться, если сосредоточиться на предварительном обучении, а не файн-тюнинге.
MiMo — нейросеть с 7 млрд параметров, которые обучили с нуля для решения логических задач. Тесты разработчиков показывают, что компактная модель, с самого начала нацеленная на рассуждения, справляется с задачами лучше нейросетей с 32 млрд параметров. По данным бенчмарков, MiMo-7B-RL по производительности сравнима с GPT o1-mini от OpenAI. Ещё один плюс нейросети от Xiaomi в том, что благодаря небольшому количеству параметров её можно запускать локально.
Обучали MiMo в два этапа:
Предварительное обучение. На первом этапе нейросеть обучили базовым принципам анализа текста, рассуждениям и фильтрации данных. На выходе получилась версия MiMo-7B-Base.
Дообучение. На втором этапе языковую модель научили разбираться в программировании и математике. Для этого использовали датасет из 130 тыс. задач. Их предварительно подготовили: очистили от лишнего и оценили сложность каждой задачи.
В итоге получается, что сперва языковую модель научили рассуждать и анализировать данные, а после — погрузили в необходимую область знаний. На выходе получается более производительная нейросеть, чем если бы обучали в обратном порядке.
Проект MiMo открыт и опубликован на портале Hugging Face. В репозитории доступны следующие модели:
Модель | Описание | Ссылка |
MiMo-7B-Base | Базовая модель с потенциалом к рассуждению | |
MiMo-7B-RL-Zero | Модель с рассуждением, обученная на основе базовой | |
MiMo-7B-SFT | SFT-модель, обученная на основе базовой | |
MiMo-7B-RL | Модель с рассуждением, обученная на основе SFT-нейросети. По производительности она сопоставима с GPT o1-mini от OpenAI. |