Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения / Habr

Xiaomi опубликовала компактную языковую модель MiMo, которую обучили рассуждать на этапе претрейна. По производительности она сопоставима с GPT o1-mini. Код и веса моделей открыты и доступны на Hugging Face.

Разработчики MiMo отмечают, что практически все рассуждающие языковые модели с открытым кодом основаны на базовых нейросетях с относительно большим количеством параметров. Например, модели, которые могут анализировать код, построены на базе нейросетей с 32 млрд параметров. Исследователи считают, что лучших результатов можно добиться, если сосредоточиться на предварительном обучении, а не файн-тюнинге.

MiMo — нейросеть с 7 млрд параметров, которые обучили с нуля для решения логических задач. Тесты разработчиков показывают, что компактная модель, с самого начала нацеленная на рассуждения, справляется с задачами лучше нейросетей с 32 млрд параметров. По данным бенчмарков, MiMo-7B-RL по производительности сравнима с GPT o1-mini от OpenAI. Ещё один плюс нейросети от Xiaomi в том, что благодаря небольшому количеству параметров её можно запускать локально.

Обучали MiMo в два этапа:

Предварительное обучение. На первом этапе нейросеть обучили базовым принципам анализа текста, рассуждениям и фильтрации данных. На выходе получилась версия MiMo-7B-Base.
Дообучение. На втором этапе языковую модель научили разбираться в программировании и математике. Для этого использовали датасет из 130 тыс. задач. Их предварительно подготовили: очистили от лишнего и оценили сложность каждой задачи.

В итоге получается, что сперва языковую модель научили рассуждать и анализировать данные, а после — погрузили в необходимую область знаний. На выходе получается более производительная нейросеть, чем если бы обучали в обратном порядке.

Проект MiMo открыт и опубликован на портале Hugging Face. В репозитории доступны следующие модели:

Модель	Описание	Ссылка
MiMo-7B-Base	Базовая модель с потенциалом к рассуждению	Hugging Face
MiMo-7B-RL-Zero	Модель с рассуждением, обученная на основе базовой	Hugging Face
MiMo-7B-SFT	SFT-модель, обученная на основе базовой	Hugging Face
MiMo-7B-RL	Модель с рассуждением, обученная на основе SFT-нейросети. По производительности она сопоставима с GPT o1-mini от OpenAI.	Hugging Face

Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения

{{ titleHtml }}

{{ titleHtml }}