Как стать автором
Поиск
Написать публикацию
Обновить
762.6
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Instella Math: языковая модель AMD с поддержкой рассуждений

Время на прочтение5 мин
Количество просмотров1.4K

AMD представила Instella Math — языковую модель, ориентированную на решение задач, требующих сложных логических построений. Отмечается, что это первая модель, в которой применено обучение с подкреплением на основе длинных цепочек рассуждений, и при этом — целиком на графических процессорах AMD.

В основе проекта лежит Instella 3B Instruct, чьи возможности расширили многоэтапным циклом обучения: двумя стадиями контролируемой донастройки и тремя этапами обучения с подкреплением по методике VERL. Всё это выполнялось на ускорителях AMD Instinct MI300X.

Instella Math

Instella Math — первая языковая модель AMD для рассуждений, с объёмом 3 млрд параметров, обученная на кластере из 32 ускорителей AMD Instinct MI300X. Instella Math — полностью опенсорсная модель: открыты её архитектура, код обучения, веса и наборы данных. Базовая модель Instella 3B Instruct также выложена в открытом доступе, включая результаты донастройки для задач рассуждения.

Модель построена на программном стеке AMD ROCm и использует эффективные распределённые методы обучения, включая обучение с подкреплением, запущенное на четырёх узлах MI300X (по 8 GPU в каждом).

Наследуя архитектуру Instella 3B Instruct, Instella Math оптимизирована для многошагового логического анализа, решения математических задач и работы с цепочками рассуждений. Процесс обучения включает две стадии контролируемой донастройки и три этапа обучения с подкреплением по алгоритму GRPO.

Шаги обучения Instella Math
Шаги обучения Instella Math

Файнтюнинг с надзором

Для Instella Math применили двухэтапную схему донастройки, чтобы постепенно развивать у Instella 3B Instruct способность к рассуждению. На первом этапе проводилась инструкционная донастройка с охватом математической тематики. На втором — модель обучали выдавать глубокий анализ и чётко структурированные логические шаги, необходимые для решения задач уровня математических олимпиад.

Этап 1: инструкционная донастройка с OpenMathInstruct 2

На первом этапе файнтюнинга с надзором (supervised finetuning, SFT) модель обучалась точно следовать инструкциям и формату «запрос — ответ» или «задача — решение». В качестве датасета выбрали OpenMathInstruct 2, содержащий 14 миллионов пар «задача — решение», сгенерированных на основе тренировочных наборов GSM8K и MATH. Корпус охватывает широкий спектр тем — от арифметики и алгебры до теории вероятностей и анализа.

Этап 2: глубокие рассуждения с длинным контекстом на AM DeepSeek R1 Distilled

Второй этап файнтюнинга с надзором был нацелен на усиление логических навыков модели. Для этого использовали AM DeepSeek R1 Distilled 1.4M — масштабный набор сложных задач высокого качества. На данном этапе длину контекста увеличили с 4000 до 32 000 токенов, чтобы модель могла обучаться на длинных цепочках рассуждений, дистиллированных из крупных специализированных моделей вроде DeepSeek R1.

Обучение с подкреплением

Этап 1: GRPO с 8 вариантами развёртывания и 8K токенов на Big Math

На первом этапе обучения с подкреплением, применив алгоритм group relative policy optimization (GRPO), модель обучили на наборе Big Math RL Verified — тщательно отобранной коллекции сложных многошаговых математических задач. Для отдельно взятого запроса модель генерировала 8 развёрнутых ответов, каждый объёмом до 8 тысяч токенов, что позволяло исследовать разные траектории рассуждений. Обучение велось в течение 1200 шагов GRPO, с использованием разработанных Prime RL правил вознаграждения, поощряющих корректные решения в заданном формате. Процесс распределялся на 16 GPU MI300X в составе 2 узлов, а библиотеки VERL и VLLM обеспечивали стабильный и эффективный сбор развёрток, оценку наград и обновление политики.

Этап 2: GRPO с расширением до 16 развёртываний и 16K токенов на DeepMath

Чтобы выйти к пределам возможностей длинных цепочек рассуждений, провели второй этап GRPO — на датасете DeepMath. Здесь для каждого запроса создавалось 16 вариантов ответа объёмом до 16 тысяч токенов. Эта стадия была нацелена на максимальное раскрытие потенциала модели в глубоком математическом анализе — решении задач, требующих длинных выводов, вложенных логических шагов или подобия формальных доказательств. Обучение шло на 32 GPU MI300X в составе 4 узлов и продолжалось 600 шагов GRPO.

Этап 3: GRPO с 16 развёртываниями и 16K токенов на DeepScaleR

Для повышения точности на задачах уровня международных олимпиад запустили третий этап GRPO на наборе DeepScaleR, содержащем оригинальные задачи из AIME (1984–2023) и AMC (до 2023 года). Как и на втором этапе, модель генерировала 16 развёрток по 16 тысяч токенов каждая. Обучение велось на 32 GPU MI300X (4 узла) и длилось 740 шагов GRPO.

Результаты тестов Instella Math
Результаты тестов Instella Math

С использованием той же методики оценки, что и в DeepScaleR 1.5B, в таблице приведена точность Pass@1, усреднённая по 16 ответам. Instella Math демонстрирует конкурентные результаты в сравнении с ведущими компактными открытыми моделями вроде Deepseek R1 Distilled Qwen 1.5B, Still 3 1.5B, DeepScaleR 1.5B и SmolLM3 3B.

Обучение с подкреплением показало высокую эффективность: Instella Math улучшила результат своей версии в сравнении с Instella Math SFT на 10,81 пункта, тогда как у DeepScaleR прирост над базовой моделью (Deepseek R1 Distilled Qwen 1.5B) составил лишь 6,22 пункта.

Показатели Instella Math на бенчмарке TTT Bench. Pass@1 рассчитан на основе 16 попыток ответов на вопросы
Показатели Instella Math на бенчмарке TTT Bench. Pass@1 рассчитан на основе 16 попыток ответов на вопросы

Также Instella Math протестировали на новом бенчмарке TTT Bench, оценивающем стратегическое, пространственное и логическое мышление. Примечательно, что, не получив ни одного примера обучающих данных в стиле TTT Bench или аналогичных стратегических игр на любом из подготовительных этапов, Instella Math показала лучший результат среди всех протестированных моделей.

И что особенно важно, как и Olmo2 и SmolLM 3B, Instella Math полностью открытая языковая модель — в плане тренировочных данных базовой версии (Instella 3B), файнтюнинга с надзором, а также этапов обучения с подкреплением. В отличие от Instella Math, многие конкуренты публикуют только готовые образы моделей, оставляя закрытыми данные базового обучения (например, Qwen 1.5B) и процессы дистилляции для рассуждений (например, Deepseek R1).


Делегируйте рутинные задачи вместе с BotHub! Сервис доступен без VPN, принимаются российские карты. По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас!

Теги:
Хабы:
+3
Комментарии1

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin