BarakAdama 15 апр в 12:40

Тестируем бету YandexGPT 5 с режимом рассуждений

3 мин

6.5K

Блог компании ЯндексМашинное обучение*Искусственный интеллектIT-компании

Сегодня мы начинаем публичное бета-тестирование нашей новой модели — YandexGPT 5 с режимом рассуждений. Мы обучили её анализировать задачи и раскладывать их на последовательность шагов, которые упрощают поиск ответов. Режим рассуждений подходит для:

• сложных вопросов без очевидного решения,
• задач, требующих логических рассуждений (например, математических),
• создания стратегий и планов,
• анализа противоречивых данных,
• обработки больших объемов разрозненной информации.

Попробовать новую модель можно в чате с Алисой при наличии подписки Плюс с опцией Про. Теперь вы не только увидите ответ Алисы, но и сможете следить за ходом её мысли в реальном времени. Кроме того, в чате можно дополнительно выбрать режим поиска в интернете. В этом случае рассуждающая модель будет генерировать запросы в поиск Яндекса и опираться в ответах как на собственные знания, так и на найденную в сети информацию.

Чуть более подробно о том, как как устроен режим размышлений в Алисе, какие ещё модели доступны на выбор и какие первые выводы мы сделали из обучения новой reasoning-модели — под катом этой новости.

Как мы учим модель рассуждать

Бета-версия нашей новой рассуждающей модели построена на базе YandexGPT 5 Pro. Мы много экспериментируем с различными режимами обучения reasoning-модели, поэтому всю историю и финальные детали расскажем отдельной статьей уже после завершения бета-тестирования. Однако мы уже можем поделиться несколькими решениями, в которые сейчас верим:

В качестве отправной точки мы используем SFT-чекпоинт, а не претрейн. Потому что считаем, что у этого подхода большой потенциал. Об этом говорят как наш опыт, так и работы коллег по индустрии.
На стадии SFT растим навыки модели с помощью запросов, для которых можно однозначно определить ответ. Это не только про математику и код, но и про другие категории запросов, которые популярны у пользователей наших сервисов.
На стадии RL мы экспериментируем как с онлайн-ризонингом (пробуем GRPO, вдохновившись статьей о R1), так и с оффлайн-подходами (видим пользу на экспериментах). Здесь мы собираем пары запросов со стадии SFT и ответов к ним, сгенерированных с помощью YandexGPT 5 Pro.
В завершение — финальная стадия RLHF, подобная той, что мы уже описывали для YandexGPT 5 Pro. Это помогает модели справляться и с теми запросами, которые не подразумевают однозначный ответ.

Также отмечу, что наша работа над моделью YandexGPT 5 с режимом рассуждений ещё продолжается. Впереди новые эксперименты с различными комбинациями обучения.

Где попробовать новую модель

Немного поговорим о том, как модель применяется на практике в Алисе. Если у вас активна подписка Плюс с опцией Про, то в поле ввода сообщения в чате с Алисой появятся две дополнительные кнопки — «Рассуждать (бета)» и «Искать в сети».

В режиме «Рассуждать» всё просто: бета-версия нашей новой reasoning-модели анализирует запрос пользователя, выстраивает логическую цепочку, обосновывает тезисы и только потом приходит к окончательному ответу. Пользователь при этом может следить за ходом размышлений.

Если дополнительно к рассуждениям выбрать ещё и режим «Искать в сети», то процесс генерации ответа становится другим. Сначала технологии Алисы перефразируют (уточняют) вопрос пользователя с учётом истории диалога в чате. Затем в дело вступает наша новая модель, которая в режиме рассуждений и с учётом всего доступного ей контекста формулирует десять запросов, результаты поиска по которым могут быть полезны при составлении ответа. После этого поисковые технологии Яндекса ищут информацию по этим запросам. На последнем шаге рассуждающая модель вновь анализирует всю собранную информацию и пишет ответ. Причём факты из сети она помечает ссылками на источники.

Как выбрать рассуждающую модель в Алисе

YandexGPT 5 с режимом рассуждений пока ещё на этапе бета-тестирования. Активировать именно эту модель можно в настройках чата с Алисой.

Мы считаем, что полезно тестировать новый режим сразу на нескольких моделях. Поэтому там же — в настройках чата с Алисой — вы можете выбрать альтернативную модель DeepSeek R1, доступную в опенсорсе и развёрнутую на инфраструктуре Яндекса. Она существенно тяжелее, чем наша модель из семейства YandexGPT 5, и требует многократно больше ресурсов для инференса. Тем не менее для нас это возможность собрать отзывы и примеры реальных задач, которые пригодятся в процессе отладки нового режима и доработки наших моделей.

Если не указать конкретную модель в настройках, то она будет выбрана случайным образом.

Хабы:

Тестируем бету YandexGPT 5 с режимом рассуждений

Как мы учим модель рассуждать

Где попробовать новую модель

Как выбрать рассуждающую модель в Алисе

Полезные ссылки

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Открываем instruct-версию YandexGPT 5 Lite

Информация