dolotov 28 мая 2024 в 11:59

Яндекс представил YandexGPT 3 Lite

3 мин

7.1K

Блог компании ЯндексПроектирование API*Машинное обучение*Искусственный интеллектNatural Language Processing*

Сегодня мы открыли доступ к YandexGPT Lite третьего поколения. Облегченная версия нашей большой языковой модели доступна через API в Yandex Cloud. Новая модель полезна в сценариях, где важна скорость ответа: например, её можно использовать в чат-ботах, для проверки орфографии или анализа данных. Это оптимальная по цене и качеству генеративная модель Яндекса для решения рутинных задач.

Чуть более подробно о результатах сравнения с другими моделями, а также об изменениях в процессе обучения и архитектуре — в этой новости.

Результаты внутренних замеров

Новая модель по многим параметрам превосходит YandexGPT 2 Lite — облегчённую модель предыдущего поколения. По итогам теста YaMMLU_ru (русскоязычной версии международного эталонного теста MMLU), новая модель даёт на 6 п.п. больше верных ответов, чем модель предыдущего поколения.

* модель стала хуже проходить тест с момента замера с YandexGPT 3 Pro в марте — результат снизился на 10 п.п.

Модели сравнивали также по методике Side by Side: нейросети отвечали на одни и те же вопросы, а эксперты выбирали лучший ответ. В среднем YandexGPT 3 Lite отвечала лучше, чем YandexGPT 2 Lite, в 68% случаев.

Эксперты оценивали также, насколько хорошо новая модель справляется с задачами классификации, генерации контента, ответами на вопросы и другими основными типами бизнес-задач. Вот как выглядят результаты тестирования:

Замеры с GigaChat Pro проводили 27 мая через публичный API на корзине запросов, которая репрезентативна потребностям пользователей как B2C, так и B2B-сервисов

Кроме того, новая модель допускает меньше орфографических и фактических ошибок, чем модель второго поколения YandexGPT 2.

Изменения в архитектуре и процессе обучения модели

Как и все модели нашего третьего поколения, YandexGPT 3 Lite обучали в два этапа: pretraining (предварительное обучение) и alignment (выравнивание модели). Второй этап, в свою очередь, состоит из supervised learning (обучение с учителем) и reinforcement learning (обучение с подкреплением). При этом улучшения были на всех этапах обучения.

Для этапа pretraining мы собрали более чистый датасет. Это стало возможным благодаря увеличению фактовой полноты и более качественному подбору разнообразных данных с особым вниманием к важным темам и срезам. На этом же этапе мы впервые применили технологию curriculum learning, позволяющую поэтапно усложнять данные, а также улучшили модель для оценки качества ответов нейросети. Кроме того, модель при обучении прошла больше итераций с меньшим размером батча (пачки документов).

Для этапа alignment мы увеличили качество, разнообразие и сложность задач, которые используются для дообучения. Их количество выросло в два раза. В этом нам помогли AI-тренеры, которые оценивали ответы самой модели и писали примеры эталонных ответов. Для reinforcement learning обучили отдельную reward-модель, которая оценивает качество ответов основной модели. Благодаря чему основная модель существенно улучшилась через механизм наград и штрафов. (Кстати, сегодня коллеги опубликовали статью с подробным разбором нашего опыта подготовки RL для alignment. Рекомендую.)

А ещё мы обновили архитектуру модели, добавив технологию Grouped Query Attention. Она позволяет эффективно обрабатывать более длинные последовательности и ускорить работу модели без просадки качества.

Сценарии применения

YandexGPT 3 Lite подходит для разных заказчиков: от небольших компаний до крупных организаций. С её помощью можно оптимизировать такие задачи, как консультация клиентов в чате и по телефону, подготовка ответов для службы поддержки, создание маркетинговых материалов или дайджеста рабочих встреч. Крупные компании со сложными бизнес-процессами и большим потоком информации могут применять её для анализа данных, необходимых для принятия решений.

API

Вы можете интегрировать YandexGPT 3 Lite в свои продукты через API в сервисе Foundation Models. Новая модель заменит предыдущую в течение месяца, но попробовать ее можно уже сейчас (в консоли или используйте следующий URI модели: gpt://<идентификатор_каталога>/yandexgpt-lite/rc). Стоимость использования Lite-версии осталась прежней — 20 копеек за тысячу токенов. Новые пользователи Yandex Cloud смогут бесплатно протестировать её в демо-режиме.

Хабы:

Яндекс представил YandexGPT 3 Lite

Результаты внутренних замеров

Изменения в архитектуре и процессе обучения модели

Сценарии применения

API

Полезные ссылки

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Яндекс запустил Нейро. Рассказываем, как он работает

Как мы научили YandexGPT пересказывать видео

Информация