Сегодня мы открываем доступ к четвёртому поколению наших больших языковых моделей: более мощная YandexGPT 4 Pro и облегчённая YandexGPT 4 Lite уже доступны через API в Yandex Cloud. Постепенно пользователям платформы станут доступны все их возможности. А первым сервисом Яндекса, где появится YandexGPT 4, станет Алиса с опцией «Про».
Новое семейство моделей умеет обрабатывать более сложные запросы, работать с расширенным контекстом, поддерживает скрытые рассуждения и вызов функций для работы с внешними инструментами. Нашей команде удалось значительно улучшить качество ответов: YandexGPT 4 Pro в 70% случаев отвечает лучше своей прошлой версии, а YandexGPT 4 Lite в среднем отвечает не хуже, чем самая мощная модель предыдущего поколения.
Вместе с Андреем Бутом @andbout, руководителем команды YandexGPT Alignment, кратко расскажем, что мы сделали для улучшения ответов и решения более сложных запросов, покажем результаты замеров качества и сравнения с другими моделями.
Что показали внутренние замеры
Есть два основных способа замера качества языковых моделей.
Бенчмарки — по сути, это тесты, которые дают выбрать ответ из закрытого списка или определяют правильность ответа по заранее определённому алгоритму, например, по регулярному выражению или проверке соответствия формата. Тестировать удобно, но часто это совсем не близко к реальным сценариям, где может быть важен стиль ответа или нет однозначных критериев выполнения задания.
Side by Side — попарные сравнения, где модели отвечают на одни и те же вопросы, а эксперты вслепую выбирают лучший. Ближе к реальным сценариям, но оценка может быть субъективной, так как эксперты тоже люди.
Поэтому на внутренних тестах моделей мы стараемся учесть оба способа и следим за сложностью и разнообразием запросов в наборе промтов.
В том числе в датасете для Side‑by‑Side‑замеров были такие категории запросов:
«Базовая умность» — универсальный набор, где по чуть‑чуть есть все возможные запросы, от рекомендаций фильма до подбора рифм.
Продуктовые задачи — прикладные сценарии применения модели, которые встречаются у пользователей облачной платформы: скажем, суммаризация разговоров в колл‑центре или подбор заголовков.
Разметки и классификации — задачи на работу с текстом с большой, сложной и подробной инструкцией: например, для подготовки датасетов.
RAG — запросы, на которые модель должна отвечать с использованием документов, поданных в неё. Например, ответы пользователям на первой линии техподдержки по базе знаний.
Такое разнообразие помогло улучшить качество ответов по сравнению с предыдущим поколением, а по нескольким типам задач — вплотную приблизиться к GPT-4o.
По прикладным сценариям мы также добились паритета с моделями Llama, которые являются наиболее ходовыми в продуктах.
Что показали результаты бенчмарков
На бенчмарках также видно сильный прирост по отношению к GPT-4o.
Что уже можно попробовать в облаке
Длинный контекст. Наша команда в четыре раза увеличила количество токенов, которое YandexGPT 4 Pro может обрабатывать в промте, — с 8 до 32 тысяч. Теперь модель лучше работает с длинными сложными запросами и анализирует большие объёмы данных — порядка 60 страниц текста.
Новые возможности помогают лучше решать задачи классификации, в том числе для речевой аналитики. Например, ответы на вопросы, как оператор решил задачи клиентов, могут требовать более длинного контекста.
Асинхронные запросы поддерживают 32 тысячи токенов по умолчанию. Для вызова длинного контекста в синхронной выдаче нужно указать в коде вызова специальный URI: gpt://<идентификатор_каталога>/yandexgpt-32k/rc
.
Более подробно о том, как обратиться к большим языковым моделям через API, — в документации.
Работа с внешними источниками. В RAG‑сценариях удалось значительно снизить долю галлюцинаций и повысить подтверждённость ответов — модель YandexGPT 4 Pro в 67% случаев выигрывает у модели предыдущего поколения на RAG‑задачах.
Как обучаем новое поколение моделей и что планируем дальше
Повышаем эффективность обучения. Тренировки YandexGPT 4 проходили с использованием опенсорс‑библиотеки Яндекса YaFSDP. Инструмент позволяет чаще проводить эксперименты с обучением, ускорять и улучшать все этапы машинного обучения.
За счёт комплекса инструментов этап alignment получилось ускорить и проводить его за несколько часов вместо нескольких дней.
На этапе pretraining в датасет добавили новые качественные данные.
В основном обучающем датасете увеличили долю длинных документов, чтобы научить нейросеть работать с большим контекстом, добавили свежие данные, полезные для определённых навыков.
Датасет для стадии supervised fine‑tuning поменялся: мы увеличили число написаний в два раза и придумали новые способы выбора среди них самых полезных и качественных.
Не обошлось без изменений и в RLHF — о них расскажем подробнее позже.
Используем скрытые рассуждения. В тренировке моделей применялись данные с подробными пошаговыми рассуждениями — Chain‑of‑thoughts. Благодаря этому в новом поколении улучшилась способность моделей анализировать проблему, выделять основные этапы решения и рассуждать, как реализовать эти этапы. На определённых видах задач это привело к повышению качества ответов в тех случаях, когда ответ не очевиден и требует дополнительного анализа. Например, для решения математических задач или в работе над научными исследованиями.
В будущем мы добавим возможность включать через API Yandex Cloud скрытые рассуждения и видеть всю цепочку рассуждений модели.
Тестируем режим вызова функций (function calling). В ближайшее время мы также добавим в модель возможность вызова функций. Они необходимы для создания умных ассистентов, которые позволяют применять внешние инструменты и API. Разработчики смогут указать список функций и параметры вызова. А уже клиент вызовет сгенерированную функцию. Полностью возможности вызова функций откроются позднее, по результатам тестирования.
Вы можете интегрировать YandexGPT 4 в свои продукты через API в сервисе Foundation Models. Попробовать новые модели можно уже сейчас: в консоли или c использованием URI модели: gpt://<идентификатор_каталога>/yandexgpt/rc.
В ближайший месяц модели доступны для тестирования в режиме Release Candidate, чтобы пользователи третьего поколения YandexGPT могли запланировать переход на новую версию. В дальнейшем модели YandexGPT 4 станут основными и будут доступны уже в режиме Latest.