«Сбер» открыл доступ к новой языковой ИИ-модели ruGPT-3.5 / Хабр

Компания «Сбер» открыла доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Дообученная версия этой модели лежит в основе чат‑бота GigaChat. Кроме того, «Сбер» выложил новую версию модели mGPT 13B. Об этом информационной службе Хабра рассказали в пресс‑службе IT‑компании. mGPT 13B представляет собой самую большую языковую модель из семейства многоязычных моделей «Сбера». Обе модели доступны на HuggingFace, и их могут использовать все разработчики.

Многоязычная версия нейросети GPT-3 под названием mGPT была представлена «Сбером» 21 апреля 2022 года. Она способна генерировать тексты на 61 языке мира, включая языки народов России и стран СНГ. Тогда «Сбер» уточнял, что mGPT — это первая в мире генеративная модель, которая поддерживает такое количество языков.

24 апреля 2023 года «Сбер» объявил о выпуске своего аналога ChatGPT — GigaChat. По заявлению компании, она первой из российских техногигантов выпустила собственную версию мультимодальной нейросети. На первом этапе сеть будет доступна в режиме тестирования по приглашениям.

Разработчики заявили, что внутри чат GigaChat целый ансамбль моделей. Первая — NeONKA (NEural Omnimodal Network with Knowledge‑Awareness) — для создания которой выбрали базовую языковую модель, дообученную на инструктивных данных.

Вторая — Russian Generative Pretrained Transformer версии 3.5 с 13 млрд параметров (ruGPT-3.5 13B), как раз и есть новая версия нейросети ruGPT-3 13B. Эта модель генерации текста для русского языка основана на доработанной исследователями «Сбера» языковой модели архитектуры GPT-3 от OpenAI. Она содержит 13 млрд параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Модель обучена на текстовом корпусе размером 1 Тб. Помимо использованной для обучения ruGPT-3, была добавлена большая коллекция текстовых данных из открытых источников. Например, в коллекцию вошла часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Подробнее о модели можно прочитать в статье «Сбера».

Помимо своих текстовых моделей 12 июня IT‑комания представила новую версию нейросети Kandinsky 2.2. С помощью новой версии генеративной модели можно создавать фотореалистичные изображения с высоким разрешением и изменять соотношение сторон при генерации.