Яндекс выложил в свободный доступ нейросеть YaLM 100B, предназначенную для генерации и обработки текстов на русском и английском языках. В пресс-службе компании Хабру сообщили, что на данный момент это самая большая GPT-подобная модель, находящаяся в открытом доступе.
Представители Яндекса рассказали, что YaLM 100В содержит 100 млрд параметров — больше, чем любая другая существующая модель для обработки русского языка. Такие масштабы позволяют решать с помощью YaLM 100В большой круг задач. К примеру, нейросеть может придумать рекламный слоган, описать товар в онлайн-магазине, сочинить стих и сгенерировать текст на любую тему. Кроме всего прочего, система может классифицировать тексты по стилю речи.
Специалисты Яндекса используют YaLM 100В более чем в 20 проектах, включая поисковик и голосового ассистента Алису. Также нейросеть генерирует рекламные объявления, готовит быстрые ответы на странице поиска и помогает сотрудникам службы поддержки отвечать на запросы.
Для обучения такой большой языковой модели требуются огромные ресурсы, опытные специалисты и годы работы. А нам важно, чтобы доступ к современным технологиям был не только у крупнейших IT-компаний, а у всего сообщества исследователей и разработчиков. Выкладывая YaLM 100B в открытый доступ, мы рассчитываем, что это даст толчок развитию генеративных нейросетей.
Генеральный директор Яндекс Технологий Петр Попов
YaLM обучали на суперкомпьютерах Яндекса. В процессе обучения нейросеть обработала 2 ТБ текстовых данных, которые были взяты из Сети и открытых наборов данных. Систему обучали на русском и английском языках. Теперь доступ к YaLM 100B открыт и проект можно найти на GitHub.
На этой же неделе разработчики Meta* выложили в открытый доступ схожую языковую модель, содержащую 66 млрд параметром, что заметно меньше, чем у YaLM от Яндекса — на 100 млрд параметров.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
* признана экстремистской организацией, её деятельность в России запрещена
** запрещены в России