Наша команда спешит поделиться с Хабром важной новостью — языковая модель от Сбера FRED-T5 (Full-scale Russian Enhanced Denoisers T5) стала лучшей в мире по пониманию текста на русском языке. Речь идёт о результатах проверки главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE. По итогам теста модель проигрывает по точности понимания русского языка только человеку. Подробности — под катом.

Что это за модель?
Сбер уже давно работает с трансформерными моделями. Так, ещё в 2019 году были обучены русскоязычные модели ruBERT и ruGPT-2, а в 2020-м при помощи суперкомпьютера Christofari была создана ruGPT-3. Эта модель существует в разных вариантах, самый большой из них насчитывает 13 млрд параметров.
В отличие от прочих моделей, FRED-T5 содержит кодирующие блоки. А это даёт возможность гораздо более эффективно решать разные задачи в области обработки естественного языка.
Что касается архитектуры модели, то FRED-T5 реализована на базе нейросети T5 и имеет 1,7 миллиарда параметров и 24 слоя. Обучали модель на задачах восстановления случайно удалённых фрагментов текста на суперкомпьютере Christofari Neo. Процесс обучения занял шесть недель и потребовал использования обучающей выборки, которая содержала 300 Гб текста.
Подобная задача называется MoD (Mixture of Denoisers). Этот подход был предложен ранее командой из Google в модели UL2. Наши исследователи реализовали его с рядом существенных изменений, основанных на результатах собственных исследований.
«Ведущие исследовательские центры в области машинного обучения в последние годы создают всё более и более крупные нейронные языковые модели. Количество параметров самых больших монолитных нейросетей уже перевалило за 500 миллиардов и продолжает расти. Это беспрецедентные в истории человечества вычислительные проекты.
Но прогресс заключается не только в создании всё более огромных нейросетевых монстров, но и в совершенствовании архитектур сетей и методов их обучения.
Благодаря этому самые современные модели при том же количестве параметров интеллектуально превосходят своих предшественников. Хорошим примером этого эффекта является нейросеть FRED-T5, которая при сравнительно скромном по нынешним меркам числе параметров стала лидером в понимании русского языка», — рассказал Сергей Марков, директор Управления экспериментальных систем машинного обучения SberDevices.
Подробности о рейтинге нейросетей Russian SuperGLUE
Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются исследователи данных, работающие с русскоязычными нейросетями.