Comments / Profile of Dmitry

1. Модель 1.7B, как писал выше, быстро инференсится на современных гпу. В ваших NLP сервисах можно подменить эту модель вместо например ruT5-large и ожидать, что метрики качества вырастут. Сравните результаты на RSG.
2. Для обучения мы брали большой корпус русского языка. В остально не понял вопроса.
А какой несходимости вы имеете ввиду?

Look

FRED-T5. Новая SOTA модель для русского языка от SberDevices

Dmitry_zm Apr 20 2023 at 10:30

50k токенов вполне хватает для русского языка. У GPT4 мультилингво словарь. По поводу увеличения токенов не понял немного.

Look

FRED-T5. Новая SOTA модель для русского языка от SberDevices

Dmitry_zm Apr 20 2023 at 10:28

Модель 1.7B вполне себе промопригодна. На А100 считается быстро. Изначально выбирая архитектуру мы в это и целились.

Look

FRED-T5. Новая SOTA модель для русского языка от SberDevices

Dmitry_zm Apr 19 2023 at 21:32

Смысл в оценке возможностей модели обобщиться на трейн сет. Мультилингво модели можно брать и нужно. Для правильного сравнения возможностей на RSG она не должна быть предварительно затюнена на похожие сеты в других языках, например английский SuperGlue.
Мы, кстати, несколько мультилингво моделей замерили на RSG xlm-roberta-large (Facebook) finetune и mdeberta-v3-base (Microsoft) finetune.

Look

Языковая модель от Сбера лучше других понимает тексты на русском языке

Dmitry_zm Apr 1 2023 at 15:02

На решение Golden Transformer v2.0 не следует ориентироваться, когда сравниваете FRED-T5, ибо в нем использовались сторонние данные, перевод сета и модели для английского языка. Правильно смотреть на строки, где в качестве трейна использовался только сет с RSG и одна модель.

Look

Языковая модель от Сбера лучше других понимает тексты на русском языке

Dmitry_zm Apr 1 2023 at 14:56

Да, верно. FRED-T5 это в первую очередь модель для файнтюнов на таски. Если у вас пайплан выстроен на ruT5, то можно просто подменить на FRED-T5 и получить выше метрики.

Look

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Dmitry_zm Aug 3 2021 at 11:59

Модель обучалась на задаче denoising, как в пейпере описано.

Look

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Dmitry_zm Jul 15 2021 at 15:16

Все чекпойнты в формате pytorch transformers. Может у вас tf используется?

вот пример кода:

from transformers import BertForMaskedLM,BertTokenizer, pipeline model=BertForMaskedLM.from_pretrained('sberbank-ai/ruBert-large') tokenizer=BertTokenizer.from_pretrained('sberbank-ai/ruBert-large')

unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)

unmasker("Привет! Я модель bert. Я много знаю про [MASK] язык.")

Look

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

Dmitry_zm Jul 15 2021 at 10:31

Apache 2.0

Look