Pull to refresh
20
0
Дмитрий Змитрович @Dmitry_zm

NLP

Send message

Сертификат минцифры нужно поставить или через яндекс браузер.

  1. Не могу судить на сколько сет для GPT4 был грязным.

  2. А что вы имеете ввиду под распознаванием?

Ребят, возможно, вы найдете ответы на ваши вопросы в канале нашей команды https://t.me/nlpcoreteam. На многие вопросы мы там отвечали уже.

1. Модель 1.7B, как писал выше, быстро инференсится на современных гпу. В ваших NLP сервисах можно подменить эту модель вместо например ruT5-large и ожидать, что метрики качества вырастут. Сравните результаты на RSG.
2. Для обучения мы брали большой корпус русского языка. В остально не понял вопроса.
А какой несходимости вы имеете ввиду?

50k токенов вполне хватает для русского языка. У GPT4 мультилингво словарь. По поводу увеличения токенов не понял немного.

Модель 1.7B вполне себе промопригодна. На А100 считается быстро. Изначально выбирая архитектуру мы в это и целились.

Смысл в оценке возможностей модели обобщиться на трейн сет. Мультилингво модели можно брать и нужно. Для правильного сравнения возможностей на RSG она не должна быть предварительно затюнена на похожие сеты в других языках, например английский SuperGlue.
Мы, кстати, несколько мультилингво моделей замерили на RSG xlm-roberta-large (Facebook) finetune и mdeberta-v3-base (Microsoft) finetune.

На решение Golden Transformer v2.0 не следует ориентироваться, когда сравниваете FRED-T5, ибо в нем использовались сторонние данные, перевод сета и модели для английского языка. Правильно смотреть на строки, где в качестве трейна использовался только сет с RSG и одна модель.

Да, верно. FRED-T5 это в первую очередь модель для файнтюнов на таски. Если у вас пайплан выстроен на ruT5, то можно просто подменить на FRED-T5 и получить выше метрики.

Модель обучалась на задаче denoising, как в пейпере описано.

Все чекпойнты в формате pytorch transformers. Может у вас tf используется?

вот пример кода:

from transformers import BertForMaskedLM,BertTokenizer, pipeline model=BertForMaskedLM.from_pretrained('sberbank-ai/ruBert-large') tokenizer=BertTokenizer.from_pretrained('sberbank-ai/ruBert-large')

unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)

unmasker("Привет! Я модель bert. Я много знаю про [MASK] язык.")

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Works in
Registered
Activity