Dmitry_zm Jul 15 2021 at 10:00

ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка

5 min

23K

SberDevices corporate blogСбер corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*

+15

Comments 12

nikolay_karelin Jul 15 2021 at 10:24

А под какими лицензиями распространяются сами модели (их двоичные файлы)?

Dmitry_zm Jul 15 2021 at 10:31

Apache 2.0

nikolay_karelin Jul 15 2021 at 13:43

Спасибо. Почему-то эту информацию бывает кратко сложно найти...

oulenspiegel Jul 15 2021 at 14:10

А там же в репе лежит файл «License».

JTDamaja Jul 15 2021 at 15:14

Добрый день!
Отличная статья, и спасибо за открытые модели.
Один момент, почему-то не удаётся скачать модели ruBERT-base и ruBERT-large, хотя с ruT5-base, ruT5-large и ruRoBERTa всё отлично удаётся.

Dmitry_zm Jul 15 2021 at 15:16

Все чекпойнты в формате pytorch transformers. Может у вас tf используется?

вот пример кода:

from transformers import BertForMaskedLM,BertTokenizer, pipeline model=BertForMaskedLM.from_pretrained('sberbank-ai/ruBert-large') tokenizer=BertTokenizer.from_pretrained('sberbank-ai/ruBert-large')

unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)

unmasker("Привет! Я модель bert. Я много знаю про [MASK] язык.")

JTDamaja Jul 15 2021 at 15:27

Помогло, спасибо!

Остальное грузил через

from transformers import AutoModel bert = AutoModel.from_pretrained(...
Такое срабатывало со всеми бертами.

В любом случае, спасибо за модели и помощь!

Sergey_Kovalenko Jul 15 2021 at 20:56

Не мог бы кто-либо помочь математику инди-исследователю?

У меня есть мысли, как построить модель, объясняющую взаимное присутствие одних слов в предложении другими. Она достаточно общая, чтобы быть применимой и к другими задачам статистического поиска причинно-следственных связей. Да, наверное нейросети делают это уже достаточно хорошо, но ведь они требуют большого объема обучающих данных. Я хотел бы научится на половинке томика "Войны и мира", чтобы иметь энтропийный выигрыш кодирования второй половины. То есть здесь особенно важны методы борьбы с переобучением.

Чтобы приступить к исследованию, для начала нужно разбить текст на предложения, а еще желательно нормализовать слова. Собственно, как для не прикладного программиста, обе эти простые на первый взгляд задачи - для меня большая головная боль.

Не мог бы кто-нибудь, кто "в теме" и знаком с соответствующими библиотеками переслать мне txt файлик, в котором первый том войны и мира представлен следующим образом:

1)Каждое предложение представлено в файле отдельной строкой;

2)Строка состоит из разделенных табом данных в фигурных скобках {},

3)внутри каждой скобки находится очередное слово текущего предложения и через запятую - его нормализованный вид.

Буду признателен за помощь!