Pull to refresh

Comments 12

А под какими лицензиями распространяются сами модели (их двоичные файлы)?

Спасибо. Почему-то эту информацию бывает кратко сложно найти...

А там же в репе лежит файл «License».

Добрый день!
Отличная статья, и спасибо за открытые модели.
Один момент, почему-то не удаётся скачать модели ruBERT-base и ruBERT-large, хотя с ruT5-base, ruT5-large и ruRoBERTa всё отлично удаётся.

Все чекпойнты в формате pytorch transformers. Может у вас tf используется?

вот пример кода:

from transformers import BertForMaskedLM,BertTokenizer, pipeline model=BertForMaskedLM.from_pretrained('sberbank-ai/ruBert-large') tokenizer=BertTokenizer.from_pretrained('sberbank-ai/ruBert-large')

unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)

unmasker("Привет! Я модель bert. Я много знаю про [MASK] язык.")

Помогло, спасибо!

Остальное грузил через

from transformers import AutoModel
bert = AutoModel.from_pretrained(...

Такое срабатывало со всеми бертами.

В любом случае, спасибо за модели и помощь!

Не мог бы кто-либо помочь математику инди-исследователю?

У меня есть мысли, как построить модель, объясняющую взаимное присутствие одних слов в предложении другими. Она достаточно общая, чтобы быть применимой и к другими задачам статистического поиска причинно-следственных связей. Да, наверное нейросети делают это уже достаточно хорошо, но ведь они требуют большого объема обучающих данных. Я хотел бы научится на половинке томика "Войны и мира", чтобы иметь энтропийный выигрыш кодирования второй половины. То есть здесь особенно важны методы борьбы с переобучением.

Чтобы приступить к исследованию, для начала нужно разбить текст на предложения, а еще желательно нормализовать слова. Собственно, как для не прикладного программиста, обе эти простые на первый взгляд задачи - для меня большая головная боль.

Не мог бы кто-нибудь, кто "в теме" и знаком с соответствующими библиотеками переслать мне txt файлик, в котором первый том войны и мира представлен следующим образом:

1)Каждое предложение представлено в файле отдельной строкой;

2)Строка состоит из разделенных табом данных в фигурных скобках {},

3)внутри каждой скобки находится очередное слово текущего предложения и через запятую - его нормализованный вид.

Буду признателен за помощь!

А на каких задачах предобучалась T5?

У меня возникла проблема с работой токенизатора ruRoberta, не знаете в чем может быть причина?

Sign up to leave a comment.