Comments 12
А под какими лицензиями распространяются сами модели (их двоичные файлы)?
Добрый день!
Отличная статья, и спасибо за открытые модели.
Один момент, почему-то не удаётся скачать модели ruBERT-base и ruBERT-large, хотя с ruT5-base, ruT5-large и ruRoBERTa всё отлично удаётся.
Все чекпойнты в формате pytorch transformers. Может у вас tf используется?
вот пример кода:
from transformers import BertForMaskedLM,BertTokenizer, pipeline model=BertForMaskedLM.from_pretrained('sberbank-ai/ruBert-large') tokenizer=BertTokenizer.from_pretrained('sberbank-ai/ruBert-large')
unmasker = pipeline('fill-mask', model=model,tokenizer=tokenizer)
unmasker("Привет! Я модель bert. Я много знаю про [MASK] язык.")
Не мог бы кто-либо помочь математику инди-исследователю?
У меня есть мысли, как построить модель, объясняющую взаимное присутствие одних слов в предложении другими. Она достаточно общая, чтобы быть применимой и к другими задачам статистического поиска причинно-следственных связей. Да, наверное нейросети делают это уже достаточно хорошо, но ведь они требуют большого объема обучающих данных. Я хотел бы научится на половинке томика "Войны и мира", чтобы иметь энтропийный выигрыш кодирования второй половины. То есть здесь особенно важны методы борьбы с переобучением.
Чтобы приступить к исследованию, для начала нужно разбить текст на предложения, а еще желательно нормализовать слова. Собственно, как для не прикладного программиста, обе эти простые на первый взгляд задачи - для меня большая головная боль.
Не мог бы кто-нибудь, кто "в теме" и знаком с соответствующими библиотеками переслать мне txt файлик, в котором первый том войны и мира представлен следующим образом:
1)Каждое предложение представлено в файле отдельной строкой;
2)Строка состоит из разделенных табом данных в фигурных скобках {},
3)внутри каждой скобки находится очередное слово текущего предложения и через запятую - его нормализованный вид.
Буду признателен за помощь!
А на каких задачах предобучалась T5?
У меня возникла проблема с работой токенизатора ruRoberta, не знаете в чем может быть причина?
ruT5, ruRoBERTa, ruBERT: как мы обучили серию моделей для русского языка