Comments 6
Модель доступна для скачивания в формате для tensorflow, pytorch, и tf-hub.
Интересно про SBERT, не могли бы раскрыть подробности:
- Сравнивали с RuBERT от DeepPavlov http://docs.deeppavlov.ai/en/master/features/models/bert.html?
- Какой объем обучающих текстов? Какой состав, Taiga, Lenta?
- Ванильный BERT, не RoBERTa?
- Код из Huggingface?
- Сколько, каких GPU, сколько тренировали?
- Тренировали с нуля или как DeepPavlov инициировали multilungual?
0
1. Сравнивали, на наших задачах SBERT оказался сильнее RuBERT. В ближайшее время мы опубликуем результаты модели SBERT на Russian SuperGLUE.
2. В состав обучающих данных вошли вошли Taiga, Lenta, OpenSubtitles, Wiki и несколько больших проприетарных датасетов, всего более 16 млрд токенов.
3. Ванильный
4. Нет
5. Сперва неделя претрейна на 32 V100 [Кристофари], затем 50 часов тюнинга на 16 V100 [DGX-2]
6. Собирали словарь и тренировали модель с нуля
2. В состав обучающих данных вошли вошли Taiga, Lenta, OpenSubtitles, Wiki и несколько больших проприетарных датасетов, всего более 16 млрд токенов.
3. Ванильный
4. Нет
5. Сперва неделя претрейна на 32 V100 [Кристофари], затем 50 часов тюнинга на 16 V100 [DGX-2]
6. Собирали словарь и тренировали модель с нуля
0
В открытый доступ выложены модели, которые легли в основу Салюта, или в ассистентах на продакшене более мощные?
0
А 24 токена не маловато? Современные модели используют BPE или WordPiece, то бишь реальных слов будет меньше чем 24, что не уместит предложения средней и большой длины.
0
Видео по мотивам статьи можно посмотреть тут:
https://youtu.be/W3ko2fWWSQI
0
Sign up to leave a comment.
Обучение модели естественного языка с BERT и Tensorflow