Pull to refresh

Comments 6

Модель доступна для скачивания в формате для tensorflow, pytorch, и tf-hub.

Интересно про SBERT, не могли бы раскрыть подробности:


  1. Сравнивали с RuBERT от DeepPavlov http://docs.deeppavlov.ai/en/master/features/models/bert.html?
  2. Какой объем обучающих текстов? Какой состав, Taiga, Lenta?
  3. Ванильный BERT, не RoBERTa?
  4. Код из Huggingface?
  5. Сколько, каких GPU, сколько тренировали?
  6. Тренировали с нуля или как DeepPavlov инициировали multilungual?
1. Сравнивали, на наших задачах SBERT оказался сильнее RuBERT. В ближайшее время мы опубликуем результаты модели SBERT на Russian SuperGLUE.
2. В состав обучающих данных вошли вошли Taiga, Lenta, OpenSubtitles, Wiki и несколько больших проприетарных датасетов, всего более 16 млрд токенов.
3. Ванильный
4. Нет
5. Сперва неделя претрейна на 32 V100 [Кристофари], затем 50 часов тюнинга на 16 V100 [DGX-2]
6. Собирали словарь и тренировали модель с нуля
В открытый доступ выложены модели, которые легли в основу Салюта, или в ассистентах на продакшене более мощные?
Опубликованная модель похожа на одну из моделей, применяемых в Салюте.

А 24 токена не маловато? Современные модели используют BPE или WordPiece, то бишь реальных слов будет меньше чем 24, что не уместит предложения средней и большой длины.

Sign up to leave a comment.