aphex34 Nov 12 2020 at 10:37

Обучение модели естественного языка с BERT и Tensorflow

9 min

27K

SberDevices corporate blogMachine learning*Natural Language Processing*

+18

Comments 6

alexanderkuk Nov 18 2020 at 11:25

Модель доступна для скачивания в формате для tensorflow, pytorch, и tf-hub.

Интересно про SBERT, не могли бы раскрыть подробности:

Сравнивали с RuBERT от DeepPavlov http://docs.deeppavlov.ai/en/master/features/models/bert.html?
Какой объем обучающих текстов? Какой состав, Taiga, Lenta?
Ванильный BERT, не RoBERTa?
Код из Huggingface?
Сколько, каких GPU, сколько тренировали?
Тренировали с нуля или как DeepPavlov инициировали multilungual?

aphex34 Nov 18 2020 at 14:13

1. Сравнивали, на наших задачах SBERT оказался сильнее RuBERT. В ближайшее время мы опубликуем результаты модели SBERT на Russian SuperGLUE.
2. В состав обучающих данных вошли вошли Taiga, Lenta, OpenSubtitles, Wiki и несколько больших проприетарных датасетов, всего более 16 млрд токенов.
3. Ванильный
4. Нет
5. Сперва неделя претрейна на 32 V100 [Кристофари], затем 50 часов тюнинга на 16 V100 [DGX-2]
6. Собирали словарь и тренировали модель с нуля

gotz Nov 18 2020 at 15:17

В открытый доступ выложены модели, которые легли в основу Салюта, или в ассистентах на продакшене более мощные?

aphex34 Nov 20 2020 at 14:21

Опубликованная модель похожа на одну из моделей, применяемых в Салюте.

QtRoS Dec 24 2020 at 00:15

А 24 токена не маловато? Современные модели используют BPE или WordPiece, то бишь реальных слов будет меньше чем 24, что не уместит предложения средней и большой длины.

Andriljo Feb 24 2021 at 12:01

Видео по мотивам статьи можно посмотреть тут:
https://youtu.be/W3ko2fWWSQI