Pull to refresh

Comments 2

Статья неплохая, странно, что в комментариях нет активности.


По ходу чтения было интересно, как именно применяется BERT, в частности несколько длинный текст ему даётся. Получается, первые 256 токенов достаточно точно определяют класс документа? Не очень понятен смысл использования 256 и выравнивания до 512, почему бы тогда не брать 512 токенов полезного текста? Пробовали ли ещё что-то, кроме берта, например USE (русский или мультиязыковой)?

Спасибо за комментарий!

Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.

USE не использовали.
Sign up to leave a comment.