Комментарии 2
Статья неплохая, странно, что в комментариях нет активности.
По ходу чтения было интересно, как именно применяется BERT, в частности несколько длинный текст ему даётся. Получается, первые 256 токенов достаточно точно определяют класс документа? Не очень понятен смысл использования 256 и выравнивания до 512, почему бы тогда не брать 512 токенов полезного текста? Пробовали ли ещё что-то, кроме берта, например USE (русский или мультиязыковой)?
+1
Спасибо за комментарий!
Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.
USE не использовали.
Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.
USE не использовали.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ