Russell_Zab 16 апр 2020 в 10:50

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

10 мин

7.4K

Блог компании ВТБIT-компанииМашинное обучение*Финансы в IT

Комментарии 2

QtRoS 18 апр 2020 в 20:23

Статья неплохая, странно, что в комментариях нет активности.

По ходу чтения было интересно, как именно применяется BERT, в частности несколько длинный текст ему даётся. Получается, первые 256 токенов достаточно точно определяют класс документа? Не очень понятен смысл использования 256 и выравнивания до 512, почему бы тогда не брать 512 токенов полезного текста? Пробовали ли ещё что-то, кроме берта, например USE (русский или мультиязыковой)?

Russell_Zab 22 апр 2020 в 11:41

Спасибо за комментарий!

Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.

USE не использовали.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий