Russell_Zab Apr 16 2020 at 10:50

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

10 min

7.4K

ВТБ corporate blogIT-companiesMachine learning*Finance in IT

Comments 2

QtRoS Apr 18 2020 at 20:23

Статья неплохая, странно, что в комментариях нет активности.

По ходу чтения было интересно, как именно применяется BERT, в частности несколько длинный текст ему даётся. Получается, первые 256 токенов достаточно точно определяют класс документа? Не очень понятен смысл использования 256 и выравнивания до 512, почему бы тогда не брать 512 токенов полезного текста? Пробовали ли ещё что-то, кроме берта, например USE (русский или мультиязыковой)?

Russell_Zab Apr 22 2020 at 11:41

Спасибо за комментарий!

Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.

USE не использовали.