Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.
Сначала брали последовательности длины 512, но во время предобучения сервер часто падал (регулировка батчей не помогала). А на длине 256 отработало нормально. Потом все-таки и на длине 512 «дожали» предобучение, но заметных улучшений не было. Да, получается, что класс документа неплохо определяется уже по первым 256 токенам.
USE не использовали.