Комментарии 10
Перестановки — это как раз там самое непонятное место. Да, поскольку положения токенов не меняется, то получается, мы пытаемся предсказать целевой токен по всем возможным сочетаниям остальных токенов.
Но все возможные сочетания — это в теории. На практике же они используют ограничения. Для этой вот предобученной сетки они брали сочетания длины от (255 — 85) до 255. Это явно у них не прописано, но если я правильно понял, это означают их параметры --perm_size
и --num_predict
.
С появлением BERT все NLP архитектуры стали строить на ячейках трансформерах, неужели архитектуры на двунаправленых слоях LSTM ячеек изжили себя? Есть ли информация у автора, о применении предобучения по типу BERT или XLNet для рекуррентных сеток? Я использовал архитектуру FLAIR На задаче выделения именованных сущностей неплохие результаты показывает.
Все таки тип предобучения или тип используемых базовых ячеек дает такие результаты?
о применении предобучения по типу BERT или XLNet для рекуррентных сеток— fast.ai Universal Language Model Fine-tuning (ULMFiT). Оно же AWD LSTM.
Ну вот, там раздел "Pretraining with XLNet" в Readme.
Препроцессинг — в data_utils.py, само обучение — train_gpu.py. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.
Только, вероятно, это очень затратный по ресурсам процесс, наверное затратнее чем для BERT-a. Что-то не видно, чтобы кто-то что-то еще натренировал. Да и они сами пока только одну натренированную сетку выложили.
Ну вот, там раздел "Pretraining with XLNet" в Readme.
Препроцессинг — в data_utils.py
, само обучение — train_gpu.py
. Еще можно посмотреть пояснения к параметрам обучения в пайторчевом репозитарии.
Только, вероятно, это очень затратный по ресурсам процесс, наверное затратнее чем для BERT-a. Что-то не видно, чтобы кто-то что-то еще натренировал. Да и они сами пока только одну натренированную сетку выложили.
XLNet против BERT