Что такое XLNet?
XLNet, или eXtreme Language Model — это языковая модель, созданная компанией Microsoft в 2017 году. Она использует современную архитектуру Transformer с некоторыми улучшениями и модификациями.
Главное из них — использование функции Cross-Layer Attention, выполняющей обработку контекстуальных зависимостей. Она позволяет моделировать двунаправленные взаимодействия между различными слоями и обеспечивает комплексное представление входных данных.
В классической модели Transformer каждый слой самостоятельно обрабатывает данные. Функция Cross-Layer Attention отменяет это ограничение. Точнее, она позволяет учитывать зависимости между данными, находящимися как выше, так и ниже текущего слоя. Это даёт возможность лучше анализировать контекст, особенно в длинных запросах.
XLNet была обучена на англоязычных датасетах суммарным объёмом около 800 млрд символов, что до сих пор считается является одним из самых больших наборов данных для обучения.
Напишите в комментариях, какие ещё термины вам бы хотелось разобрать в рубрике #нейрословарь, которую мы ведём вместе с экспертами из лаборатории больших данных компании "Криптонит".