Да, некоторые датасеты (7 из 21) были переведены и вручную откорректированы на ошибки перевода. Более подробно про эти сеты и перевод можно узнать в нашем препринте.
Проблема с увеличением контекста заключается в увеличении вычислительной сложности, учитывая что у того же attention слоя квадратическая сложность, то увеличивая контекст в 10 раз, мы увеличиваем сложность в 100 и так далее. Есть различные улучшения сложности по части attention слоя, к примеру Sparse Attention.
Да, некоторые датасеты (7 из 21) были переведены и вручную откорректированы на ошибки перевода. Более подробно про эти сеты и перевод можно узнать в нашем препринте.
Проблема с увеличением контекста заключается в увеличении вычислительной сложности, учитывая что у того же attention слоя квадратическая сложность, то увеличивая контекст в 10 раз, мы увеличиваем сложность в 100 и так далее. Есть различные улучшения сложности по части attention слоя, к примеру Sparse Attention.