Search
Write a publication
Pull to refresh
6
0
Igor Churin @Gscraid

User

Send message

Да, некоторые датасеты (7 из 21) были переведены и вручную откорректированы на ошибки перевода. Более подробно про эти сеты и перевод можно узнать в нашем препринте.

Проблема с увеличением контекста заключается в увеличении вычислительной сложности, учитывая что у того же attention слоя квадратическая сложность, то увеличивая контекст в 10 раз, мы увеличиваем сложность в 100 и так далее. Есть различные улучшения сложности по части attention слоя, к примеру Sparse Attention.

Information

Rating
Does not participate
Registered
Activity