Слушайте, а LSTM поверх псевдотокенов вообще нужна? Ablation study на этот счет в статье нет. Оба аргумета авторов на счёт "зачем она нужна" валидными не нахожу:
1)Discreteness - говорят, что исходные токены слишком дискретные + SGD очень локально оптимизирует если рандомом инициализировать. И тут не очевидно, что добавление LSTM поможет или вовсе не сделает хуже.
2) Association - говорят что эмбединги псевдотокенов должы быть зависимыми, и тут LSTM помочь должно. Но после первого же шага SGD они станут зависимыми. Короче, тоже как-то мимо.
Перечитал, узрел, благодарен
Слушайте, а LSTM поверх псевдотокенов вообще нужна? Ablation study на этот счет в статье нет. Оба аргумета авторов на счёт "зачем она нужна" валидными не нахожу:
1)Discreteness - говорят, что исходные токены слишком дискретные + SGD очень локально оптимизирует если рандомом инициализировать. И тут не очевидно, что добавление LSTM поможет или вовсе не сделает хуже.
2) Association - говорят что эмбединги псевдотокенов должы быть зависимыми, и тут LSTM помочь должно. Но после первого же шага SGD они станут зависимыми. Короче, тоже как-то мимо.