Comments 6
Совсем обленились, конечно. Немного интересуюсь машинным обучением, хотелось бы посмотреть на несколько таких подводок, насколько понятные для человека подбираются формулировки, как хитрит в зависимости от данных и тд. Я так понимаю там получаются довольно читаемые тексты, если они потом отправляются в языковую модель.
Я и вся команда YaLM надеемся, что эта статья мотивирует русскоязычное DL community посвятить время исследованию и использованию больших моделей в NLP.
А вы YALM в открытый доступ релизить собираетесь, или пусть русскоязычное DL community сидит исключительно на моделях от Сбера?
Слушайте, а LSTM поверх псевдотокенов вообще нужна? Ablation study на этот счет в статье нет. Оба аргумета авторов на счёт "зачем она нужна" валидными не нахожу:
1)Discreteness - говорят, что исходные токены слишком дискретные + SGD очень локально оптимизирует если рандомом инициализировать. И тут не очевидно, что добавление LSTM поможет или вовсе не сделает хуже.
2) Association - говорят что эмбединги псевдотокенов должы быть зависимыми, и тут LSTM помочь должно. Но после первого же шага SGD они станут зависимыми. Короче, тоже как-то мимо.
Отличный вопрос! Наша команда тоже задавалась им.
Про это как раз написано в одном из параграфов внутри “Для интересующихся: как всё устроено внутри” и приведена статья. Авторы этой статьи обходятся без LSTM и MLP, но используют инициализацию эмбеддингами случайных токенов словаря. Такой подход также получает отличные результаты.
В наших задачах мы тестируем оба способа и выбираем лучший.
Нейросеть, способная объяснить себе задачу: P-tuning для YaLM