roman-gorb Nov 10 2021 at 11:29

Нейросеть, способная объяснить себе задачу: P-tuning для YaLM

9 min

19K

Яндекс corporate blogAlgorithms*Artificial IntelligenceMachine learning*Search engines*

+32

Comments 6

zartdinov Nov 10 2021 at 13:38

Совсем обленились, конечно. Немного интересуюсь машинным обучением, хотелось бы посмотреть на несколько таких подводок, насколько понятные для человека подбираются формулировки, как хитрит в зависимости от данных и тд. Я так понимаю там получаются довольно читаемые тексты, если они потом отправляются в языковую модель.

zartdinov Nov 10 2021 at 13:40

Извиняюсь, нашел ответ под спойлером. Жаль. Ну да, было странно увидеть что-то осмысленное после прохождения такой маленькой нейросети.

cointegrated Nov 12 2021 at 10:58

Я и вся команда YaLM надеемся, что эта статья мотивирует русскоязычное DL community посвятить время исследованию и использованию больших моделей в NLP.

А вы YALM в открытый доступ релизить собираетесь, или пусть русскоязычное DL community сидит исключительно на моделях от Сбера?

Mikhail_Arkhipov Nov 12 2021 at 13:19

Слушайте, а LSTM поверх псевдотокенов вообще нужна? Ablation study на этот счет в статье нет. Оба аргумета авторов на счёт "зачем она нужна" валидными не нахожу:

1)Discreteness - говорят, что исходные токены слишком дискретные + SGD очень локально оптимизирует если рандомом инициализировать. И тут не очевидно, что добавление LSTM поможет или вовсе не сделает хуже.

2) Association - говорят что эмбединги псевдотокенов должы быть зависимыми, и тут LSTM помочь должно. Но после первого же шага SGD они станут зависимыми. Короче, тоже как-то мимо.

roman-gorb Nov 12 2021 at 13:19

Отличный вопрос! Наша команда тоже задавалась им.

Про это как раз написано в одном из параграфов внутри “Для интересующихся: как всё устроено внутри” и приведена статья. Авторы этой статьи обходятся без LSTM и MLP, но используют инициализацию эмбеддингами случайных токенов словаря. Такой подход также получает отличные результаты.

В наших задачах мы тестируем оба способа и выбираем лучший.

Mikhail_Arkhipov Nov 13 2021 at 01:49

Перечитал, узрел, благодарен