Pull to refresh

Comments 6

Совсем обленились, конечно. Немного интересуюсь машинным обучением, хотелось бы посмотреть на несколько таких подводок, насколько понятные для человека подбираются формулировки, как хитрит в зависимости от данных и тд. Я так понимаю там получаются довольно читаемые тексты, если они потом отправляются в языковую модель.

Извиняюсь, нашел ответ под спойлером. Жаль. Ну да, было странно увидеть что-то осмысленное после прохождения такой маленькой нейросети.

Я и вся команда YaLM надеемся, что эта статья мотивирует русскоязычное DL community посвятить время исследованию и использованию больших моделей в NLP.

А вы YALM в открытый доступ релизить собираетесь, или пусть русскоязычное DL community сидит исключительно на моделях от Сбера?

Слушайте, а LSTM поверх псевдотокенов вообще нужна? Ablation study на этот счет в статье нет. Оба аргумета авторов на счёт "зачем она нужна" валидными не нахожу:


1)Discreteness - говорят, что исходные токены слишком дискретные + SGD очень локально оптимизирует если рандомом инициализировать. И тут не очевидно, что добавление LSTM поможет или вовсе не сделает хуже.

2) Association - говорят что эмбединги псевдотокенов должы быть зависимыми, и тут LSTM помочь должно. Но после первого же шага SGD они станут зависимыми. Короче, тоже как-то мимо.

Отличный вопрос! Наша команда тоже задавалась им. 

Про это как раз написано в одном из параграфов внутри “Для интересующихся: как всё устроено внутри” и приведена статья. Авторы этой статьи обходятся без LSTM и MLP, но используют инициализацию эмбеддингами случайных токенов словаря. Такой подход также получает отличные результаты. 

В наших задачах мы тестируем оба способа и выбираем лучший.

Sign up to leave a comment.