Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение

RWKV похож на очередную попытку аппроксимировать n^2 связей аттеншена какой-то другой, более простой функцией. Помнится, уже ведь были какие-то линейные варианты "смотрим только по вертикали\горизонтали\диагонали", варианты с фиксированным окном контекста или с dilated (когда аттеншен на каждый 1\2\3\4\5\итд токен) контекстом. А RWKV аппроксимирует через экспоненциальное затухание.

SRU - это не какая-то новая, особенная архитектура. Это просто еще один вариант написания формулы для RNN с гейтами, как и GRU. Но там одно, очень важное отличие от LSTM и GRU - скрытое состояние не умножается на матрицу весов; умножается лишь вход. При итерировании там лишь поэлементное умножение и сложение. А это означает, что
1) можно сделать matmul на всю входную последовательность разом, перед циклом, что ускоряет процесс.

2) но самое главное - фичи получаются независимыми друг от друга => их вычисление успешно параллелится => можно ускорить за счет GPU (в отличие от LSTM и GRU).

https://arxiv.org/abs/1709.02755

Зачем использовать LSTM или GRU, когда уже давно есть SRU и SRU++?

 В своих работах, независимые электоральные аналитики показывают, что подобная картина может наблюдаться при вбросе голосов за партию, результат которой растет с явкой. Причем в ядре находятся участки с «нормальной явкой», на которых не было фальсификаций, а хвосты соответствуют участкам с «аномальной явкой», где результаты выборов недостоверны.

  1. Кто еще из "электоральных аналитиков", кроме Шпилькина?

  2. А еще подобная картина может наблюдаться, потому что одна партия хорошо мобилизует свой электорат, а другие - нет. Или потому что электорат сам по себе политически активный по каким-то причинам, и голосует за одну партию. Исходная предпосылка сама по себе висит в воздухе.

Работаю в этом офисе. В столовую не хожу, тренажерами не пользуюсь, в настольный теннис\футбол не играю (разве что в шахматы), но мысль об их наличии греет душу.
Большой плюс, что опенспейса нет. Обычные отдельные офисы на 6-10 человек.
За 8 лет работы оставался на овертайм 1 или 2 раза. За соблюдением рабочего графика (во сколько пришел\ушел, сколько пробыл на обеде) никто не следит.
Рабочее место — обычный деревянный стол, два монитора и немного мусора. В радиусе двух метров от меня сидит только один сотрудник.
На работу хожу вообще пешком через парк минут за 20, т.к. Екб — город весьма компактный, а офис почти в центре.
Каких конкретно задач?
А есть реальные кейсы использования векторной арифметики для эмбеддингов? А то эти «плюс король минус мужчина» встречаю исключительно как примеры.
С близостью-то понятно.
Интересно, как сеть раскрасит гравюры?
Самое вкусное, что было в области применения CNN к NLP — это seq2seq и ASR на сверточных сетях от Facebook.
Ни одного упоминания про data.iota.org?
1. Чтобы понять, 97% — это хорошо или плохо, стоило бы обучить несколько других архитектур и сравнить результаты. SVM часто отрабатывает лучше для классификации текста, чем нейронные сети

2. Вообще был бы полезен пример анализа результатов классификации и дальнешего «тюнинга». Посмотреть на precision\recall, на confusion matrix.
«Болталка», выходит, не генеративная модель?
По-моему, сильно не хватает информации про IOTA. Куда более «принципиально новый блокчейн», чем EOS. Настолько, что даже не блокчейн.
NER, использование контекста при формировании ответа, само формирование ответа
«Как Яндекс научил искусственный интеллект разговаривать с людьми?» — «Мы использовали нейронные сети.»
Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
[/sarcasm] Опять одна вода.
Бой богат на результативные действия, поэтому вторая модель должна довольно быстро обучаться. А первую стратегию даже можно было просто захардкодить для начала.
Тоже хотел использовать DRL в турнире, но времени не было.
Мне кажется, правильнее было бы обучать две сети:
* первая отвечает за макро-стратегию — куда идти волшебнику;
* вторая отвечает за микро — боевой режим, который включается при приближении противника на некоторое расстояние.
LSTM? А у них при этом не возникали проблемы с корреляцией данных, из-за чего experience replay вводили?
Зачем проводить обучение на R, если доступен Python? Неужто на R они тренируются быстрее?
1

Информация

В рейтинге
Не участвует
Откуда
Екатеринбург, Свердловская обл., Россия
Работает в
Зарегистрирован
Активность