RWKV похож на очередную попытку аппроксимировать n^2 связей аттеншена какой-то другой, более простой функцией. Помнится, уже ведь были какие-то линейные варианты "смотрим только по вертикали\горизонтали\диагонали", варианты с фиксированным окном контекста или с dilated (когда аттеншен на каждый 1\2\3\4\5\итд токен) контекстом. А RWKV аппроксимирует через экспоненциальное затухание.
SRU - это не какая-то новая, особенная архитектура. Это просто еще один вариант написания формулы для RNN с гейтами, как и GRU. Но там одно, очень важное отличие от LSTM и GRU - скрытое состояние не умножается на матрицу весов; умножается лишь вход. При итерировании там лишь поэлементное умножение и сложение. А это означает, что 1) можно сделать matmul на всю входную последовательность разом, перед циклом, что ускоряет процесс.
2) но самое главное - фичи получаются независимыми друг от друга => их вычисление успешно параллелится => можно ускорить за счет GPU (в отличие от LSTM и GRU).
В своих работах, независимые электоральные аналитики показывают, что подобная картина может наблюдаться при вбросе голосов за партию, результат которой растет с явкой. Причем в ядре находятся участки с «нормальной явкой», на которых не было фальсификаций, а хвосты соответствуют участкам с «аномальной явкой», где результаты выборов недостоверны.
Кто еще из "электоральных аналитиков", кроме Шпилькина?
А еще подобная картина может наблюдаться, потому что одна партия хорошо мобилизует свой электорат, а другие - нет. Или потому что электорат сам по себе политически активный по каким-то причинам, и голосует за одну партию. Исходная предпосылка сама по себе висит в воздухе.
Работаю в этом офисе. В столовую не хожу, тренажерами не пользуюсь, в настольный теннис\футбол не играю (разве что в шахматы), но мысль об их наличии греет душу.
Большой плюс, что опенспейса нет. Обычные отдельные офисы на 6-10 человек.
За 8 лет работы оставался на овертайм 1 или 2 раза. За соблюдением рабочего графика (во сколько пришел\ушел, сколько пробыл на обеде) никто не следит.
Рабочее место — обычный деревянный стол, два монитора и немного мусора. В радиусе двух метров от меня сидит только один сотрудник.
На работу хожу вообще пешком через парк минут за 20, т.к. Екб — город весьма компактный, а офис почти в центре.
А есть реальные кейсы использования векторной арифметики для эмбеддингов? А то эти «плюс король минус мужчина» встречаю исключительно как примеры.
С близостью-то понятно.
1. Чтобы понять, 97% — это хорошо или плохо, стоило бы обучить несколько других архитектур и сравнить результаты. SVM часто отрабатывает лучше для классификации текста, чем нейронные сети
2. Вообще был бы полезен пример анализа результатов классификации и дальнешего «тюнинга». Посмотреть на precision\recall, на confusion matrix.
«Как Яндекс научил искусственный интеллект разговаривать с людьми?» — «Мы использовали нейронные сети.»
Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
[/sarcasm] Опять одна вода.
Бой богат на результативные действия, поэтому вторая модель должна довольно быстро обучаться. А первую стратегию даже можно было просто захардкодить для начала.
Тоже хотел использовать DRL в турнире, но времени не было.
Мне кажется, правильнее было бы обучать две сети:
* первая отвечает за макро-стратегию — куда идти волшебнику;
* вторая отвечает за микро — боевой режим, который включается при приближении противника на некоторое расстояние.
RWKV похож на очередную попытку аппроксимировать n^2 связей аттеншена какой-то другой, более простой функцией. Помнится, уже ведь были какие-то линейные варианты "смотрим только по вертикали\горизонтали\диагонали", варианты с фиксированным окном контекста или с dilated (когда аттеншен на каждый 1\2\3\4\5\итд токен) контекстом. А RWKV аппроксимирует через экспоненциальное затухание.
SRU - это не какая-то новая, особенная архитектура. Это просто еще один вариант написания формулы для RNN с гейтами, как и GRU. Но там одно, очень важное отличие от LSTM и GRU - скрытое состояние не умножается на матрицу весов; умножается лишь вход. При итерировании там лишь поэлементное умножение и сложение. А это означает, что
1) можно сделать matmul на всю входную последовательность разом, перед циклом, что ускоряет процесс.
2) но самое главное - фичи получаются независимыми друг от друга => их вычисление успешно параллелится => можно ускорить за счет GPU (в отличие от LSTM и GRU).
https://arxiv.org/abs/1709.02755
Зачем использовать LSTM или GRU, когда уже давно есть SRU и SRU++?
В своих работах, независимые электоральные аналитики показывают, что подобная картина может наблюдаться при вбросе голосов за партию, результат которой растет с явкой. Причем в ядре находятся участки с «нормальной явкой», на которых не было фальсификаций, а хвосты соответствуют участкам с «аномальной явкой», где результаты выборов недостоверны.
Кто еще из "электоральных аналитиков", кроме Шпилькина?
А еще подобная картина может наблюдаться, потому что одна партия хорошо мобилизует свой электорат, а другие - нет. Или потому что электорат сам по себе политически активный по каким-то причинам, и голосует за одну партию. Исходная предпосылка сама по себе висит в воздухе.
Большой плюс, что опенспейса нет. Обычные отдельные офисы на 6-10 человек.
За 8 лет работы оставался на овертайм 1 или 2 раза. За соблюдением рабочего графика (во сколько пришел\ушел, сколько пробыл на обеде) никто не следит.
Рабочее место — обычный деревянный стол, два монитора и немного мусора. В радиусе двух метров от меня сидит только один сотрудник.
На работу хожу вообще пешком через парк минут за 20, т.к. Екб — город весьма компактный, а офис почти в центре.
С близостью-то понятно.
2. Вообще был бы полезен пример анализа результатов классификации и дальнешего «тюнинга». Посмотреть на precision\recall, на confusion matrix.
Да вы что! Ну теперь-то все понятно. Нейронные сети, значит. Аж трехслойные. Надо будет самому попробовать.
[/sarcasm] Опять одна вода.
Мне кажется, правильнее было бы обучать две сети:
* первая отвечает за макро-стратегию — куда идти волшебнику;
* вторая отвечает за микро — боевой режим, который включается при приближении противника на некоторое расстояние.