Вижу автор очень ранимо относится к любой критике, но мне это не помешает )
аннотацию мне написал ChatGpt. Думаю пора перестать стесняться, что это удобно
Почему же постеснялись его попросить заодно переписать ваш код на торч, создать модель, провести простой эксперимент и вывести графики, чтобы это было понятно кому-то кроме вас?
такие библиотеки как torch, позволяют не думать об архитектуре нейросеток, но для исследователя они не удобны.
Как тот самый исследователь скажу - торч прост и удобен. К примеру ваш код с десятком строк вложенных циклов заменяется простым матричным умножением входа на весовую матрицу: h = X @ W.
И что значит "позволяют не думать об архитектуре нейросеток"? Торч именно что и позволяет думать об архитектуре сети в ёмких математических выражениях, а не обо всех этих циклах.
Недавно это назвали резервуаром
Это "недавно" было в середине 20-го столетия, там же где и перцептрон Розенблатта. Не отставайте.
По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Atrous-свёртка как маска контекста. Это именно то самое, что вы описали "на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый". Шаг маски является степенью двойки.
на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый
Это atrous-свёртка. Шаг равен 2^i. Я тоже пробовал на небольших последовательностях в микромодели. Если бы она была годна для больших, то её бы использовали.
Вряд ли mem-вектор будет обрабатываться трансформером так же как несжатая последовательность. То есть, не получится подать на вход mem-вектор, кодирующий [В лесу родилась ёлочка], и спросить [Где родилась ёлочка?]. Mem - это "seed" (скорее даже, набор поправок), а не сжатое семантическое представление предложения. Для ответа потребуется раскодировать вектор в последовательность, тем самым потребив ограниченную память контекста.
Второе выражение — это произведение матриц Q и V, что даёт матрицу (d_k, d_v). Операция умножения K(QV) в третьем выражении имеет ту же временную сложность.
Мы можем сначала получить произведение карты признаков с K и V (value, значение) для формирования блока KV, а затем — получить произведение с Q.
По моему, автор тут запутался, где какое у него ку. Вначале считаем блок KV, а затем умножаем на Q, Q(KV).
В случае, как на схеме, подключения базы непосредственно на плюс, а эмиттера на минус, имеем ничем не ограниченный прямой ток через p-n переход, проще говоря - КЗ.
Да и откуда 7? У шимпанзе и горилл, которых обучали «речи» и вели с оными разговоры, определяли соответствие интеллекту 4-5-летнего ребенка, а тут сразу 7.
Поболтать с вами сейчас и тостер может. А они соотносят возраст по способности решать задачи. Врановых начинают ставить выше шимпанзе.
Перцептрон W*X + b считает скалярное произведение (косинус угла) между векторами W и X. Вы поделили это на магнитуду вектора W и перешли от углов к расстояниям — (W*X + b) / mag(W), а это уже что-то другое.
Другого ответа от "непонятого гения" и не ожидалось. ) Про очевидную глупость вы правы, она бросается в глаза с первых строк статьи.
Порт на торч с тестом, кому интересно.
Вижу автор очень ранимо относится к любой критике, но мне это не помешает )
Почему же постеснялись его попросить заодно переписать ваш код на торч, создать модель, провести простой эксперимент и вывести графики, чтобы это было понятно кому-то кроме вас?
Как тот самый исследователь скажу - торч прост и удобен. К примеру ваш код с десятком строк вложенных циклов заменяется простым матричным умножением входа на весовую матрицу: h = X @ W.
И что значит "позволяют не думать об архитектуре нейросеток"? Торч именно что и позволяет думать об архитектуре сети в ёмких математических выражениях, а не обо всех этих циклах.
Это "недавно" было в середине 20-го столетия, там же где и перцептрон Розенблатта. Не отставайте.
Выше головы не прыгнешь, это было понятно ещё с первой статьи. При этом оверхед потребления нейронов.
Речевые зоны при программировании не задействуются. Есть экспериментальная работа на эту тему.
Нормализация, как L1.
Выглядит как некролог-мемуары. ) Вот он живой в телеге @victorkazarinov )
По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Atrous-свёртка как маска контекста. Это именно то самое, что вы описали "на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый". Шаг маски является степенью двойки.
Это atrous-свёртка. Шаг равен 2^i. Я тоже пробовал на небольших последовательностях в микромодели. Если бы она была годна для больших, то её бы использовали.
Atrous Spatial Pyramid Pooling
https://paperswithcode.com/method/aspp
Вряд ли mem-вектор будет обрабатываться трансформером так же как несжатая последовательность. То есть, не получится подать на вход mem-вектор, кодирующий [В лесу родилась ёлочка], и спросить [Где родилась ёлочка?]. Mem - это "seed" (скорее даже, набор поправок), а не сжатое семантическое представление предложения. Для ответа потребуется раскодировать вектор в последовательность, тем самым потребив ограниченную память контекста.
Недо-переизобрели Метод опорных векторов (Support vector machine). Недо- так как не смогли найти лучшую разделяющую гиперплоскость.
SVM. Подробный разбор метода опорных векторов, реализация на python
Значит в расширяющейся с ускорением Вселенной пузырь коллапсирующего вакуума никогда не догонит галактики, находящиеся за пределом некоторого радиуса?
По моему, автор тут запутался, где какое у него ку. Вначале считаем блок KV, а затем умножаем на Q, Q(KV).
В случае, как на схеме, подключения базы непосредственно на плюс, а эмиттера на минус, имеем ничем не ограниченный прямой ток через p-n переход, проще говоря - КЗ.
Не смотрели анизотропию для трансформера-декодера для эмбеддингов с выходов отдельно внимания и FFN?
https://github.com/brave/brave-browser/issues/6767
Та же самая старая проблема. В меню починили, но осталась в popup-ах. Выскочит ещё раз, заскриню.
Передайте там разрабам про старый баг, что в окнах у кнопки Close надпись Близко. :)
Перцептрон W*X + b считает скалярное произведение (косинус угла) между векторами W и X. Вы поделили это на магнитуду вектора W и перешли от углов к расстояниям — (W*X + b) / mag(W), а это уже что-то другое.