По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Atrous-свёртка как маска контекста. Это именно то самое, что вы описали "на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый". Шаг маски является степенью двойки.
на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый
Это atrous-свёртка. Шаг равен 2^i. Я тоже пробовал на небольших последовательностях в микромодели. Если бы она была годна для больших, то её бы использовали.
Вряд ли mem-вектор будет обрабатываться трансформером так же как несжатая последовательность. То есть, не получится подать на вход mem-вектор, кодирующий [В лесу родилась ёлочка], и спросить [Где родилась ёлочка?]. Mem - это "seed" (скорее даже, набор поправок), а не сжатое семантическое представление предложения. Для ответа потребуется раскодировать вектор в последовательность, тем самым потребив ограниченную память контекста.
Второе выражение — это произведение матриц Q и V, что даёт матрицу (d_k, d_v). Операция умножения K(QV) в третьем выражении имеет ту же временную сложность.
Мы можем сначала получить произведение карты признаков с K и V (value, значение) для формирования блока KV, а затем — получить произведение с Q.
По моему, автор тут запутался, где какое у него ку. Вначале считаем блок KV, а затем умножаем на Q, Q(KV).
В случае, как на схеме, подключения базы непосредственно на плюс, а эмиттера на минус, имеем ничем не ограниченный прямой ток через p-n переход, проще говоря - КЗ.
Да и откуда 7? У шимпанзе и горилл, которых обучали «речи» и вели с оными разговоры, определяли соответствие интеллекту 4-5-летнего ребенка, а тут сразу 7.
Поболтать с вами сейчас и тостер может. А они соотносят возраст по способности решать задачи. Врановых начинают ставить выше шимпанзе.
Перцептрон W*X + b считает скалярное произведение (косинус угла) между векторами W и X. Вы поделили это на магнитуду вектора W и перешли от углов к расстояниям — (W*X + b) / mag(W), а это уже что-то другое.
размерность полной матрицы вы в него не вставите никогда для матриц превышающих по размеру число потоков
Не знаю как там в CUDA, пишу прямо в шейдерах. Но зачем пытаться запихнуть всю матрицу в блок? Каждая ячейка считает своё скалярное произведение и пишет результат в память выходной матрицы, ориентируясь на свои координаты в ней.
Размер блока надо подбирать кратным размерам выходной матрицы, чтобы данные, к которым обращаются ячейки, были по возможности одни и те же, и оставались в кеше без его переполнения и повторного считывания из основной памяти карты.
Это же наверное больше чем у человеков нейронов в голове.
Параметр в ИНС не "аналог" нейрона, а синапса. В мозге около 100 млрд нейронов (не считая ещё большей глии, которая скорее всего тоже несёт вычислительную функцию), один нейрон в среднем имеет 10 тыс синапсов. Поэтому эти 40 млрд параметров равны 0.00004 ёмкости мозга.
Нормализация, как L1.
Выглядит как некролог-мемуары. ) Вот он живой в телеге @victorkazarinov )
По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.
То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.
Atrous-свёртка как маска контекста. Это именно то самое, что вы описали "на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый". Шаг маски является степенью двойки.
Это atrous-свёртка. Шаг равен 2^i. Я тоже пробовал на небольших последовательностях в микромодели. Если бы она была годна для больших, то её бы использовали.
Atrous Spatial Pyramid Pooling
https://paperswithcode.com/method/aspp
Вряд ли mem-вектор будет обрабатываться трансформером так же как несжатая последовательность. То есть, не получится подать на вход mem-вектор, кодирующий [В лесу родилась ёлочка], и спросить [Где родилась ёлочка?]. Mem - это "seed" (скорее даже, набор поправок), а не сжатое семантическое представление предложения. Для ответа потребуется раскодировать вектор в последовательность, тем самым потребив ограниченную память контекста.
Недо-переизобрели Метод опорных векторов (Support vector machine). Недо- так как не смогли найти лучшую разделяющую гиперплоскость.
SVM. Подробный разбор метода опорных векторов, реализация на python
Значит в расширяющейся с ускорением Вселенной пузырь коллапсирующего вакуума никогда не догонит галактики, находящиеся за пределом некоторого радиуса?
По моему, автор тут запутался, где какое у него ку. Вначале считаем блок KV, а затем умножаем на Q, Q(KV).
В случае, как на схеме, подключения базы непосредственно на плюс, а эмиттера на минус, имеем ничем не ограниченный прямой ток через p-n переход, проще говоря - КЗ.
Не смотрели анизотропию для трансформера-декодера для эмбеддингов с выходов отдельно внимания и FFN?
https://github.com/brave/brave-browser/issues/6767
Та же самая старая проблема. В меню починили, но осталась в popup-ах. Выскочит ещё раз, заскриню.
Передайте там разрабам про старый баг, что в окнах у кнопки Close надпись Близко. :)
Перцептрон W*X + b считает скалярное произведение (косинус угла) между векторами W и X. Вы поделили это на магнитуду вектора W и перешли от углов к расстояниям — (W*X + b) / mag(W), а это уже что-то другое.
А как насчёт следующего за этим предложения — "Мы взяли есть эти материалы...".
Не знаю как там в CUDA, пишу прямо в шейдерах. Но зачем пытаться запихнуть всю матрицу в блок? Каждая ячейка считает своё скалярное произведение и пишет результат в память выходной матрицы, ориентируясь на свои координаты в ней.
Размер блока надо подбирать кратным размерам выходной матрицы, чтобы данные, к которым обращаются ячейки, были по возможности одни и те же, и оставались в кеше без его переполнения и повторного считывания из основной памяти карты.
Параметр в ИНС не "аналог" нейрона, а синапса. В мозге около 100 млрд нейронов (не считая ещё большей глии, которая скорее всего тоже несёт вычислительную функцию), один нейрон в среднем имеет 10 тыс синапсов. Поэтому эти 40 млрд параметров равны 0.00004 ёмкости мозга.
Вы OR описали. Для XOR необходимо ещё:
"традиционный" сигнал = 1, "кальциевый" = 1, выход = 0;
0^0=0
1^0=1
0^1=1
1^1=0
Услышали дендритные кальциевые волны — дендритные спайки?