Search
Write a publication
Pull to refresh
5
0
Алексей @VDG

Sparse Hash AI

Send message

Нормализация, как L1.

Выглядит как некролог-мемуары. ) Вот он живой в телеге @victorkazarinov )

По графикам видно, что всю работу провел градиентный спуск, но с ГА получилось в сто раз дольше.

То, что микширование параметров моделей с помощью ГА не сильно попортило картину, это следствие того, что это особенность нейросетей. Это было показано в нескольких работах пару лет назад. Вы можете «скрещивать» веса разных инстантов модели, просто беря их среднее значение. Результирующие веса получатся не хуже исходных.

Трансформеры это как минимум не свертка

Atrous-свёртка как маска контекста. Это именно то самое, что вы описали "на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый". Шаг маски является степенью двойки.

на первом уровне трансформера ближайшие, на втором - каждый второй, на третьем - каждый четвертый

Это atrous-свёртка. Шаг равен 2^i. Я тоже пробовал на небольших последовательностях в микромодели. Если бы она была годна для больших, то её бы использовали.

Atrous Spatial Pyramid Pooling
https://paperswithcode.com/method/aspp

Вряд ли mem-вектор будет обрабатываться трансформером так же как несжатая последовательность. То есть, не получится подать на вход mem-вектор, кодирующий [В лесу родилась ёлочка], и спросить [Где родилась ёлочка?]. Mem - это "seed" (скорее даже, набор поправок), а не сжатое семантическое представление предложения. Для ответа потребуется раскодировать вектор в последовательность, тем самым потребив ограниченную память контекста.

возникнет пузырь истинного вакуума, который расширится со скоростью света

Значит в расширяющейся с ускорением Вселенной пузырь коллапсирующего вакуума никогда не догонит галактики, находящиеся за пределом некоторого радиуса?

Второе выражение — это произведение матриц Q и V, что даёт матрицу (d_k, d_v). Операция умножения K(QV) в третьем выражении имеет ту же временную сложность.

Мы можем сначала получить произведение карты признаков с K и V (value, значение) для формирования блока KV, а затем — получить произведение с Q.

По моему, автор тут запутался, где какое у него ку. Вначале считаем блок KV, а затем умножаем на Q, Q(KV).

В случае, как на схеме, подключения базы непосредственно на плюс, а эмиттера на минус, имеем ничем не ограниченный прямой ток через p-n переход, проще говоря - КЗ.

Не смотрели анизотропию для трансформера-декодера для эмбеддингов с выходов отдельно внимания и FFN?

https://github.com/brave/brave-browser/issues/6767

Та же самая старая проблема. В меню починили, но осталась в popup-ах. Выскочит ещё раз, заскриню.

Передайте там разрабам про старый баг, что в окнах у кнопки Close надпись Близко. :)

Да и откуда 7? У шимпанзе и горилл, которых обучали «речи» и вели с оными разговоры, определяли соответствие интеллекту 4-5-летнего ребенка, а тут сразу 7.
Поболтать с вами сейчас и тостер может. А они соотносят возраст по способности решать задачи. Врановых начинают ставить выше шимпанзе.
перепишем формулу обычного перцептрона

Перцептрон W*X + b считает скалярное произведение (косинус угла) между векторами W и X. Вы поделили это на магнитуду вектора W и перешли от углов к расстояниям(W*X + b) / mag(W), а это уже что-то другое.

А как насчёт следующего за этим предложения — "Мы взяли есть эти материалы...".

размерность полной матрицы вы в него не вставите никогда для матриц превышающих по размеру число потоков

Не знаю как там в CUDA, пишу прямо в шейдерах. Но зачем пытаться запихнуть всю матрицу в блок? Каждая ячейка считает своё скалярное произведение и пишет результат в память выходной матрицы, ориентируясь на свои координаты в ней.


Размер блока надо подбирать кратным размерам выходной матрицы, чтобы данные, к которым обращаются ячейки, были по возможности одни и те же, и оставались в кеше без его переполнения и повторного считывания из основной памяти карты.

Это же наверное больше чем у человеков нейронов в голове.

Параметр в ИНС не "аналог" нейрона, а синапса. В мозге около 100 млрд нейронов (не считая ещё большей глии, которая скорее всего тоже несёт вычислительную функцию), один нейрон в среднем имеет 10 тыс синапсов. Поэтому эти 40 млрд параметров равны 0.00004 ёмкости мозга.

Вы OR описали. Для XOR необходимо ещё:
"традиционный" сигнал = 1, "кальциевый" = 1, выход = 0;


0^0=0
1^0=1
0^1=1
1^1=0

Услышали дендритные кальциевые волны — дендритные спайки?

1
23 ...

Information

Rating
Does not participate
Registered
Activity