All streams
Search
Write a publication
Pull to refresh
13
0
Send message

Но ведь умножение можно заменить суммированием, используя квадратичные функции активации (кажется, мы этого уже где-то касались). Разве в этом случае условия теоремы не будет выполнены?

Это как раз то, чего хотелось избежать :))
Спасибо за ответ!

Константный, наверное, было бы правильнее сказать - загруженный единожды.

Поэтому, если гистограмму, которую вы хотите отобразить, впринципе можно построить по исходным данным, то и при фильтрации всё будет работать.

Понял. Не уверен, что сходу соображу, как, но, уверен, что можно.
А если, допустим, мне нужно при определенных действиях пользователя (скажем, выборе строки таблицы), подтягивать какие-то доп. данные и уже по ним что-то строить (в dash как есть это можно, но рутинно) - Ваш фреймворк позволит?

Супер! Скажите, а если нужно что-то посчитать налёту, можно это отобразить? Например, гистограмму распределения по какому-то срезу. Или только для статичных датафреймов годится?

Умение врать ей потребуется, чтобы не ответить быстро и точно на вопрос: "сколько будет 3985*8473", иначе будет очень подозрительно)

Если посмотреть на граф трансформера (по крайней мере ViT, работал только с ними), станет очевидно, что трансформер - это буквально разложение функции в ряд: f(x) = x + A(x) + B(x + A(x)) + C(x + A(x) + B(x + A(x))) + ... = x + A'(x) + B'(x) + C'(x) + ...
Механизм внимания просто определяет вид операторов. То же самое делается, например, в MLP миксерах - просто вид оператора другой. Не берусь утверждать на 100%, но, полагаю, любые трюки для оптимизации модели путём изменения механизма внимания - это все пляски вокруг поиска более оптимального вида A, B, C...

Не успел написать коммент, но добавлю, что правильно приготовленный прунинг тоже) На практике доводилось срезать до 70 % весов бинарного классификатора без потери точности и даже немного улучшая обобщающую способность.

Хорошая статья, жаль, только, на самом интересном месте закончилась:)

dushnila mode on

И тем не менее мы не считаем что у GPT-моделей есть самосознание. Хотя тест Тьюринга они уже успешно проходят.

А при чем тут самосознание и тест Тьюринга?

Но сути дела это не меняет - ранг матрицы и ранг тензора - суть разные величины

Не думал, что а) потребуется прикладывать ссылку и б) что при желании ее трудно будет найти. Для начала можно и в вики заглянуть: https://en.wikipedia.org/wiki/Singular_value_decomposition
А вообще немного странный запрос. Может это и не очевидно, но это широко известный (в узких кругах, хаха) факт (по крайней мере если этого нет в курсе линейной алгебры, то это г***о, а не курс).

UPD: я в том смысле, что, кажется, Вы владеете аппаратом, поэтому странно было услышать такой вопрос.

Я бы хотел Вас попросить не игнорировать прочие комментарии под статьями касательно формы подачи информации. Даже если они кажутся местами токсичными, в них есть кое-что общее и рациональное. Подумайте хорошо над структурой статьи, над постановкой задачи, над пояснением относительно терминов, не устоявшихся или не используемых в данной предметной области. Этого всего не хватает, чтобы понять Вашу статью с первого раза (и даже после нескольких попыток)

Автору: можете ответить и на первую часть комментария тоже? Угодили нейросети или нет, а вот статья действительно написана так, что ничего не понятно. С места в карьер, без какой либо вводной. Если это продолжение, приведите, пожалуйста, ссылку на первую часть.

В данном контексте да, это больше шутка, нежели предложение. Но и в такой шутке не без доли правды: https://youtu.be/g9LhYdAKTOU - тут, конечно, не совсем про квесты, или точнее, совсем не про квесты, но это дело времени.

Прикрутить LLM? :) Пусть NPC генерят случайные квесты, можно даже учитывать контекст от других игроков.

Красота в абсолюте - каждый пиксель предсказуем))

Information

Rating
Does not participate
Registered
Activity