All streams
Search
Write a publication
Pull to refresh
27
0
Liubomyr Horbatko @Flokis_guy

User

Send message

Ну вдруг для инвестора это важно)

Банально, что введённый текст соответствует одному единственному распределению вероятностей по токенам, уже утверждает что это функция.

Нет, это в первую очередь функция.

А я так - мимокрокодил, который случайно в курсе зачем и для чего создана психология

Да-да

Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.

Ну тогда Oxford English Dictionary дает неверное определение, а так же в American Psychological Association работают мракобесы?

Мне кажется лучший момент это проверка модераторами, да, ошибка первого рода будет критичной, но все таки.

Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет.

Ну почему же, вот оно.

мы вообще не понимаем почему это работает

Вы - может и нет, а вот мы понимаем, есть универсальная теорема аппроксимации, она доказана и для трансформеров, поэтому даже в худших случаях они работают.

И при этих всех модификациях именно кор-алгоритм не меняется.

Что такое по вашему мнению кор-алгоритм?

Они (натягивали сову на глобус) предполагали что поиск в многомерном векторном пространстве, а в реальности тупое перемножение матриц, стал подобен... мыслям! Как по мне - они просто создали огромную БД куда аппроксимировали всю обучающую мега выборку. Т.е. сложили рядом друг с другом (в векторном виде) просто даже не слова. А слоги или даже буквы! Если глянуть величину эмбединг словаря - он будет занимать ushort величину. 64K всех возможных слогов, букв.

Не знаю чем вам не нравятся операции из линейной алгебры, но если мысли и генерацию текста можно представить как функцию, то почему бы и нет?

У LLM нету локальной памяти. Что бы они могли поддерживать контекст - весь предыдущий трёп каждый раз помещается в входящий промт - что бы получить один единственный маленький вектор, точка отправления которого и будет служить в векторном пространстве.

Это особенность трансформеров, mamba или rwkv имеют скрытое состояние явное.

Кстати механизм внимания меня вообще убил - тупо складываем кусок предыдущего вектора с новым в итерации. Удивительно что это работает.

Ну во первых взвешенный, а во вторых это условное мат ожидание/fir фильтр/свёртка, в чем проблема? Его цель предоставить временные зависимости MLP.

Тут ещё и другая проблема откроется, а именно жёсткий порог, из-за этого градиент будет шуметь, хотя можно было бы гистерезис добавить.

То, что это MLP сомнений нет. А значит можно применять различные исследования относительно этой сети которые применимы для MLP. В этом то и прелесть.

По сути данная нейронная сеть реализует трёхслойный MLP с функцией активации Хевисайда, глобальной нормализацией, и в одном линейном слое не обучаемые параметры. Архитектурно не вижу ничего нового, но все таки формального доказательства того, что оно ломает проклятие размерности я не увидел.

Ну и да, конечно такая сеть обладает универсальной аппроксимацией, т.к. по требованиям Лешно функция активации не должна быть полиномом почти всюду (то есть на множестве меры ноль может быть), а так же локально ограниченной.

Возможно, она лучше сходится чем более привычные MLP, но для этого хотелось бы получить результаты тестов, хотя бы.

Это все классно, а Humanity's Last Exam Grok пройдет?

Точнее и эффективнее это делают рекуррентные сети, которые более адекватны прототипу в мозге, но из-за распараллеливания обработки в трансформерах временно свернули на них из-за лучшей аппаратной поддержки не смотря большие затраты энергии и другие недостатки.

А почему трансформеры не могут быть адекватны прототипу в мозге, было бы интересно взглянуть на доказательства. При том, что математически трансформер крутится вокруг тех же идей.

Доказательств того, что он работает нет - это все догадки. А субъективный опыт - риск апофении. Но и опровергнуть мы не можем, по крайней мере, потому что не знаем коэфициенты функции плотности вероятности нормального распределения для урона или разброса. Мало ли, вдруг там стандартное отклонение от чего-то зависит. То есть если бы был мод записывающий куда попал снаряд и какое значение урона вылетело и это все проанализировать относительно разной техники и разных аккаунтов...

Не совсем:

Хорник и соавторы доказали для многослойной с произвольным количеством слоев и нейронов универсальную аппроксимацию.

Лешно и соавторы доказали минимальные требования для универсальной аппроксимации, хоть сеть и с одним скрытым слоем, но по индукции это все обобщается на многослойной вариант.

А так как они этим обладают, то тут отлично работает это исследование относительно сходимости. Но согласен, что при анализе backprop слишком много но.

Хотел бы я посмотреть на такой сценарий. Если приведете пример, будет прекрасно

Такой случай есть: любое конечномерные \ell^p_n для p\ge 1. Потому что оно попадает под аксиомы векторного пространства.

А что, расстояние между картинками — это какой-то экзотический вид метрик?

Норма Фробениуса от их разности.

Куда более полезен пример из ML: Нейронная сеть — универсальный аппроксиматор, который может аппроксимировать любую функцию с любой точностью.

На это указывает теорема Цыбенко: с помощью однослойной нейросети с сигмоидальной функцией активации можно аппроксимировать любую функцию с любой точностью

Не любую, только из Lp или пространства непрерывных функций, при чем, на компактном множестве.

Гильбертово пространство имеет явное отношение к мл. Банально потому, что Гильбертово - обобщение евклидова.

1
23 ...

Information

Rating
4,826-th
Registered
Activity

Specialization

ML Engineer
Python
English
Maths
Pytorch
Deep Learning