Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.
Вы - может и нет, а вот мы понимаем, есть универсальная теорема аппроксимации, она доказана и для трансформеров, поэтому даже в худших случаях они работают.
И при этих всех модификациях именно кор-алгоритм не меняется.
Что такое по вашему мнению кор-алгоритм?
Они (натягивали сову на глобус) предполагали что поиск в многомерном векторном пространстве, а в реальности тупое перемножение матриц, стал подобен... мыслям! Как по мне - они просто создали огромную БД куда аппроксимировали всю обучающую мега выборку. Т.е. сложили рядом друг с другом (в векторном виде) просто даже не слова. А слоги или даже буквы! Если глянуть величину эмбединг словаря - он будет занимать ushort величину. 64K всех возможных слогов, букв.
Не знаю чем вам не нравятся операции из линейной алгебры, но если мысли и генерацию текста можно представить как функцию, то почему бы и нет?
У LLM нету локальной памяти. Что бы они могли поддерживать контекст - весь предыдущий трёп каждый раз помещается в входящий промт - что бы получить один единственный маленький вектор, точка отправления которого и будет служить в векторном пространстве.
Это особенность трансформеров, mamba или rwkv имеют скрытое состояние явное.
Кстати механизм внимания меня вообще убил - тупо складываем кусок предыдущего вектора с новым в итерации. Удивительно что это работает.
Ну во первых взвешенный, а во вторых это условное мат ожидание/fir фильтр/свёртка, в чем проблема? Его цель предоставить временные зависимости MLP.
По сути данная нейронная сеть реализует трёхслойный MLP с функцией активации Хевисайда, глобальной нормализацией, и в одном линейном слое не обучаемые параметры. Архитектурно не вижу ничего нового, но все таки формального доказательства того, что оно ломает проклятие размерности я не увидел.
Ну и да, конечно такая сеть обладает универсальной аппроксимацией, т.к. по требованиям Лешно функция активации не должна быть полиномом почти всюду (то есть на множестве меры ноль может быть), а так же локально ограниченной.
Возможно, она лучше сходится чем более привычные MLP, но для этого хотелось бы получить результаты тестов, хотя бы.
Точнее и эффективнее это делают рекуррентные сети, которые более адекватны прототипу в мозге, но из-за распараллеливания обработки в трансформерах временно свернули на них из-за лучшей аппаратной поддержки не смотря большие затраты энергии и другие недостатки.
А почему трансформеры не могут быть адекватны прототипу в мозге, было бы интересно взглянуть на доказательства. При том, что математически трансформер крутится вокруг тех же идей.
Доказательств того, что он работает нет - это все догадки. А субъективный опыт - риск апофении. Но и опровергнуть мы не можем, по крайней мере, потому что не знаем коэфициенты функции плотности вероятности нормального распределения для урона или разброса. Мало ли, вдруг там стандартное отклонение от чего-то зависит. То есть если бы был мод записывающий куда попал снаряд и какое значение урона вылетело и это все проанализировать относительно разной техники и разных аккаунтов...
Хорник и соавторы доказали для многослойной с произвольным количеством слоев и нейронов универсальную аппроксимацию.
Лешно и соавторы доказали минимальные требования для универсальной аппроксимации, хоть сеть и с одним скрытым слоем, но по индукции это все обобщается на многослойной вариант.
А так как они этим обладают, то тут отлично работает это исследование относительно сходимости. Но согласен, что при анализе backprop слишком много но.
Куда более полезен пример из ML: Нейронная сеть — универсальный аппроксиматор, который может аппроксимировать любую функцию с любой точностью.
На это указывает теорема Цыбенко: с помощью однослойной нейросети с сигмоидальной функцией активации можно аппроксимировать любую функцию с любой точностью
Не любую, только из Lp или пространства непрерывных функций, при чем, на компактном множестве.
Ну вдруг для инвестора это важно)
Банально, что введённый текст соответствует одному единственному распределению вероятностей по токенам, уже утверждает что это функция.
Нет, это в первую очередь функция.
Да-да
Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.
Ну тогда Oxford English Dictionary дает неверное определение, а так же в American Psychological Association работают мракобесы?
Мне кажется лучший момент это проверка модераторами, да, ошибка первого рода будет критичной, но все таки.
Ну почему же, вот оно.
Вы - может и нет, а вот мы понимаем, есть универсальная теорема аппроксимации, она доказана и для трансформеров, поэтому даже в худших случаях они работают.
Что такое по вашему мнению кор-алгоритм?
Не знаю чем вам не нравятся операции из линейной алгебры, но если мысли и генерацию текста можно представить как функцию, то почему бы и нет?
Это особенность трансформеров, mamba или rwkv имеют скрытое состояние явное.
Ну во первых взвешенный, а во вторых это условное мат ожидание/fir фильтр/свёртка, в чем проблема? Его цель предоставить временные зависимости MLP.
Тут ещё и другая проблема откроется, а именно жёсткий порог, из-за этого градиент будет шуметь, хотя можно было бы гистерезис добавить.
То, что это MLP сомнений нет. А значит можно применять различные исследования относительно этой сети которые применимы для MLP. В этом то и прелесть.
По сути данная нейронная сеть реализует трёхслойный MLP с функцией активации Хевисайда, глобальной нормализацией, и в одном линейном слое не обучаемые параметры. Архитектурно не вижу ничего нового, но все таки формального доказательства того, что оно ломает проклятие размерности я не увидел.
Ну и да, конечно такая сеть обладает универсальной аппроксимацией, т.к. по требованиям Лешно функция активации не должна быть полиномом почти всюду (то есть на множестве меры ноль может быть), а так же локально ограниченной.
Возможно, она лучше сходится чем более привычные MLP, но для этого хотелось бы получить результаты тестов, хотя бы.
Это все классно, а Humanity's Last Exam Grok пройдет?
А почему трансформеры не могут быть адекватны прототипу в мозге, было бы интересно взглянуть на доказательства. При том, что математически трансформер крутится вокруг тех же идей.
Увы, мир не идеален.
Доказательств того, что он работает нет - это все догадки. А субъективный опыт - риск апофении. Но и опровергнуть мы не можем, по крайней мере, потому что не знаем коэфициенты функции плотности вероятности нормального распределения для урона или разброса. Мало ли, вдруг там стандартное отклонение от чего-то зависит. То есть если бы был мод записывающий куда попал снаряд и какое значение урона вылетело и это все проанализировать относительно разной техники и разных аккаунтов...
Не совсем:
Хорник и соавторы доказали для многослойной с произвольным количеством слоев и нейронов универсальную аппроксимацию.
Лешно и соавторы доказали минимальные требования для универсальной аппроксимации, хоть сеть и с одним скрытым слоем, но по индукции это все обобщается на многослойной вариант.
А так как они этим обладают, то тут отлично работает это исследование относительно сходимости. Но согласен, что при анализе backprop слишком много но.
Такой случай есть: любое конечномерные
для
. Потому что оно попадает под аксиомы векторного пространства.
Норма Фробениуса от их разности.
Не любую, только из Lp или пространства непрерывных функций, при чем, на компактном множестве.
Гильбертово пространство имеет явное отношение к мл. Банально потому, что Гильбертово - обобщение евклидова.