Comments / Profile of Flokis

Ну, во-первых, его происхождение с греческого, а не латыни. Но в любом случае смысл современных терминов не обязан совпадать с древней этимологией. По этой логике атом ("неделимый") тоже "не научный", хотя физика давно изучает делимые атомы. Во-вторых, не нужно пользоваться грязными приемчиками и переводить тему в вопросы метафизики, речь шла о современной психологии.

Look

Путь к AGI: почему одного машинного обучения недостаточно и нужны принципы психологии

Flokis_guy Oct 1 at 17:06

Ну тогда Oxford English Dictionary дает неверное определение, а так же в American Psychological Association работают мракобесы?

Look

Тихий апокалипсис: я устал читать сгенерированные статьи

Flokis_guy Oct 1 at 07:39

Мне кажется лучший момент это проверка модераторами, да, ошибка первого рода будет критичной, но все таки.

Look

Сэм Альтман ожидает, что ИИ превзойдет человека к 2030 году

Flokis_guy Sep 28 at 18:34

Погуглил "теорема аппроксимации для трансформеров" - разумеется ничего путного нет.

Ну почему же, вот оно.

Look

Сэм Альтман ожидает, что ИИ превзойдет человека к 2030 году

Flokis_guy Sep 28 at 13:49

мы вообще не понимаем почему это работает

Вы - может и нет, а вот мы понимаем, есть универсальная теорема аппроксимации, она доказана и для трансформеров, поэтому даже в худших случаях они работают.

И при этих всех модификациях именно кор-алгоритм не меняется.

Что такое по вашему мнению кор-алгоритм?

Они (натягивали сову на глобус) предполагали что поиск в многомерном векторном пространстве, а в реальности тупое перемножение матриц, стал подобен... мыслям! Как по мне - они просто создали огромную БД куда аппроксимировали всю обучающую мега выборку. Т.е. сложили рядом друг с другом (в векторном виде) просто даже не слова. А слоги или даже буквы! Если глянуть величину эмбединг словаря - он будет занимать ushort величину. 64K всех возможных слогов, букв.

Не знаю чем вам не нравятся операции из линейной алгебры, но если мысли и генерацию текста можно представить как функцию, то почему бы и нет?

У LLM нету локальной памяти. Что бы они могли поддерживать контекст - весь предыдущий трёп каждый раз помещается в входящий промт - что бы получить один единственный маленький вектор, точка отправления которого и будет служить в векторном пространстве.

Это особенность трансформеров, mamba или rwkv имеют скрытое состояние явное.

Кстати механизм внимания меня вообще убил - тупо складываем кусок предыдущего вектора с новым в итерации. Удивительно что это работает.

Ну во первых взвешенный, а во вторых это условное мат ожидание/fir фильтр/свёртка, в чем проблема? Его цель предоставить временные зависимости MLP.

-1

Look

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Flokis_guy Sep 23 at 18:27

Тут ещё и другая проблема откроется, а именно жёсткий порог, из-за этого градиент будет шуметь, хотя можно было бы гистерезис добавить.

Look

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Flokis_guy Sep 23 at 17:37

То, что это MLP сомнений нет. А значит можно применять различные исследования относительно этой сети которые применимы для MLP. В этом то и прелесть.

Look

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Flokis_guy Sep 23 at 16:00

По сути данная нейронная сеть реализует трёхслойный MLP с функцией активации Хевисайда, глобальной нормализацией, и в одном линейном слое не обучаемые параметры. Архитектурно не вижу ничего нового, но все таки формального доказательства того, что оно ломает проклятие размерности я не увидел.

Ну и да, конечно такая сеть обладает универсальной аппроксимацией, т.к. по требованиям Лешно функция активации не должна быть полиномом почти всюду (то есть на множестве меры ноль может быть), а так же локально ограниченной.

Возможно, она лучше сходится чем более привычные MLP, но для этого хотелось бы получить результаты тестов, хотя бы.

Look

Илон Маск теперь считает, что Grok 5 может достичь AGI. Но что убедило его в этом?

Flokis_guy Sep 17 at 16:58

Это все классно, а Humanity's Last Exam Grok пройдет?

Look

Как мозг предсказывает следующее слово и при чем тут ИИ

Flokis_guy Sep 16 at 09:46

Точнее и эффективнее это делают рекуррентные сети, которые более адекватны прототипу в мозге, но из-за распараллеливания обработки в трансформерах временно свернули на них из-за лучшей аппаратной поддержки не смотря большие затраты энергии и другие недостатки.

А почему трансформеры не могут быть адекватны прототипу в мозге, было бы интересно взглянуть на доказательства. При том, что математически трансформер крутится вокруг тех же идей.

Look

Галлюцинации языковых моделей: от математики обмана к честным ИИ

Flokis_guy Sep 10 at 15:19

Увы, мир не идеален.

Look

«Леста» открыла новый набор в «Леста Академию»

Flokis_guy Sep 9 at 15:22

Доказательств того, что он работает нет - это все догадки. А субъективный опыт - риск апофении. Но и опровергнуть мы не можем, по крайней мере, потому что не знаем коэфициенты функции плотности вероятности нормального распределения для урона или разброса. Мало ли, вдруг там стандартное отклонение от чего-то зависит. То есть если бы был мод записывающий куда попал снаряд и какое значение урона вылетело и это все проанализировать относительно разной техники и разных аккаунтов...

Look

На дворе LLM, а книгу о перцептроне так никто и не открыл!?

Flokis_guy Sep 3 at 11:22

Не совсем:

Хорник и соавторы доказали для многослойной с произвольным количеством слоев и нейронов универсальную аппроксимацию.

Лешно и соавторы доказали минимальные требования для универсальной аппроксимации, хоть сеть и с одним скрытым слоем, но по индукции это все обобщается на многослойной вариант.

А так как они этим обладают, то тут отлично работает это исследование относительно сходимости. Но согласен, что при анализе backprop слишком много но.

Look

Обзор математики для начинающего ML-инженера

Flokis_guy Aug 30 at 13:06

Хотел бы я посмотреть на такой сценарий. Если приведете пример, будет прекрасно

Такой случай есть: любое конечномерные $\ell^p_n$ для $p\ge 1$ . Потому что оно попадает под аксиомы векторного пространства.

А что, расстояние между картинками — это какой-то экзотический вид метрик?

Норма Фробениуса от их разности.

Look

Обзор математики для начинающего ML-инженера

Flokis_guy Aug 30 at 12:56

Куда более полезен пример из ML: Нейронная сеть — универсальный аппроксиматор, который может аппроксимировать любую функцию с любой точностью.
На это указывает теорема Цыбенко: с помощью однослойной нейросети с сигмоидальной функцией активации можно аппроксимировать любую функцию с любой точностью

Не любую, только из Lp или пространства непрерывных функций, при чем, на компактном множестве.

Look

Обзор математики для начинающего ML-инженера

Flokis_guy Aug 30 at 12:53

Гильбертово пространство имеет явное отношение к мл. Банально потому, что Гильбертово - обобщение евклидова.

Look

2 3 ...

6 7

Information

Specialization