All streams
Search
Write a publication
Pull to refresh
27
0
Liubomyr Horbatko @Flokis_guy

User

Send message

Есть очень много исследовательских проектов которые не в опенсорсе.

Да, галлюцинация была, и я тоже ошибся, ну я же не эксперт в сетевых технологиях, признаю. А по поводу теста, вы бы ещё gpt-2 спросили, в чем проблема использовать более новые модели? Ошибок то меньше будет. С мнением человека выше я не согласен, откуда это магическое взялось 1/гугол.

Исследование реально интересное, но вот вопрос, насколько я увидел веса вы не планируете выкладывать, а как обстоят дела с датасетом?

А как тебе такое, эксперт. Промт тот же.

Где же оно галлюцинировало, если во втором случае оно лишь предположило?

Так, по вашей идее, нейронка и будет обновлять библиотеку, пусть тогда немного электроэнергии пожрёт и накидает примеров для других нейронок. Человекам останется только обучать нейронки на этих данных.

А вы понимаете что LLM никаким смыслом не оперируют - они умеют только выплевывать наиболее вероятный токен сквозь несколько слоев файнтьюнинга который не позволяет проявляться явной лаже. Вы уверены что это может в принципе развиваться?

А почему бы и нет? Нет, ну реально, почему это не может являться тем сакральным пониманием смысла?

Имеется ввиду, что не следует ограничиваться исключительно трансформерами, которые сейчас, по сути, являются синонимом термина LLM.

ЕЕЕЕЕ, я нашёл, что кто-то ещё рассказывает про механизм внимания через условное матожидание. Так что сразу ставлю лайк, не глядя :)

Кстати, странно, что такая интерпретация внимания людям на Хабре не зашла.

Множители в Mamba можно подать в виде нижнетреугольной матрицы. И крайне интересно увидеть то, что вес дальнего контекста уменьшается экспоненциально всегда, так как произведение множителей (1-g) при g<1 очевидно будет стремится к нулю при росте их количества. Ну, собственно, что и было показано на практике в папире с Titans.

Это отличная архитектура как попытка поменять RNN, убрав ненужные активации, и зависимость, которая мешала паралелить, но не более того.

моя ИИ-помощница ChatGPT 4o

Ай, ай, ай, что за сексизм.

Без формул, ага, ну как же)

Во-первых, само определение LLM не является чётким: по сути, модель должна иметь большое количество параметров и эффективно работать с языком. И если со вторым свойством всё ясно (его легко проверить), то с первым возникает проблема, так как неясно, какое количество параметров считать большим. Например, откуда начинать расчёт? Тысяча параметров – это уже большая модель, или ею можно считать модель с миллионом или миллиардом параметров?

Далее, большая часть архитектур не является настолько сложной, насколько о них пишут, и чисто формально они недалеко ушли от "классического ml". Те же трансформеры (decoder-only), по сути, выполняют три линейных преобразования, рассчитывают условное мат ожидание и пропускают результат через MLP. Однако главное, конечно же, — модно использовать термины вроде "attention", "key", "value", "query" и подобные им.

И, как видим, здесь уже заметна связь с теорией вероятностей и функциональным анализом, то есть, скорее всего, с теми основами, которые, возможно, описаны в данной книге.

Когда добавят кнопку для голосования за отправку подобных статей в "чулан"?

Если мы конкретно в качестве задачи рассматриваем символьную регрессию, то мы можем использовать и MLP вполне, но просто их реализация KAN, жертвуя сложностью, дает большую точность в данной задаче, что для исследователей крайне важно.

Это вполне видно из свойств самих моделей:

Берем MLP и используем его для аппроксимации целевой функции. Затем представляем этот MLP в виде композиции сумм функций одной переменной \phi, где каждая функция имеет следующий вид:

 \phi(x) = w \cdot f_{\text{activation}}(x) + f_{\text{bias}}(x)\\[10pt] где \\[10pt]  f_{\text{bias}}(x) = b

После этого каждую \phi(x) можно сравнить с набором интерпретируемых функций (экспонента, логарифм и т.д.), используя, к примеру, коэффициент детерминации. Если какая-то из интерпретируемых функций оказалась близка, мы заменяем исходную  \phi на неё, добавляем вес и смещение, дообучаем модель. И так далее.

Однако здесь есть ограничение: каждая \phi представляет собой линейную комбинацию некоторой фиксированной функции активации, а та (например, relu, tanh) не всегда способна гибко аппроксимировать широкий спектр функций одной переменной. Поэтому и возникает идея заменить константную функцию f_{\text{bias}}(x) = b в \phi на B-сплайн, который обеспечивает больше возможностей аппроксимации для функций  \phi. Именно эту модификацию и реализовали авторы оригинального исследования на практике.

Ну, и как я уже написал, использование B-сплайнов усложняет вычисления, так как они всегда дороже констант. Но в задачах, где приоритетом является высокая точность аппроксимации для каждой функции  \phi какой-либо функции из набора интерпретируемых функций, это не является критической проблемой.

Во-первых, вы не уточнили, о каком именно KAN идет речь в рамках данной статьи.

Теперь по поводу вопросов:

Скажите, чем этот KAN принципиально лучше на практике?

Лучше понятие растяжимое, лучше чего? Вот поэтому я и привёл вам общую информацию о них до этого.

Есть задачи, в которых он переплюнул существующие топологии?

Открываем тест, который я вам в предыдущем комментарии привёл со сравнением с MLP, и видим, что в одной задаче он переплюнул.

В каких случаях мне стоит рассмотреть применение KAN для решения задачи?

Все зависит от определения «задачи». Кому-то на практике нужно аппроксимировать сложную функцию в L^p, а кому-то различить кошек и собак. И, как я уже говорил, я предоставил ссылку на тесты, где показаны результаты на некоторых задачах.

Ну, и, ответ очевидно будет опять же общий: нужно смотреть на свойства модели и задачи, результаты на тестах, теоретические результаты и так далее, логично же.

Но рекомендации могу дать:

В контексте B-spline KAN, в сравнении с классическими MLP, если вы готовы мириться с большой сложностью и верите в то, что большая гибкость даст положительный результат.

В контексте модели из B-spline KAT, если вы готовы к её ограничениям в виду плотности в пространстве гладких непрерывных функций.

Если речь идет о B-spline KAN в репозитории pykan, то я написал в статье, что это, по сути, модификация MLP на случай смещения в виде гладкой непрерывной функции вместо константной. И, судя по некоторым тестам, на практике он не показывает преимущества, хоть теоретически имеет все шансы, так как может сходиться к классическому виду MLP, но при этом предоставляет больше возможностей.

Если речь идет о модели в B-spline KAT, то эта модель вообще плотна только в пространстве непрерывных гладких функций, и это так себе, в сравнении с другими теоремами. И, вполне кстати, можно взять данное исследование и обобщить, к примеру, на пространства Соболева, по сути, заменив сумму на слоях на произведение.

Но хочу заметить, что в статье я не преследовал идеи по типу «Deep Learning 2.0» или «вау, это новая эра, MLP старьё» и тому подобное, а, скорее даже наоборот. Потому что после обширного чтения статей и комментариев на просторах интернета, особенно, кстати, данного треда, я понял, что люди не совсем понимают, что из себя представляет KAN и что показали в оригинальном исследовании, а потом удивляются, почему он в тестах на практике хуже.

Думаю, скорее, больше ссылок на тг-каналы.

Прямо в сердце. Прямо в сердце...

Information

Rating
4,875-th
Registered
Activity

Specialization

ML Engineer
Python
English
Maths
Pytorch
Deep Learning