Comments / Profile of Flokis

Liubomyr Horbatko @Flokis_guy

User

ProfileArticles3PostsNewsComments130

ПРОМАЙН: КАК НОВАЯ ТЕХНОЛОГИЯ ПОМОГАЕТ УЛУЧШАТЬ БИЗНЕС-ПРОЦЕССЫ

Flokis_guy May 8 at 14:32

БОЛЬШЕ КАПСА БОГУ КАПСА

Look

Месть джунов

Flokis_guy May 7 at 19:12

Есть очень много исследовательских проектов которые не в опенсорсе.

Look

Месть джунов

Flokis_guy May 7 at 10:35

Да, галлюцинация была, и я тоже ошибся, ну я же не эксперт в сетевых технологиях, признаю. А по поводу теста, вы бы ещё gpt-2 спросили, в чем проблема использовать более новые модели? Ошибок то меньше будет. С мнением человека выше я не согласен, откуда это магическое взялось 1/гугол.

Look

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Flokis_guy May 7 at 10:30

Исследование реально интересное, но вот вопрос, насколько я увидел веса вы не планируете выкладывать, а как обстоят дела с датасетом?

Look

Месть джунов

Flokis_guy May 7 at 10:12

А как тебе такое, эксперт. Промт тот же.

Look

Месть джунов

Flokis_guy May 7 at 08:11

Где же оно галлюцинировало, если во втором случае оно лишь предположило?

Look

Месть джунов

Flokis_guy May 7 at 08:04

Так, по вашей идее, нейронка и будет обновлять библиотеку, пусть тогда немного электроэнергии пожрёт и накидает примеров для других нейронок. Человекам останется только обучать нейронки на этих данных.

Look

Месть джунов

Flokis_guy May 7 at 07:06

А вы понимаете что LLM никаким смыслом не оперируют - они умеют только выплевывать наиболее вероятный токен сквозь несколько слоев файнтьюнинга который не позволяет проявляться явной лаже. Вы уверены что это может в принципе развиваться?

А почему бы и нет? Нет, ну реально, почему это не может являться тем сакральным пониманием смысла?

Look

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Flokis_guy May 5 at 12:21

Имеется ввиду, что не следует ограничиваться исключительно трансформерами, которые сейчас, по сути, являются синонимом термина LLM.

Look

Глубокое Q-обучение (DQN)

Flokis_guy May 4 at 07:45

ЕЕЕЕЕ, я нашёл, что кто-то ещё рассказывает про механизм внимания через условное матожидание. Так что сразу ставлю лайк, не глядя :)

Кстати, странно, что такая интерпретация внимания людям на Хабре не зашла.

Look

Mamba 2 + Transformer = Nemotron H

Flokis_guy Apr 30 at 20:39

Множители в Mamba можно подать в виде нижнетреугольной матрицы. И крайне интересно увидеть то, что вес дальнего контекста уменьшается экспоненциально всегда, так как произведение множителей (1-g) при g<1 очевидно будет стремится к нулю при росте их количества. Ну, собственно, что и было показано на практике в папире с Titans.

Это отличная архитектура как попытка поменять RNN, убрав ненужные активации, и зависимость, которая мешала паралелить, но не более того.

Look

Сделано с любовью и TensorFlow: моя первая нейронка с нуля (без GPU и с бюджетом $0)

Flokis_guy Apr 30 at 13:49

моя ИИ-помощница ChatGPT 4o

Ай, ай, ай, что за сексизм.

Look

Обратное распространение ошибки… на пальцах… без формул

Flokis_guy Apr 6 at 11:52

Без формул, ага, ну как же)

Look

Книга: «Машинное обучение: основы»

Flokis_guy Apr 1 at 17:19

Во-первых, само определение LLM не является чётким: по сути, модель должна иметь большое количество параметров и эффективно работать с языком. И если со вторым свойством всё ясно (его легко проверить), то с первым возникает проблема, так как неясно, какое количество параметров считать большим. Например, откуда начинать расчёт? Тысяча параметров – это уже большая модель, или ею можно считать модель с миллионом или миллиардом параметров?

Далее, большая часть архитектур не является настолько сложной, насколько о них пишут, и чисто формально они недалеко ушли от "классического ml". Те же трансформеры (decoder-only), по сути, выполняют три линейных преобразования, рассчитывают условное мат ожидание и пропускают результат через MLP. Однако главное, конечно же, — модно использовать термины вроде "attention", "key", "value", "query" и подобные им.

И, как видим, здесь уже заметна связь с теорией вероятностей и функциональным анализом, то есть, скорее всего, с теми основами, которые, возможно, описаны в данной книге.

Look

ChatGPT для начинающих: Разбираемся, как это работает. Просто о сложном

Flokis_guy Feb 13 at 17:24

Когда добавят кнопку для голосования за отправку подобных статей в "чулан"?

Look

Как действительно понять нейронные сети и KAN на интуитивном уровне

Flokis_guy Jan 8 at 21:21

Если мы конкретно в качестве задачи рассматриваем символьную регрессию, то мы можем использовать и MLP вполне, но просто их реализация KAN, жертвуя сложностью, дает большую точность в данной задаче, что для исследователей крайне важно.

Это вполне видно из свойств самих моделей:

Берем MLP и используем его для аппроксимации целевой функции. Затем представляем этот MLP в виде композиции сумм функций одной переменной $\phi,$ где каждая функция имеет следующий вид:

$\phi(x) = w \cdot f_{\text{activation}}(x) + f_{\text{bias}}(x)\\[10pt] где \\[10pt] f_{\text{bias}}(x) = b$

После этого каждую $\phi(x)$ можно сравнить с набором интерпретируемых функций (экспонента, логарифм и т.д.), используя, к примеру, коэффициент детерминации. Если какая-то из интерпретируемых функций оказалась близка, мы заменяем исходную $\phi$ на неё, добавляем вес и смещение, дообучаем модель. И так далее.

Однако здесь есть ограничение: каждая $\phi$ представляет собой линейную комбинацию некоторой фиксированной функции активации, а та (например, relu, tanh) не всегда способна гибко аппроксимировать широкий спектр функций одной переменной. Поэтому и возникает идея заменить константную функцию $f_{\text{bias}}(x) = b$ в $\phi$ на B-сплайн, который обеспечивает больше возможностей аппроксимации для функций $\phi.$ Именно эту модификацию и реализовали авторы оригинального исследования на практике.

Ну, и как я уже написал, использование B-сплайнов усложняет вычисления, так как они всегда дороже констант. Но в задачах, где приоритетом является высокая точность аппроксимации для каждой функции $\phi$ какой-либо функции из набора интерпретируемых функций, это не является критической проблемой.

Look

Как действительно понять нейронные сети и KAN на интуитивном уровне

Flokis_guy Jan 5 at 10:15

Во-первых, вы не уточнили, о каком именно KAN идет речь в рамках данной статьи.

Теперь по поводу вопросов:

Скажите, чем этот KAN принципиально лучше на практике?

Лучше понятие растяжимое, лучше чего? Вот поэтому я и привёл вам общую информацию о них до этого.

Есть задачи, в которых он переплюнул существующие топологии?

Открываем тест, который я вам в предыдущем комментарии привёл со сравнением с MLP, и видим, что в одной задаче он переплюнул.

В каких случаях мне стоит рассмотреть применение KAN для решения задачи?

Все зависит от определения «задачи». Кому-то на практике нужно аппроксимировать сложную функцию ва кому-то различить кошек и собак. И, как я уже говорил, я предоставил ссылку на тесты, где показаны результаты на некоторых задачах.

Ну, и, ответ очевидно будет опять же общий: нужно смотреть на свойства модели и задачи, результаты на тестах, теоретические результаты и так далее, логично же.

Но рекомендации могу дать:

В контексте B-spline KAN, в сравнении с классическими MLP, если вы готовы мириться с большой сложностью и верите в то, что большая гибкость даст положительный результат.

В контексте модели из B-spline KAT, если вы готовы к её ограничениям в виду плотности в пространстве гладких непрерывных функций.

Look

Как действительно понять нейронные сети и KAN на интуитивном уровне

Flokis_guy Jan 5 at 08:48

Если речь идет о B-spline KAN в репозитории pykan, то я написал в статье, что это, по сути, модификация MLP на случай смещения в виде гладкой непрерывной функции вместо константной. И, судя по некоторым тестам, на практике он не показывает преимущества, хоть теоретически имеет все шансы, так как может сходиться к классическому виду MLP, но при этом предоставляет больше возможностей.

Если речь идет о модели в B-spline KAT, то эта модель вообще плотна только в пространстве непрерывных гладких функций, и это так себе, в сравнении с другими теоремами. И, вполне кстати, можно взять данное исследование и обобщить, к примеру, на пространства Соболева, по сути, заменив сумму на слоях на произведение.

Но хочу заметить, что в статье я не преследовал идеи по типу «Deep Learning 2.0» или «вау, это новая эра, MLP старьё» и тому подобное, а, скорее даже наоборот. Потому что после обширного чтения статей и комментариев на просторах интернета, особенно, кстати, данного треда, я понял, что люди не совсем понимают, что из себя представляет KAN и что показали в оригинальном исследовании, а потом удивляются, почему он в тестах на практике хуже.

Look

Я не знаю, как заставить вас осознать, что ChatGPT незаметно творит

Flokis_guy Jan 4 at 14:33

Думаю, скорее, больше ссылок на тг-каналы.

Look

Цифровая безопасность: как обучить сотрудников в игровой форме

Flokis_guy Dec 27 2024 at 12:17

Прямо в сердце. Прямо в сердце...

Look