Comments / Profile of Flokis

Liubomyr Horbatko @Flokis_guy

User

ProfileArticles3PostsNewsComments130

Обзор математики для начинающего ML-инженера

Flokis_guy Aug 30 at 12:15

Ну так то SVM можно рассматривать и в евклидовом пространстве, особенно если ядро линейное или полиномиально, а в случае гауссового можно аппроксимировать через мультиномиальную теорему конечным числом компонент.
У выпуклой функции есть локальные минимумы, просто они одновременно и глобальные.

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 27 at 12:54

гугл предоставляет гемини 2.5 про с выходом в Интернет бесплатно

Для них это TPU часы, но то что дешевле труда человека во многих задачах - это конечно, но не во всех.

А технологии LLM 3 года.

Отсчет можно начать с Трансформеров, это была переломная точка, без них никаких LLM бы не было это 2018 год.

Так с 2017 или 2022 начинать отсчёт?)

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 27 at 09:44

LLM это сделала за 15 минут бесплатно.

0.25 * стоимость аренды той же H100, а с учётом размера, скорее узла из H100.

А технологии LLM 3 года.

Не 3, отсчёт нужно начинать с gpt-1.

Что будет через 3 года? А через 5 лет? Уже на таких горизонтах невозможно предсказать.

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 26 at 15:06

Вероятность этого события очень сильно ниже.

Так же как и этого:

Может rsashka после моего сообщения законспектировал статью, распечатал комментарии и учит их наизусть

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 26 at 15:04

Для создания Трансформеров (т. е. LLM) оказалось достаточно линейной алгебры.

Для создания - да, для анализа - не только.

тут вдруг все заговорили про ЧатГПТ (а значит гранты, актуальность, "тема" и прочее, что для научной публики важно). Они схватили свои "спектральные модели" и побежали их приделывать к изучению LLM.

Этого точно мы не узнаем, гадать можно сколько угодно.

В вашем примере еще и область очень специфическая - графы

Я брал ни сколько исследование, а сколько теорему, и ещё пару связанных с ней.

Удачный ли это подход для исследования LLM?
Вряд ли.

На успех исследования влияет немало факторов. Банально начиная с того, кто его написал и кто был в соавторстве.

Но такой метрики нет (никому не интересна), а есть скорее "гуманитарные метрики" ответов на всякие тесты (типа замеров IQ у человека).

Ну, увы, большинству интересны практические бенчмарки, а не сравнения архитектур теоретические.

Но я опять вам повторяю, что я отвечал на это:

Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума
Но знание этих принципов мало что дает для понимания, как работает вся система целиком.

Вы же начали ссылаться на бигтехи в этой области, мол они так не описывали. Хотя нужно понимать, что в контексте математики бигтехи не авторитет. Поняв свойства этой LTV системы, мы можем вполне сравнивать со свойствами другой. И также понять как работает система вся целиком (LTV+MLP).

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 25 at 19:55

Откуда вы знаете? Может rsashka после моего сообщения законспектировал статью, распечатал комментарии и учит их наизусть

Может и я встречу динозавра на улице.

Разве только АПИ ОпенАИ обслуживать. Но и тут клин - любой гуманитарий за час с помощью LLM сваяет скрипт и будет слать свои запросы в это АПИ. Этому гуманитарию уже никакие "датасаентисты" не нужны, чтобы делать свое NLP приложение.

Но что-то гуманитарии предпочитают брать с опытом, а опыт у кого?

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 25 at 19:50

Мой комментарий касался именно этого:

Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума

Но знание этих принципов мало что дает для понимания, как работает вся система целиком.

То что они в исследовании использовали линейную алгебру, это лично их дело. Если математически я могу рассматривать его как адаптивный фильтр с конечной импульсной характеристикой (FIR filter), то почему бы и нет. Это наоборот лучше обобщает понимание архитектуры - как ее сильные так и слабые стороны.

где там "фильтры с конечной импульсной характеристикой" и как знание об этих фильтрах помогли добиться такого качества работы нейронной сети

Опять же, речь шла об анализе архитектуры.

Пока выглядит, как натягивание совы на глобус. Человек образованный любую сову может на любой глобус натянуть без всякой пользы для народного хозяйства.

Ну почему же, вот исследование которое напрямую дает пользу. В теореме 4.1 все как раз и сказано.

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 25 at 15:04

Во вторых, вы удивитесь (судя по наивности ваших сообщений), но существенная доля статей на Хабре (боюсь под 100%) уже давно генерятся с помощью LLM

Поэтому практически все они мусорные.

Для вас это мега полезная статья, расширяющая представления о мире.

Не сработал гипноз...

Написано в соавторстве с Gemini Pro 2.5

То есть ваша статья тоже мусорная. У тех статеек давних хотя бы был свой уникальный стиль автора, тут же безвкусица LLM.

Ну и вообще, сама тема, что "гуманитарии наносят ответный удар" - бредовая. Практически весь ML современный в контексте инноваций, все равно держат так называемые "технари".

LLM передают ИИ в руки гуманитариев

Flokis_guy Aug 25 at 14:45

Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума

Но знание этих принципов мало что дает для понимания, как работает вся система целиком.

Выучить архитектуру так-то можно, и в целом, понять. Но вот что бы нормально анализировать, нужны знания получше: к примеру желательно обладать знаниями цифровой обработки сигналов относительно, хотя бы, фильтров с конечной импульсной характеристикой (что учиться зачастую под конец бакалавриата). И тогда становится очевидным, что attention является по сути низкочастотным адаптивным фильтром, что и даёт немалые ограничения.

Срочнее срочного

Flokis_guy Aug 23 at 08:46

То есть, чтобы плюхнуть ссылку на тг.

+11

Игроки стали делать ставки на модели ИИ

Flokis_guy Aug 22 at 13:01

У семена больше, не зря у него крепкая мужская дружба, моряк моряка видит издалека)

Градиентный бустинг для новичков

Flokis_guy Aug 21 at 21:36

Мне кажется, что градиентный бустинг проще всего понимать обобщенного через ряд Тейлора, если с ним базово все понятно - то и с бустингом проблем не будет, все остальное это детали работы с определенными моделями.

GPT-5: Технологический прорыв, который трансформирует профессии

Flokis_guy Aug 8 at 07:34

Более чем уверен, что эти 90% потом идут в отделение к примеру, и там их проблемы решают, но, а так как они не обратились к оператору - то их проблемы решены!

Из бокса во фронтенд: как я учился в онлайн-магистратуре Яндекса

Flokis_guy Aug 4 at 18:35

Потому что им нужно, что бы был опыт 5 лет.

RTX 4090 или L40S: оптимальный GPU среднего уровня в 2025 году

Flokis_guy Jul 31 at 06:31

Сейчас одно из лучших решений это rtx5090.

RuModernBERT и USER2: эволюция русскоязычных энкодеров

Flokis_guy Jul 25 at 07:09

Нет, это любое кодирующее устройство. Да, и, англицизмы никто не отменял.

Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами

Flokis_guy Jul 22 at 22:27

Я имел ввиду следующее:

KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:

${\small f_\text{KAN}(\mathbf{x}) = \sum_{i_L=1}^{n_L} \phi_{L-1, i_L, i_{L-1}} \left( \sum_{i_{L-1}=1}^{n_{L-1}} \phi_{L-2, i_{L-1}, i_{L-2}} \left( \cdots \left( \sum_{i_1=1}^{n_1} \phi_{1, i_2, i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0, i_1, i_0}(x_{i_0}) \right) \right) \right) \right)}$

Где каждая сумма (слой) $\sum_{i_l=1}^{n_l} \phi_{l,i_{l+1},i_l}(x_{i_l})$ представляет собой преобразование подобного рода:

$\mathbf{x}_{l+1} = \sum_{i_l=1}^{n_l} \phi_{l,i_{l+1},i_l}(x_{i_l}) \\[20pt] \\= \left[ \begin{array}{cccc} \phi_{l,1,1}(x_{1}) & + & \phi_{l,1,2}(x_{2}) & + \cdots + & \phi_{l,1,n_l}(x_{n_l}) \\ \phi_{l,2,1}(x_{1}) & + & \phi_{l,2,2}(x_{2}) & + \cdots + & \phi_{l,2,n_l}(x_{n_l}) \\ \vdots & & \vdots & \ddots & \vdots \\ \phi_{l,n_{l+1},1}(x_{1}) & + & \phi_{l,n_{l+1},2}(x_{2}) & + \cdots + & \phi_{l,n_{l+1},n_l}(x_{n_l}) \\ \end{array} \right]$

Двухслойный MLP имеет следующую формулу:

$f_\text{MLP}(\mathbf{x}) = \mathbf{W}_2 \cdot \sigma(\mathbf{W}_1 \cdot \mathbf{x}+\mathbf{b}_\text{in})+\mathbf{b}_\text{out}$

И его мы можем представить как:

Первый слой:

$\mathbf{x}_1 = \sum_{i_0=1}^{n_0} w_{i_1,i_0} x_{i_0} + b_{i_1} \\[20pt] =\begin{bmatrix} w_{1,1} x_{1} & + & w_{1,2} x_{2} & + & \cdots & + & w_{1,n_0} x_{n_0} & + & b_{1} \\ w_{2,1} x_{1} & + & w_{2,2} x_{2} & + & \cdots & + & w_{2,n_0} x_{n_0} & + & b_{2} \\ \vdots & & \vdots & & \ddots & & \vdots & & \vdots \\ w_{n_1,1} x_{1} & + & w_{n_1,2} x_{2} & + & \cdots & + & w_{n_1,n_0} x_{n_0} & + & b_{n_1} \end{bmatrix}\\[30pt] = \sum_{i_0=1}^{n_0} \phi_{i_1,i_0}(x_{i_0})\\[20pt] = \begin{bmatrix} \phi_{1,1}(x_{1}) + \phi_{1,2}(x_{2}) + \dots + \phi_{1,n_0}(x_{n_0}) + \phi_{1,n_0}(x_{n_0}) \\[20pt] \phi_{2,1}(x_{1}) + \phi_{2,2}(x_{2}) + \dots + \phi_{2,n_0}(x_{n_0}) + \phi_{2,n_0}(x_{n_0}) \\ \vdots \\ \phi_{n_1,1}(x_{1}) + \phi_{n_1,2}(x_{2}) + \dots + \phi_{n_1,n_0}(x_{n_0}) + \phi_{n_1,n_0}(x_{n_0}) \end{bmatrix}, \\[50pt]$

И второй выходной:

$f_\text{out}(\mathbf{x}_1) = \sum_{i_1=1}^{n_1} w_{i_1} \sigma(x_{i_!}) +b \\[25pt] = w_{1} \sigma(x_1) + w_{2} \sigma(x_2) + \cdots + w_{n_1} \sigma(x_{n_1}) +b\\[20pt]= \sum_{i_1=1}^{n_1} \phi_{1,i_1} \left( \sum_{i_0=1}^{n_0} \phi_{0,i_1,i_0}(x_{i_0}) \right)$

То есть двухслойный MLP мы можем представить как двухслойный KAN. Где мы его строим с помощью - $\phi(x) = w*\sigma(x)$ . Ну и очевидно, что KAN обобщает MLP на случай произвольной $\phi(x)$ в общем случае. Единственное, что при представлении MLP в виде KAN, по определению, в первом слое - $\sigma(x) = x$ . Собственно это и является его ограничением, так как функцию во втором слое мы задаем сами через функцию активации. Таким образом ограниченная выразительная способность MLP кроется в этом.

Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами

Flokis_guy Jul 22 at 16:49

Статья отличная. И благодаря подобным хабр ещё торт.

В целом сравнение через выразительную способность отличное. Хотя двухслойный MLP имеет универсальную аппроксимацию в C и Lp. Ширина его при желаемой точности растет экспоненциально, а не полиномиально. Но с другой стороны, так как KAN в общем случае обобщает MLP имея произвольную функцию в сравнении с w*activation(x). Где в первом слое активация является линейной. И вот тут интересный момент, если представить MLP как двухслойный KAN, то выходит, что это и портит всю ситуацию. И тут возникает вопрос, а честно ли так сравнивать, так как линейная функция является сплайном первого порядка, но не любой сплайн это линейная функция вида w*x+b.

Вы точно их собеседовали: 8 личностей, которые приходят на интервью

Flokis_guy Jul 15 at 14:35

Менеджеры хотят кушать, а как мы понимаем их там много, ибо - бюракратия расширяется, чтобы удовлетворять потребности расширяющейся бюрократии. Вот и как следствие всякие религии появляются.

Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

Flokis_guy Jul 14 at 14:25

Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.

И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.

К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.

Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.

По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?

По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.

3 4 5 6 7

Information

Specialization