Ну так то SVM можно рассматривать и в евклидовом пространстве, особенно если ядро линейное или полиномиально, а в случае гауссового можно аппроксимировать через мультиномиальную теорему конечным числом компонент.
У выпуклой функции есть локальные минимумы, просто они одновременно и глобальные.
Для создания Трансформеров (т. е. LLM) оказалось достаточно линейной алгебры.
Для создания - да, для анализа - не только.
тут вдруг все заговорили про ЧатГПТ (а значит гранты, актуальность, "тема" и прочее, что для научной публики важно). Они схватили свои "спектральные модели" и побежали их приделывать к изучению LLM.
Этого точно мы не узнаем, гадать можно сколько угодно.
В вашем примере еще и область очень специфическая - графы
Я брал ни сколько исследование, а сколько теорему, и ещё пару связанных с ней.
Удачный ли это подход для исследования LLM?
Вряд ли.
На успех исследования влияет немало факторов. Банально начиная с того, кто его написал и кто был в соавторстве.
Но такой метрики нет (никому не интересна), а есть скорее "гуманитарные метрики" ответов на всякие тесты (типа замеров IQ у человека).
Ну, увы, большинству интересны практические бенчмарки, а не сравнения архитектур теоретические.
Но я опять вам повторяю, что я отвечал на это:
Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума
Но знание этих принципов мало что дает для понимания, как работает вся система целиком.
Вы же начали ссылаться на бигтехи в этой области, мол они так не описывали. Хотя нужно понимать, что в контексте математики бигтехи не авторитет. Поняв свойства этой LTV системы, мы можем вполне сравнивать со свойствами другой. И также понять как работает система вся целиком (LTV+MLP).
Откуда вы знаете? Может rsashka после моего сообщения законспектировал статью, распечатал комментарии и учит их наизусть
Может и я встречу динозавра на улице.
Разве только АПИ ОпенАИ обслуживать. Но и тут клин - любой гуманитарий за час с помощью LLM сваяет скрипт и будет слать свои запросы в это АПИ. Этому гуманитарию уже никакие "датасаентисты" не нужны, чтобы делать свое NLP приложение.
Но что-то гуманитарии предпочитают брать с опытом, а опыт у кого?
Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума
Но знание этих принципов мало что дает для понимания, как работает вся система целиком.
То что они в исследовании использовали линейную алгебру, это лично их дело. Если математически я могу рассматривать его как адаптивный фильтр с конечной импульсной характеристикой (FIR filter), то почему бы и нет. Это наоборот лучше обобщает понимание архитектуры - как ее сильные так и слабые стороны.
где там "фильтры с конечной импульсной характеристикой" и как знание об этих фильтрах помогли добиться такого качества работы нейронной сети
Опять же, речь шла об анализе архитектуры.
Пока выглядит, как натягивание совы на глобус. Человек образованный любую сову может на любой глобус натянуть без всякой пользы для народного хозяйства.
Ну почему же, вот исследование которое напрямую дает пользу. В теореме 4.1 все как раз и сказано.
Во вторых, вы удивитесь (судя по наивности ваших сообщений), но существенная доля статей на Хабре (боюсь под 100%) уже давно генерятся с помощью LLM
Поэтому практически все они мусорные.
Для вас это мега полезная статья, расширяющая представления о мире.
Не сработал гипноз...
Написано в соавторстве с Gemini Pro 2.5
То есть ваша статья тоже мусорная. У тех статеек давних хотя бы был свой уникальный стиль автора, тут же безвкусица LLM.
Ну и вообще, сама тема, что "гуманитарии наносят ответный удар" - бредовая. Практически весь ML современный в контексте инноваций, все равно держат так называемые "технари".
Чтобы разобраться, как работает трансформер достаточно знаний 1го курса математики любого института или техникума
Но знание этих принципов мало что дает для понимания, как работает вся система целиком.
Выучить архитектуру так-то можно, и в целом, понять. Но вот что бы нормально анализировать, нужны знания получше: к примеру желательно обладать знаниями цифровой обработки сигналов относительно, хотя бы, фильтров с конечной импульсной характеристикой (что учиться зачастую под конец бакалавриата). И тогда становится очевидным, что attention является по сути низкочастотным адаптивным фильтром, что и даёт немалые ограничения.
Мне кажется, что градиентный бустинг проще всего понимать обобщенного через ряд Тейлора, если с ним базово все понятно - то и с бустингом проблем не будет, все остальное это детали работы с определенными моделями.
Более чем уверен, что эти 90% потом идут в отделение к примеру, и там их проблемы решают, но, а так как они не обратились к оператору - то их проблемы решены!
KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:
Где каждая сумма (слой) представляет собой преобразование подобного рода:
Двухслойный MLP имеет следующую формулу:
И его мы можем представить как:
Первый слой:
И второй выходной:
То есть двухслойный MLP мы можем представить как двухслойный KAN. Где мы его строим с помощью - . Ну и очевидно, что KAN обобщает MLP на случай произвольной в общем случае. Единственное, что при представлении MLP в виде KAN, по определению, в первом слое -. Собственно это и является его ограничением, так как функцию во втором слое мы задаем сами через функцию активации. Таким образом ограниченная выразительная способность MLP кроется в этом.
Статья отличная. И благодаря подобным хабр ещё торт.
В целом сравнение через выразительную способность отличное. Хотя двухслойный MLP имеет универсальную аппроксимацию в C и Lp. Ширина его при желаемой точности растет экспоненциально, а не полиномиально. Но с другой стороны, так как KAN в общем случае обобщает MLP имея произвольную функцию в сравнении с w*activation(x). Где в первом слое активация является линейной. И вот тут интересный момент, если представить MLP как двухслойный KAN, то выходит, что это и портит всю ситуацию. И тут возникает вопрос, а честно ли так сравнивать, так как линейная функция является сплайном первого порядка, но не любой сплайн это линейная функция вида w*x+b.
Менеджеры хотят кушать, а как мы понимаем их там много, ибо - бюракратия расширяется, чтобы удовлетворять потребности расширяющейся бюрократии. Вот и как следствие всякие религии появляются.
Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.
И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.
К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.
Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.
По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?
По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.
Ну так то SVM можно рассматривать и в евклидовом пространстве, особенно если ядро линейное или полиномиально, а в случае гауссового можно аппроксимировать через мультиномиальную теорему конечным числом компонент.
У выпуклой функции есть локальные минимумы, просто они одновременно и глобальные.
Для них это TPU часы, но то что дешевле труда человека во многих задачах - это конечно, но не во всех.
Так с 2017 или 2022 начинать отсчёт?)
0.25 * стоимость аренды той же H100, а с учётом размера, скорее узла из H100.
Не 3, отсчёт нужно начинать с gpt-1.
Так же как и этого:
Для создания - да, для анализа - не только.
Этого точно мы не узнаем, гадать можно сколько угодно.
Я брал ни сколько исследование, а сколько теорему, и ещё пару связанных с ней.
На успех исследования влияет немало факторов. Банально начиная с того, кто его написал и кто был в соавторстве.
Ну, увы, большинству интересны практические бенчмарки, а не сравнения архитектур теоретические.
Но я опять вам повторяю, что я отвечал на это:
Вы же начали ссылаться на бигтехи в этой области, мол они так не описывали. Хотя нужно понимать, что в контексте математики бигтехи не авторитет. Поняв свойства этой LTV системы, мы можем вполне сравнивать со свойствами другой. И также понять как работает система вся целиком (LTV+MLP).
Может и я встречу динозавра на улице.
Но что-то гуманитарии предпочитают брать с опытом, а опыт у кого?
Мой комментарий касался именно этого:
То что они в исследовании использовали линейную алгебру, это лично их дело. Если математически я могу рассматривать его как адаптивный фильтр с конечной импульсной характеристикой (FIR filter), то почему бы и нет. Это наоборот лучше обобщает понимание архитектуры - как ее сильные так и слабые стороны.
Опять же, речь шла об анализе архитектуры.
Ну почему же, вот исследование которое напрямую дает пользу. В теореме 4.1 все как раз и сказано.
Поэтому практически все они мусорные.
Не сработал гипноз...
То есть ваша статья тоже мусорная. У тех статеек давних хотя бы был свой уникальный стиль автора, тут же безвкусица LLM.
Ну и вообще, сама тема, что "гуманитарии наносят ответный удар" - бредовая. Практически весь ML современный в контексте инноваций, все равно держат так называемые "технари".
Выучить архитектуру так-то можно, и в целом, понять. Но вот что бы нормально анализировать, нужны знания получше: к примеру желательно обладать знаниями цифровой обработки сигналов относительно, хотя бы, фильтров с конечной импульсной характеристикой (что учиться зачастую под конец бакалавриата). И тогда становится очевидным, что attention является по сути низкочастотным адаптивным фильтром, что и даёт немалые ограничения.
То есть, чтобы плюхнуть ссылку на тг.
У семена больше, не зря у него крепкая мужская дружба, моряк моряка видит издалека)
Мне кажется, что градиентный бустинг проще всего понимать обобщенного через ряд Тейлора, если с ним базово все понятно - то и с бустингом проблем не будет, все остальное это детали работы с определенными моделями.
Более чем уверен, что эти 90% потом идут в отделение к примеру, и там их проблемы решают, но, а так как они не обратились к оператору - то их проблемы решены!
Потому что им нужно, что бы был опыт 5 лет.
Сейчас одно из лучших решений это rtx5090.
Нет, это любое кодирующее устройство. Да, и, англицизмы никто не отменял.
Я имел ввиду следующее:
KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:
Где каждая сумма (слой)
представляет собой преобразование подобного рода:
Двухслойный MLP имеет следующую формулу:
И его мы можем представить как:
Первый слой:
И второй выходной:
То есть двухслойный MLP мы можем представить как двухслойный KAN. Где мы его строим с помощью -
. Ну и очевидно, что KAN обобщает MLP на случай произвольной
в общем случае. Единственное, что при представлении MLP в виде KAN, по определению, в первом слое -
. Собственно это и является его ограничением, так как функцию во втором слое мы задаем сами через функцию активации. Таким образом ограниченная выразительная способность MLP кроется в этом.
Статья отличная. И благодаря подобным хабр ещё торт.
В целом сравнение через выразительную способность отличное. Хотя двухслойный MLP имеет универсальную аппроксимацию в C и Lp. Ширина его при желаемой точности растет экспоненциально, а не полиномиально. Но с другой стороны, так как KAN в общем случае обобщает MLP имея произвольную функцию
в сравнении с w*activation(x). Где в первом слое активация является линейной. И вот тут интересный момент, если представить MLP как двухслойный KAN, то выходит, что это и портит всю ситуацию. И тут возникает вопрос, а честно ли так сравнивать, так как линейная функция является сплайном первого порядка, но не любой сплайн это линейная функция вида w*x+b.
Менеджеры хотят кушать, а как мы понимаем их там много, ибо - бюракратия расширяется, чтобы удовлетворять потребности расширяющейся бюрократии. Вот и как следствие всякие религии появляются.
Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.
И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.
К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.
Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.
По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?
По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.