All streams
Search
Write a publication
Pull to refresh
27
0
Liubomyr Horbatko @Flokis_guy

User

Send message

Не нужно говорить за всех, если вам архитектура не понятна, то это не значит что другим тоже. Во первых в ее формуле нет ничего такого особенного, во вторых есть области по типу функционального анализа или цифровой обработки сигналов, за счёт которых можно под разным углом взглянуть на неё.

IMEX всегда будет иметь проблему, так как полюса на единичной окружности нарушают bibo стабильность, а это тянет за собой невозможность сходимости в l1 норме импульсный отклик, что нарушает выполнимость теоремы Винера-Леви. А так как может быть погрешность, то полюса могут улетать за единичную окружность наверх, и тогда увы, будет все плохо.

У IMEX конечно интересная особенность, но она и является проблемой. Во первых фильтр не обладает bibo устойчивостью, и кто знает, что там будет на больших последовательностях, без какой-нибудь fp64. Во вторых, из-за этого не работает теорема Винера-Леви (Wiener–Lévy theorem), а значит она вряд-ли будет обладать универсальной аппроксимацией.

Я вот люблю спрашивать, а чё это именно трансформеры, чем они так особенны. Только потому, что крупные игроки выложили достаточно денег и хайпа вокруг них? Ну вот и все остальные подъедают объедки со стола. Хотя у них ой как много проблем.

Вот к примеру исследование показывающее что трансформеры low-pass фильтр реализуют, что их ограничивает.

Далее, само PE это костыль и плата за динамичность размера. Но и тут есть кое какие теоретические и практические моменты, которые должны были в статье быть изложены. Во первых, только тренируемые APE обладают универсальной аппроксимацией. У RPE с этим проблемы. Во вторых есть очень интересные результаты, которые показывают, что на практике без PE(NPE) трансформер может опережать с PE. А самое интересное, что там же и теоретически доказано, что он может моделировать к примеру APE, а значит он обладает универсальной аппроксимацией. Так что можно интервьюеров посылать на три буквы — NPE, и говорить что PE не нужны:)

Они не обладают тогда универсальной аппроксимацией.

Что за бред. Вот если оно реально, где хоть какие-то формальные отсылки к чему-то в этой области, а не к моим снам при 38.8? Или это ещё один RAG костыль?

Стоп, но ведь его же статью одобрили модераторы, это конечно странно.

Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки!

Я больше скажу, не нужны ни свертки, ни трансформеры. Можно вернуться к истокам используя MLP и получить отличные результаты.

Если 'a' - это точка пространства, то у нее нет границ

Это работает только в дискретной топологии, там да, каждое множество и открыто и замкнуто одновременно, а значит не имеет границ, тут мы рассматриваем интервалы, то есть в нашем случае работаем с евклидовой топологией.

Следовательно, в евклидовой топологии каждая точка замкнута, но не открыта, поэтому ее граница - это она сама.

Разница между определением множеств существует. К примеру в нашем случае (a,a) является пустым множеством, поэтому не равно точке a. А вот [а,а] уже не пустое множество, и имеет в себе одну точку а, следовательно оно равно точке а.

Если мы хотим задать интервал парой границ, которые совпадают (и равны a), то он будет нулевым (пустым): a - a = 0

Этот расчет никак не влияет на то, равен интервал точке или нет, вы по сути посчитали лебегову меру в самом простом виде.

В статье допущена ошибка по которой многие утверждения выглядят бредово.

Достаточно было указать: "Мы рассматриваем только интервалы с лебеговой мерой не равной нулю". И тогда бы некоторых вопросов не было.

А так:

Второе и, пожалуй, главное, что следует уяснить. Интервал и точки - это два разных типа данных.

В чем отличие интервала от точки? В размере, - у интервала есть конечный размер, у точки нет.

Вырожденный интервал ([a,a]) по определению равен точке, а значит и точка равна ему. И имеет лебегову меру равную нулю, как и точка. Также в рамках топологии/анализа мы рассматриваем часто выпуклые множества, коим вырожденный интервал и является. Следовательно оба ваши утверждения не верны.

Поэтому (внимание!) - вопрос о том, принадлежат ли интервалу его границы - не имеет особого смысла. Я бы давал на такой вопрос ответ Неопределено, - можно считать, что принадлежит, а можно и нет.

Ну поэтому часто используют компактные множества в доказательствах, а не открытые, к примеру. Но что они понимают...

Ну почему же, и вас и меня же как-то создали:)

А рамках этой статьи хабр ещё торт

Ну, теоретически, так-то и одного достаточно.

Тут палка в двух концах, исследовать теоретически архитектуру можно, да, и на простых данных посмотреть будет ли они работать и скейлиться, но увы, мир работает так, что нужно показать что-то более стояще, что бы на это действительно обратили внимание. И вот тут нужны GPU.

Но в целом я согласен, лучше компаниям не подъедать объедки, а создавать что-то новое.

Мне вот интересно, а это все мероприятие идёт же в рабочие часы у разработчиков?:)

Пиши, только реверсни позицию и все:)

Видимо череп мягкий, а корона тяжёлая, вот и проблемы. Для них кандидат должен быть и швец, и жнец, и на дуде игрец. Ладно я понимаю стартапы, там без этого никуда, но в большой бюрократической конторе, люди приходят заработать деньги и полететь летом на море, а не помогать менеджерам создавать видимость работы. Ещё позабавила строчка о неприязни использования заумных слов, так сказать, привет синдрому высокого мака.

Так в архитектурах LLM нет тоже ничего особенного, те же азы. Да и не нужно знать одно, чтобы работать с другим. Но весь вот этот контент около LLM, конечно, такой приторный.

Information

Rating
4,859-th
Registered
Activity

Specialization

ML Engineer
Python
English
Maths
Pytorch
Deep Learning