Комментарии / Профиль proxy3d

02.05.2026 18:15:55

Sat, 02 May 2026 18:15:55 GMT

Я не очень понял.

У этих моделей был разный токенизатор? Если разные, то на выходе может быть бред, ведь вклад токенов другой.

У этих моделей были разные эмбеддинги? Если разные, то это значит, что информационные связи нарушаются. В одном случае связь король + мужчина может сместиться в огурец + вино.

С переносном FFN в MoE как раз меньше всего проблем. Классические Трансформеры FFN и MoE не особо сильно отличаются. То что так любят называть экспертами, по сути это разрезание глобального FFN на несколько частей, каждая из которых более качественно аппроксимирует и выделяет часть глобального FFN. То есть глобальный FFN теряет точность, из за ограничения размеров. Поэтому мы можем по сути взять его участки и расширить их размерность. Это можно представить через аналогию с функцией описывающей N колебаний. Чтобы апроксимировать все N колебаний, нам нужна FFN с большой размерностью, но мы можем разложить ее на N частей, где каждый FFN будет описывать свое колебание с более высокой точностью (функция больше не пытается апроксимировать все N). Так как на практике в статической модели, только некоторые колебания имеют наибольшую ценность, то остальные можно ~ игнорировать (поэтому говорят про активные веса в MoE) и MoE выбирает одну из FFN (эксперта). Само разбиение в MoE как раз и происходит по интервалам после голов. Это как разбить линейку на участки. Если участок 1 сильнее остальных, значит аппроксимируем на основе него.

Я ускорял обучение MoE за счёт того, что сначала обучал модель с одним FFN, затем копировал его значение во всех экспертов (несколько FFN) и затем дообучал. Таким образом при дообучении, модель детализирована каждый из своих участков. Это давала ещё один плюс. Например, для какого-то эксперта не хватает данных при обучении. Если вдруг модель выберет его, результат будет не очень, а так они уже содержать глобальную информацию и даже если для данного эксперта не хватило данных при обучении, модель не начнет нести полный бред.

Второй подход, который ускорял обучение заключался в том, что сначала мы обучаем K блоков. Затем добавляем ещё один блок и копируем в FFN K+1 веса предыдущего K. Дальше модель детализирует его. Это ускоряет обучение, так как чем меньше блоков, тем быстрее обучение. По сути на каждой итерации мы дообучаем новый блок и согласовываем связи.

01.05.2026 13:24:46

Fri, 01 May 2026 13:24:46 GMT

Дополню свой комментарий выше, чтобы было понятнее о чем идет речь.

Здесь более подробно про то, что реальная геометрия пространства кривая. В конце они предлагают свой подход к решению.

Здесь описывается про проблемы Jepa (на 15:50 точно есть об этом, но в целом в видео разбор исследования, где описывается эта проблема и попытка не решения).

Здесь про то, как сейчас решают проблему Jepa (7:45) через дополнительный член штрафа SIGReg на основе распределения Коши. Здесь проблему пытаются решать через теорему Крамера — Вольда (9:20).

То о чем я написал выше, как раз рассмотрено в этом видео про Jepa. Тут разбирается исследование, где как раз речь идет про изогнутые поверхности в рамках Jepa (правильнее сказать в рамках вероятностей).

Здесь ещё одна попытка решения проблемы обучения V-Jepa (7:00), через измение обучения, коэффициенты и прочие ухищрения

Ещё одно исследование и попытка обучения кривизне пространства при обучении Jepa.

На самом деле исследований и попыток решить эту проблему сейчас очень много. Но безупречно рабочей нет (как с трансформерами), почти везде ручные настройки и прочие ухищрения.

30.04.2026 10:19:10

Thu, 30 Apr 2026 10:19:10 GMT

1) там ошибки именно фундаментальные. Это не значит, что Jepa не работает или не правильная. Как раз она правильная, но из-за того чем она на самом деле является можно сказать что там ошибка. Хотя, правильно сказать не ошибка, а "даже не знаю какое слово подобрать".

Дело в том, что JEPA минимизирует евклидову дивергенцию, но не гарантирует согласование с информационной геометрией распределений. Она реализует KL второго порядка только в частном, локальном и структурно согласованном случае. Глобально изометрия невозможна на основе Jepa, поскольку KL не является евклидовой метрикой. Я скоро опубликую доказательство.

То есть Jepa работает, но локально на ограниченных участках и при других условиях и ломается глобально. Это изображение из будущей статьи, надеюсь оно немного наглядней объяснить суть. Латентное пространство на самом деле кривое (аналогия с земным шаром), но локально оно Евлидовое (прямой участок земли). Вот Jepa как раз реализует локальную геометрию на небольших участках - это доказывается математически. Но глобально она ломается, так как не учитывает кривизну. Поэтому при обучении Jepa там возникает множество проблем с обучением, когда все ломается и приходиться придумывать извращенные способы при обучении.

2) это не значит что Jepa не работает. Локально она работает. Но ломается в разных ситуациях, что приводит к тому, что приходиться ручками придумывать разные как это исправить. Когда она пытается все свести к плоскости при обучении (надо найти видео с этими исследованиями о проблемах Jepa при обучении).

В любом случае, сам подход Jepa и направление выбрано правильно. Jepa работает, но при выполнении ряда условий, которые могут не выполняться глобально, но сам подход можно исправить.

29.04.2026 16:07:38

Wed, 29 Apr 2026 16:07:38 GMT

При разборе RAG, стоило найти современные решения ряда проблем.

Например:

Реальное решение проблемы чанкования.

Увидеть, что часть описанного вами в реальности работает плохо и как это решить. В частности использование RAG в медицине. То есть разделив на базовую часть и практическую.

Выше два примера исследований, но их можно привести больше.

Лучше убирать часть воды (LLM любит раздувать), и этот текст потратить на разбор современных исследований/решений. Так как часть из них на английском и не скоро дойдут до русскоязычной аудитории.

27.04.2026 12:20:59

Mon, 27 Apr 2026 12:20:59 GMT

Странное ощущение. С одной стороны DeepMind как R&D компания и странно такое слышать от них, с другой - это глава компании и его слова не про AGI, а про ожидания рынка которые он должен подогревать.

В данном случае однозначно на стороне Яна ЛеКуна. Современные LLM на трансформерах это тупик, как минимум из-за статики. И ещё ряд других ограничений. Хотя сейчас есть, попытки уйти от этого:

MesaNet - механизм внимания как сетка с постоянным вызовом метода обратного распространения для мини сеток. В остальном это трансформер.

Mythos - так же трансформеры, но со смешиванием данных вместо текстового CoT.

Mamba3 - локальный механизм внимания. При расширении преимущества шире, чем трансформеры. Но пока архитектура ограниченный механизм внимания.

Jepa ЛеКуна это даже не про выбор подхода - трансформер или другие как блок, а о том, что данные работают в других латентных пространствах, объединяющих разные типы данных. Текст это лишь один из типов сигнала, в которую данные могут преобразоваться и они далеко не всегда эффективные. Но у Jepa тоже есть ошибки в математическом подходе, но направление выбрано верно.

26.04.2026 22:41:52

Sun, 26 Apr 2026 22:41:52 GMT

Не то чтобы я оспариваю сказанное, но оно выглядит слишком обобщающим. И это не всегда так многое зависит от среды и конкретной культуры. Например:

Hadza (Хадза) охотники-собиратели, у них нет постоянной боевой части, а социальная структура крайне эгалитарная, без доминирующих воинов-защитников.

Племена Mbuti (Мбути) известны как одна из самых мирных культур. Да у них есть охота, но нет идеи, что каждый мужчина вооружённый защитник и значимость распределена в племени. Женщины так же участвуют в группой охоте. Более того, они так же активно поддерживают единство общины и имеют равное право голоса при принятии коллективных решений. Помимо охоты, они также отвечают за сбор дикорастущих растений, приготовление пищи, воспитание детей и строительство домов.

Ну и яркий пример племена Semai. Один из самых ярких примеров анти-насильственной культуры. В них наоборот агрессия и воинственность социально подавляются.

В ряде обществ (тех же Hadza) женщины дают значительную долю калорий (иногда 50–80%) через собирательство Охота даёт белок и жир, но очень нестабильна.

Очень много племен сейчас, где собирательство играет большую часть в рационе. Например эти племена были оттеснены современной цивилизацией на территории, где звери встречаются не так часто и можно неделями ждать появления добычи. Так основной вклад в еду идет именно от женщин. Поэтому ключевую роль играет среда.

То есть модель "мужчина добывает мясо и защищает, а это главный фактор отбора" работает не везде и сильно зависит от условий. Я к тому, что все очень сильно зависит от среды и смешенных факторов: биология + культура + экология + история + ... другие факторы = среда. Поэтому нет универсальной модели мужчина-воин-добытчик.

26.04.2026 17:16:09

Sun, 26 Apr 2026 17:16:09 GMT

Про медведей на сколько я помню изучено почему это происходит. Так как это касалось не только медведей:

А у людей в племенах всё как раз по дарвиновски - кто лучше добывает жрачку и защищает самку, тот и больше детей имеет.

Это больше похоже на описание турнирных типов, а есть ещё парные виды. Человек это среднее между ними, и разброс поведения даже в различных племенах тоже разный.

В лекции Сапольского этот момент как раз хорошо было разобран. Я к тому, что описанный выше тезис про защиту самки больше подходит к турнирным видам, а про добывание еды тут все очень размыто. У ряда африканских племен, мужчины хоть и ходят на охоту, но основная еда поступает (или половина) от женщин которые занимаются собирательством. А есть африканские племена, которые фактически не охотятся, а едят корешки выкопанные из земли.

Я к тому, что было бы некорректно обобщать их всех. Так как там возникают сложные процессы, и социальный статус может сыграть большую роль (какой-нибудь шаман).

22.04.2026 08:10:47

Wed, 22 Apr 2026 08:10:47 GMT

Почему каждый раз читаю новости про технологические решения на хабре, это не разбор что конкретно было сделано?

Для начала стоило объяснить, что за архитектура OpenMythos и чем отличается. Архитектура состоит из трех ключевых этапов:

1. Prelude (Прелюдия)

Это входной блок стандартных слоев трансформера, которые выполняются ровно один раз. Его задача cформировать первичное латентное представление входного токена. Результат этого блока сохраняется и добавляется в каждый последующий цикл рекурсии, чтобы предотвратить "дрейф" или потерю контекста при глубоких вычислениях.

2. Recurrent Block (Рекурсивный блок)

Это основа OpenMythos. В нем данные входят в цикл (до 16 итераций). Используются одни и те же веса для каждой итерации. Это делает модель компактной, но «глубокой» с точки зрения вычислений. На каждом шаге t скрытое состояние h(t) обновляется с учетом исходного эмбеддинга из Prelude:

h(t+1) = TransformerBlock(h(t), e)

Внутри этого блока часто используется маршрутизация экспертов MoE, что дает возможность динамически выбирать нужные нейронные пути для решения конкретной подзадачи на каждой итерации.

3. Coda (Кода)

Финальный блок слоев, который также выполняется один раз, декодирует накопленное в циклах мышление в финальное распределение вероятностей токенов (логиты).

Как и в SSM, здесь главное рекуррентность. В классических трансформерах информация идет только вперед (feed-forward). В OpenMythos, как и в Mamba, текущее состояние зависит от предыдущего шага обработки.

Разница лишь в том, что в Mamba заменяет механизм внимания (Attention) на селективное сканирование (локальное внимание). OpenMythos оставляет Self-Attention внутри рекурсивного блока. То есть на каждом из 16 циклов модель заново смотрит на все остальные токены в контексте. Это дает точность и глобальное внимание трансформера, которых иногда не хватает рекуррентным сетям.

В обычной рекуррентной сети сигнал затухает. В OpenMythos на каждом цикле в блок подается не только результат предыдущего шага, но и исходный эмбеддинг из блока Prelude.

https://t.me/greenruff/2306

Это попытка сделать аналогию с мозгом. Хотя и очень ограниченная. В нем данные после таламуса поступают в область мозга аналогичную Recurrent Block. Затем поступают в MPFC (тут аналогии нет). Мы тут опускаем ACC и другие части. Главное что затем сигнал попадает в гиппокамп. При этом у рекуррентного блока слои 6 отдают сигнал ошибки так же таламус в ассоциативные ядра. Что я имею ввиду под аналогией?

Сигнал ошибки из слоя 6 попавший в ассоциативные ядра затем смешивается с сигналом от сенсорных ядер.
Сигнал из гиппокампа потом поступает в Recurrent Block и смешивается с сигналом от таламуса (который так же может быть смешан сенсорным и ассоциативным ядром). Механизм таламуса сложнее, но если грубо то так. Смысл в частичной аналогии, как в модели OpenMythos, входной сигнал смешивается со старым. По сути с памятью прежнего “размышления” и с ошибками, а так же с новой информацией. В OpenMythos это сделано более урезано, но само направление частично перекликается, но в более простой и ограниченной форме. Это можно было бы сравнить с чтением книги. Сенсорный сигнал - это информация прочтения абзаца. Затем обработанный сигнал через таламо-кортикальными петли снова идет на вход, где снова повторяется сигнал с прочитанного абзаца, словно пользователь прочитал и думает об этом не переходя дальше. Сравнение очень грубое и неточное, но сама идея частично перекликается.

Рекуррентный блок как раз в цикле ближе к гиппокамп (хотя без явного запоминания важных деталей - урезанная реализация). А вот аналога слоя 6 как ошибки, которая потом добавляется в начальные сенсорные данные, чтобы перестроить размышления (на альтернативные рассуждения) нет. Я вижу работы ассоциативные ядер от слоя 6 при смешивании с сенсорным сигналом, как усиление альтернативных направлений (если ошибка большая, то альтернативный маршрут может быть усилен). А в случае OpenMythos есть только смешивания сигнала с аналогом CoT, что ближе к гиппокампу, который снова идет на вход и смешивается с сигналом таламуса.

Рекуррентный блок в OpenMythos работает на удержание и уточнение контекста. Данные циркулируют, смешиваясь с «сенсорным» входом (Prelude), что функционально напоминает работу гиппокампа по поддержанию временных связей и формированию эпизодического кадра. Это похоже на внутренний монолог (Implicit CoT), где мы просто прокручиваем одну и ту же информацию. Но это пассивный процесс, он не меняет стратегию мышления на ходу.

В биологическом мозге слой 6 коры посылает проекции обратно в таламус. Если предсказание (Top-down) не совпадает с сенсорным входом (Bottom-up), возникает сигнал ошибки. В мозге высокая ошибка буквально переключает внимание таламуса на другие ассоциативные ядра. Это позволяет мгновенно сменить интерпретацию (например, когда ты понимаешь, что пятно в кустах это не тень, а тигр).

В OpenMythos этого нет. Там нет детектора рассогласования. Рекурсия идет по жестко заданному алгоритму. Если модель изначально начала с неверного рассуждения на первом цикле, она будет продолжать уточнять эту ошибку все 16 циклов, просто смешивая её с исходным сигналом. У неё нет механизма, чтобы определить что "Ошибка велика, забудь этот путь, попробуй альтернативную активацию экспертов (MoE)".

21.04.2026 21:45:32

Tue, 21 Apr 2026 21:45:32 GMT

Я бы рекомендовал ознакомиться с этим исследованием тут

Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.

Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.

Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.

11.04.2026 15:04:30

Sat, 11 Apr 2026 15:04:30 GMT

Все это не решает главную проблему, разрыв контекста при разбиении на чанки. Я часто вижу извращённые решения построения графов с выделение сущностей NER чтобы сохранить контекст банков, или ведение дополнительных тегов или как в статье выше. Но это костыль, а не решение которое поломается на различных данных. Например на юридических документах.

В данном исследовании Late Chunking эта проблема решается. Основная идея это метод создания эмбеддингов для RAG, при котором сегментация текста на чанки происходит после того, как весь текст был передан через модель эмбеддингов с длинным контекстом. То есть:

1) Сначала весь документ, или большая часть текста, обрабатывается моделью эмбеддингов с длинным контекстом. Модель получает весь текст сразу и генерирует эмбеддинги для всех токенов с учётом глобального контекста.

2) Затем из полученных токеновых эмбеддингов формируются отдельные эмбеддинги чанков (например, с помощью среднего/mean‑pooling по токенам внутри каждого сегмента).
Таким образом каждый итоговый чанк наследует весь контекст документа, а не только локальный кусок текста.

Проблема классического RAG, что каждый чанк видит только свой локальный контекст и при запросах может теряться смысл, связанный с информацией, которая находится в других частях документа. Поэтому используют разные извращённые подходы в виде графов, дерева, меток и прочего нагромождения которое не решает полностью проблему и не работает на многих документах.

В видео есть пример со статьей из Вики, где:

Париж столица Франции.... (где то в середине текста) его население более 18 млн человек...

Если делать как описано в статье или других костылях, то мы получаем потерю связи про численность (чанк не связан) или он окажется близок и к Парижу и к Лондону и к Москве и т.д.
Это отлично видно, если мы возьмём сложные и длинные юридические документы, где будет много сущностной связанных друг с другом, и с учётом что они могут быть разные, то костыли ломаются (какого только изврата не видел и не наслушался).

07.04.2026 15:25:07

Tue, 07 Apr 2026 15:25:07 GMT

Это просто разложение цены через IMF на компоненты. Подобно как разложение Фурье, только Фурье тут не стабилен (хотя IMF тоже не идеален). Получаем несколько компонент, затем находим все пики колебаний у каждой компоненты и угол наклона (разница между пиками деленная на временной интервал между пиками). И затем выводим комбинацию (значение пика; угол наклона).

https://t.me/greenruff/2578

Тут выкладывал в комментариях код как разложить.

Я просто подобным образом анализировал раньше речь через форманты, когда нашел закономерности. И просто решил проверить это на финансовых графиках. Меня прежде всего интересовала плотность распределения углов наклона, а выше получился как побочный график. Проблема IMF в том, что ближе к концу данных она не очень стабильная и на молодых рынках (вроде Тинькофф) даёт скорее хаос, особенно на крипте (на ней колебания имеют огромную частоту и на дневных графиках вращение может сделать полный оборот). А вот там где рынок давно (евро доллар, золото, нефть..) там все более плавно вращается.

Я в свою очередь пробовал проверить, есть ли момента, когда все сильные колебания направлены в одну сторону. То есть все компоненты имеют одинаковый тренд. Оказалось что таких моментов практически нет.

Для примера евро доллар, колебания стабильные. Интересны только IMF больше 4, так как именно они вносят основной вклад в цену.

Но это если что не стратегия и я ни к чему не призываю и не утверждаю. Просто интересное наблюдение. Например, оссоциляции Nvidia совпадают с индексом чего то там (забыл индекс топ компаний), то есть Nvidia влияет так или это общий тренд , я не знаю. Мой интерес был исследовательский. Просто он меня немного ставит в тупик. Что первично, события и колебания отражают подготовку к ним, или колебания и какие-то события потом наступают как спусковой крючок.

07.04.2026 12:39:43

Tue, 07 Apr 2026 12:39:43 GMT

Газпром

Ну по сравнению с тем же Газпромом, NVidia более хаотичная. Малые IMF всегда колеблятся очень быстро. У газпрома на дневных графиках они превращаются фактически в линии (быстро вращение и от спирали видим только линию туда-обратно). Но в целом все российские, словно на ручном регулировании ходят по кругу (что сбер, тинькоф и остальные). А NVidia, Tesla это прям красивые колебания по спирали. Выше, что самое интересное, изображение для Газпрома делал до того как на ближнем востоке случилось. И сами изображения говорят, что дальше по спирали снова вверх на сильных осцилляциях. То ли рынок уже ждал этого, то я скоро начну верить что все события предрешены в какой-то форме. Я не могу объяснить, то что выше. Но интересно, что будет с Nvidia.

07.04.2026 09:17:18

Tue, 07 Apr 2026 09:17:18 GMT

Насчет пузыря не знаю, но то что NVidia будет дешеветь, тут не нужно быть Нострадамусом.

NVidia

Из любопытства делал разложение IMF, чтобы проверить плотность распределения вероятности динамики у фин инструментов и заодно просто смотрел разные интерпретации. Выше NVidia.

по оси X угол наклона, а по оси Y вклад в стоимость. Зеленым - текущее значение + аппроксимация

Так вот если мы посмотрим на них, то по своей природе они делают осцилляционные движения по спиралевидной форме, колебания. Самые большие IMF дают наибольше вклад и они самые медленные. Ну так вот, самые крупные сейчас на пике, дальше колебания все равно будет вести их вниз. А более мелкие хотя и сдерживают цену, но особо вклад не вносят.

Я не знаю что произойдет, то ли Китай выпустить карты новые, то ли модели удешевятся, то ли тема ИИ начнет сдуваться в плане покупки мощностей. Но явно что через год, это начнет потихоньку затихать, хотя бы для NVidia не оправдав ожиданий.

05.04.2026 13:14:03

Sun, 05 Apr 2026 13:14:03 GMT

Я бы был немного аккуратнее с ожиданиями. Прогресс действительно быстрый, но говорить о том, что осталось совсем немного до систем, которые обобщают на порядки лучше человека, пока преждевременно.

Архитектуры вроде JEPA (включая V-JEPA), конечно важный шаг, но у них есть фундаментальное ограничение. Они оптимизируют расстояния в евклидовом латентном пространстве, тогда как реальная структура данных задаётся все таки вероятностной геометрией (через лог-вероятности и дивергенции типа KL). Локально это совпадает (через квадратичную аппроксимацию), но глобально нет. Как итог, такие модели сейчас требуют дополнительных трюков, типа регуляризаций и аккуратного обучения.

То есть идея в целом правильная, чтобы учиться в пространстве представлений, а не в пикселях или токенах. Но текущая реализация скорее приближение, а не полноценная реализация этой геометрии. Там еще работать и работать...

Так что прогресс есть, но точно не экспоненциальный без ограничений. Языковые модели не столько упёрлись в потолок, сколько вышли на стадию насыщения в базовой архитектуре. Поэтому сейчас основной рост сместился за счёт инженерных решений вроде специализированных моделей, мультимодальности, агентных систем и интеграция с разными инструментами.

Так что хотя движение есть, но фундаментальные ограничения (в том числе геометрические и статистические) пока никуда не делись. И до качественного скачка уровня, когда модель сильно превосходит человека в обобщении пока еще далековато.

03.04.2026 19:16:44

Fri, 03 Apr 2026 19:16:44 GMT

Меня поражает, что в России так зациклены на трансформерах и агентах. Я слежу за исследованиями и работами в области нейронок и на западе сейчас усиленно развивают Jepa. Она сырая, в ней есть математические ошибки, но это следующий шаг. Так как проблема чистых llm или современных мультимодальных в том что они построены на трансформерах и не работают в пространстве обобщающих данных. Именно к этому стремиться Jepa. По этой причине, чисто языковые модели не могут обобщать данные в абстрактной форме. Они работают в одном пространстве текста или видео.

Если смотреть на развитие с точки зрения чисто языковых моделей или их расширений мультимодальных (которые все равно привязаны к тексту), то они не могут абстрагироваться. То есть обобщить данные. Это как недавно в статье про рентгеновские снимки, они учат шум и пытаются работать с пикселям. То же самое языковые модели на уровне кода, не обобщают код на уровне целостной системы.

У человека есть область в мозге, которая обобщает условно предсказания "текста/речи" , "зрения", моторики и другие. Обобщает эти сигналы в новом пространстве и уже дальше формируется целостная картина. И это минимум.

Поэтому пока что llm это инструмент. Мощный, удобный, который может работать на одном уровне абстракции, например текста в рамках дальних связей (на сколько они хорошо обучены). Но он не скажет вам, что внося измените в эту часть кода, вы поломаете другой модуль. Потому что это уже верхний уровень абстракция, которого у языковых моделей просто нет. Она узнает о поломке, только кода код в том месте выдачи ошибку.

02.04.2026 16:00:56

Thu, 02 Apr 2026 16:00:56 GMT

Вообще-то все гораздо сложнее. Недавно попадалось видео с исследованиями про работа со снимками с рентгеновскими снимками и ультразвуковыми.

https://www.youtube.com/watch?v=dTKg-fA8ttU

Простые сетки в виде трансформеров или диффузионных моделей тут не подходят. Они обучаются шуму, а не абстрагированию. Поэтому они реконструируют шум. Задача же оценки снимках, как раз смотреть на это ни как на шум, а как на целостный объект.

Проблема в том, что эти снимки в отличии от обычных изображений построены на шуме.

И для работы с ними и распознавании на них, нужно работать не на уровне точек, а на уровне абстракций. Поэтому трансформеры и диффузионные модели тут бесполезные, так как они пытаются запомнить шум на уровне пикселей и работать с ним. Тут как раз авторы пробуют применить доработанный вариант Jepa.

Таким образом переходим от постановки задачи - какого цвета пиксель и что это за пиксель, а задаче что это за объект. Напомню, что данные снимки построены на стохастическом шуме. И авторы показывают, что привычные модели просто не могут нормально работать на данном уровне.

Как итог, трансформеры и диффузионные модели пытаются классифицировать и восстанавливать пиксели, которые являются шумом и поэтому для подобных снимков их качество очень низкое. В то время как подход с Jepa построен на абстрагировании модели.

Это я к тому, что просто взять снимки и скормить их сетке, лишено смысла. Так как мы получим в реальности плохое качество, можно конечно подогнать. Но в реальности результат подойдет только для инвесторов и PR-маркетинга. Человек в этом случае как раз абстрагируется, в этом разница. Собственно в видео делали это через Jepa, чтобы улучшить показатели.

29.03.2026 12:32:59

Sun, 29 Mar 2026 12:32:59 GMT

Не заменит. Ниже визуализация дневных данных

Золото

Вот так выглядит вращение отдельных компонент у золота.

По X это угол наклона, по Y это значение пика. Это анализ динамики, через градиенты и пики.

Биткоин

А это биткоин. Говорить о том, что биткоин что то защищает, это как играть в русскую рулетку. Он вращается с огромной скоростью и сегодня вы защитили, через месяц уже наоборот все потеряли.

В комментариев выкладывал и другие графики от сырья, валют и акций:

https://t.me/greenruff/2579

Если мне память не изменяет, то например та же Nvidia сейчас на пике и дальше там идёт падение для крупных компонент, которые вносят основной вклад в оссоциляции. Так что видимо хайп по языковым моделям все таки будет утихать.

Сбер

Что касается Сбера, как написали выше. То да, видно, что основные компоненты оссоциляции росли последним годы. Но дальше у них только падение. Так как это колебательные осцилляторы, которые вращаются по спиралевидной форме, и физически не могут сменить направление. Так что от Сбера явно лучше избавляться. Видимо проблемы в экономике сильно скажутся на нем.

14.03.2026 13:28:17

Sat, 14 Mar 2026 13:28:17 GMT

Чтобы заниматься фундаментальными исследованиями для развития ИИ, миллиарды денег не нужно. Проблема тут не в деньгах, а в мышлении компаний. Я тщательно слежу за научными работами Сбера и Яндекс по ИИ и надо признать, что они слабые. Нет ни одной фундаментальной работы.

На сегодня в России к сожалению слабая школа в области нейронных сетей. Классический фундамент дают, но именно чтобы создать и изучать новое, нет.

Я много смотрю по другим работам, тех же импульсных нейронок в РФ, там не хватает мат базы.

Работы того же Фристона по FEP свободной энергии, изучают глубоко несколько человек, но изучают, а не развивают.

Те же работы Jepa, тесно связанные с EBM, в России вообще пока игнорируют и часто даже не понимают, сводя все к шутливому названию. Хотя там главное совсем в другом, так как они доказали что движутся в правильном направлении. И на западе это сейчас тема номер 1 в исследованиях.

И получается, вместо фундаментальной математики и развития научного направления, сейчас у нас все сводится к тому, чтобы взять открытые модели и дообучать их на русскоязычном датасете. Как бизнес подход это правильно, но в плане развития это значит, что мы отстали лет на 10.

Так что какой смысл выделять субсидии, чтобы просто сжигать их? Когда можно направить все усилия в научном направлении, чтобы сделать рывок. Это долго, но это единственный правильный реальный путь развития. Сейчас же Сбер и Яндекс это АвтоВАЗ, с той разницей что все автомобильные технологии, которые можно взять, есть в открытом доступе. Надолго ли такая тенденция продлится? И это всегда стратегия 10 ого места, не позволяющая даже приблизиться к лидерам.

12.03.2026 14:39:38

Thu, 12 Mar 2026 14:39:38 GMT

Jepa на самом деле лишь косвенно связана с трансформерами. Ей без разницы, что там SSM или другое. Это близко к EBM модели Friston о свободной энергии. Текущие LLM это безусловно тупик, так как логика Jepa в том, что система ничего не знает что нужно обучить. Она "пытается" привести два разных распределения к одному общему, в этом и заключается обучение. В этом сильная сторона Jepa и правильная. Но конечно там проблем много, так как в отличии от EBM (работа с "энергией") в Jepa мы работаем с эмбеддингами. Даже если они описывают энергию, там нужно это учитывать в архитектуре. Так что основа Jepa (пусть и пересмотренная и измененная) в итоге придет на замену текущим LLM.

Опять у нас с отставанием смотрят на все это. В тех же Штатах, сейчас очень много внимание уделяется работам и исследованиям самой логики Jepa подхода и на развитию этого архитектурного подхода.

07.03.2026 23:41:56

Sat, 07 Mar 2026 23:41:56 GMT

Немного не в тему МНК, но в тему прогнозирования. Google не давно выпустил модель TimesFM

https://github.com/google-research/timesfm

Они натренировали ее огромном массиве данных. Тут в виде разбирается эта работа

Ее идея аналогична LLM, но для time series. Обученная на огромном количестве разных временных рядов. Размерность около 200M параметров, обучение на 100 млрд точек временных рядов и разных доменах (Google Trends, Wikipedia, температура и все что смогли найти, включая синтетические данные). Поэтому может прогнозировать любой новый ряд без обучения.

Отличие в том, что обычные модели это t1 t2 t3 t4 t5 ... каждый временной шаг это токен. TimesFM разбивает временной ряд на patches [t1 t2 t3 t4] [t5 t6 t7 t8] [t9 t10 t11 t12] каждый patch это токен. Это дает меньше токенов, длинный контекст и главное лучше предсказание. Так как модель предсказывает сразу patche, то есть связанную последовательность шагов. Это снижает аккумуляцию ошибки.

Можно взять новый ряд и сразу прогнозировать, без обучения. Одна модель может работать с финансовыми рядами, продажами и другими данными. Patch decoding позволяет эффективно предсказывать длинные последовательности.

Из минусов только, что очень длинных прогнозов инференс может быть медленным и если в некоторых случаях обучить модель специально на одном датасете, она может обогнать TimesFM.

В виде это хорошо разобрано. Да, с МНК тут связь "слабая") но думаю что те кто пропустил модель и используют МНК для прогнозирования продаж, им это будет очень полезно.

Про статью, внесу небольшое уточнение:

если связь нелинейная, МНК может давать смещенные оценки

Это не совсем корректно. МНК остаётся корректным, если модель линейна по параметрам. Даже если зависимость сложная, например: y = β0 + β1*log(x) + β2*x^3. Тут можно переписать как y = X*β, где X=(1, log(x), x^3). Поэтому МНК применим.

Нелинейно, в правильном ключе она была бы при:

y = β0 + e^(β1*x)

или

y = β1*β2*x

или

y = x^β1