Я пока в течении недели разбирался с теоремами и архитектурой и кодом, частично через сетки, частично в фотошопе сделал данные изображения, можете если нужно что-то вырезать из них. Это облегчит задачу, так как сетки плохо генерируют такие картинки (пробовал в разных, даже с учетом подробного описания, выходило в большей части мусор), поэтому пришлось делать сначала крупные картинки (по частям генерировать фрагменты) и собирать их в фотошопе (хотел сначала в комментарии приложит именно их), но потом решил что это будет не очень понятно.
Поэтому замечательно если их переработать и написать наглядно не доказательную часть, а визуально объясняющую. Я их делал исходя из того, как их понял архитектуру с кодом и теоремы.
И чтобы добавить веса, стоит все таки провести аналогию с OpenMythos, чтобы было проще понять общую идею.
А предложенное архитектурное решение и доказательства теорем - интересные.
Потратил около недели, чтобы вникнуть в теоремы, код и статьи. Мне кажется, надо было тут делать упор не на доказательства, а в целом и затем просто ссылку на доказательства теорем. Архитектура, теоремы и подход в целом интересный и надо было его преподнести иначе. И заодно надо было сравнить со схожими архитектурами, так как предложенная в общем смысле перекликается решением той же проблемы, что и OpenMythos.
Чтобы те, кто читали статью лучше поняли, что автор предложил, попробую описать ниже. Возможно, я где то ошибся и меня поправят, но из того что я изучил в теоремах, условиях и так далее, то это выглядит так:
Предположения при доказательствах
Предположения (ограничения) в теоретическом анализе архитектуры Sessa. Эти предположения вводятся, чтобы доказать теоремы о памяти, затухании и избирательном извлечении информации.
Общие предположения при доказательстве теорем
Во многих местах предполагается, что s=f+Bs где:
f — фиксированная функция входа
B — линейный оператор
это означает, что система считается линейной, нет сложных нелинейных взаимодействий, хотя в реальности B зависит от x и есть нелинейности (tanh, softmax), поэтому доказательства следует рассматривать как идеализацию динамики.
Так же вводится ограничение на γ: 0 < γmax<1. Это нужно чтобы (I−B)^−1 существовала (то есть система была устойчивой). Влияние прошлого не должно «взорваться», спектральный радиус B<1, иначе система может стать неустойчивой и память стремится к бесконечности.
Предположение о структуре attention
Для доказательств обычно предполагается, что attention веса регулярные, не вырождаются и имеют определённую гладкость. В частности A(t,i)∼smooth function of (t−i). То есть веса не случайные и есть структура по расстоянию. Это ломается, если attention в реальности спайковый, шумный или нестабильный.
Вводится предположение, что у матрицы B есть собственные значения, плотно расположенные около 1. Формально спектральный радиус близок к 1 и плотность собственных значений не дискретная. Это означает, что система «почти не затухает».
Это важное предположение. Если eigenvalues далеко от 1 → экспоненциальное затухание, eigenvalues около 1 → медленное (power-law).
Так же, при доказательствах часто полагается, что статистические свойства не зависят от позиции и система «однородна по времени». Это упрощает анализ: B(t,i)≈B(t−i).
Так же делается предположение о бесконечной длине последовательности. Для вывода асимптотики: ℓ→∞, анализируется поведение на очень больших расстояниях. Поэтому надо учитывать это, когда контекст ограничен (например, 4k–1M токенов).
Так же неявно предполагается, что (I−B) обратима. Это требует отсутствия сингулярности и собственных значений = 1, иначе система не имеет решения или имеет бесконечно много решений.
Для теоремы про отсутствие затухания, делается предположение, что существует структура B, где некоторые направления почти не затухают и есть «устойчивые моды». То есть «каналы памяти», которые не исчезают. Это конструктивное предположение, где показывается, что это возможно, но не гарантирует, что обучение найдёт это.
Если система ведёт себя как в предположениях, то появляется power-law память. Поэтому следует интерпретировать это как возможный режим у модели, в котором она принципиально сильнее.
Теоремы Sessa: математика памяти и внимание.
Sessa – это рекуррентная система, в которой внимание (attention) встроено в обратную связь. Теоремы показывают, что такая система обладает сильной и управляемой долговременной памятью.
Теоремы доказываются не для полной нейросети из кода, а для упрощённой математической модели. В них доказываются свойства «ядра механизма», а не всей архитектуры.
В контексте статьи каузальность это когда состояние s(t) зависит только от прошлых индексов i<t, то есть B(t,i)=0 для i≥t. То есть будущее не влияет на прошлое (модель идёт слева направо). Это даёт треугольную структуру матрицы B.
Матрица B имеет вид треугольной структуры, это означает что зависимости идут только “назад” и является эквивалентом DAG (ориентированный ациклический граф) во времени.
Такая матрица позволяет решать систему последовательно s1→s2→s3→... чьл гарантирует отсутствие бесконечных циклов и корректность решения.
В линейной алгебре спектр — это набор собственных значений λ(i). В данной работе он означает насколько сильная обратная связь. Главным условием является ρ(B)<1, где ρ(B) — спектральный радиус (максимальное |λ|). В этом смысле:
если ∣λ∣<1 → система устойчива
если ∣λ∣≈1 → долгоживущая память
если ∣λ∣>1 → взрыв (нестабильность)
Так же теоремы требуют, что спектр не выходит за пределы единичного круга, чтобы можно было разложить решение в ряд и тогда память равна сумме влияний на всех глубинах.
Если спектр B плотно расположен около 1 и есть много собственных значений ≈ 1, тогда B(k)∼k^(−β), то несть много медленно затухающих мод, которые суммируются и дают степенной закон. Это главный результат, который говорит, что память в этом случае не экспоненциальная, а степенная.
Так же есть один важный технический момент. Attention в B должен быть нормирован (softmax), ограничен и не давать взрывных значений. Это означает ограниченность ∣B(t,i)∣≤γmax<1, стабильность так как сумма весов не растёт и локальное нормировка (влияние распределено). Это нужно, чтобы гарантировать ρ(B)<1 что дает сходимость ряда и корректность решения.
Теорема 1 про существование и устойчивость памяти доказывает, что система (I−B)s=f корректно определена и имеет единственное решение.
Теорема 2 про power-law память показывает, что влияние прошлого затухает как O(ℓ^−β), 0<β<1.
Теорема 3 про селективное извлечение показывает, что возможны режимы, где влияние не стремится к 0 при ℓ→∞.
В доказательствах видно, что сначала речь идет доказательство из каузальности → следует треугольность. Затем из треугольности, что система решается однозначно.
Затем идет разложение и оценка оценка B^k, которая анализирует как быстро уменьшается B(k).
Следом используя свойства спектра, выводится скорость затухания и получается influence∼ℓ^−β.
Теорема про selective retrieval заключается в том, что существуют такие B, где некоторые собственные значения ≈ 1 и соответствующие компоненты не затухают. Это означает, что модель может держать важную информацию бесконечно долго.
В работе делается предположения, что attention контролируемый, ограниченный γ и о структуре спектра. Это значит, что результаты не универсальны для любых весов, но достижимы конструктивно.
В этом случае из теорем следует, что память может быть степенной → лучше long-range, возможна выборочная память→ selective retrieval, модель устойчиво определена → нет взрывов и Attention становится частью динамики.
Таким образом теоремы показывают, что если сделать память как линейную систему с attention-ядром и правильно ограничить её спектр, то можно получить качественно новый режим памяти.
Теоремы показывают, что Sessa - это устойчивая казуальная динамическая система с attention-оператором, которая может реализовать сильную, долговременную память и селективную память.
Архитектура: Sessa (Selective State Space Attention)
Архитектура строит память, как устойчивое состояние системы с обратной связью, внутри которого работает attention.
В отличие от Transformer, где attention используется как одношаговый механизм чтения контекста, Sessa встраивает attention внутрь рекуррентной системы обратной связи. Это превращает вычисление представления из простого взвешенного суммирования в задачу нахождения самосогласованного состояния, где токены многократно влияют друг на друга через attention. В результате память не просто извлекается, а формируется как устойчивое состояние динамической системы.
В Transformer токены взаимодействуют один раз, а влияние прямое и плоское. Вроде: A → D
В Sessaтокены взаимодействуют много раз через цепочки, влияние распространяется как в сети, как:
A → B → C → D
A → C → D
A → D
...
Это важно, так как в Transformer влияние токенов быстро размывается, а в Sessa оно накапливается, распространяется и дольше сохраняется. Таким образом превращает attention из операции чтения в динамическую систему памяти с обратной связью.
Вместо того чтобы один раз посмотреть в прошлое (как в Transformer), модель многократно пересчитывает память, позволяя токенам влиять друг на друга через цепочки attention-связей.
В Transformer каждый токен влияет на результат один раз на слой, а глубина = число итераций взаимодействия.
В Sessa взаимодействия происходят многократно до сходимости (через inverse / series).
Ключевой момент: Bⁿ (это то, чего нет в Transformer)
s=f+fB+fB2+fB3...
здесь B это attention-граф, B2 влияние через 2 шага, Bk влияние через k переходов. В Transformer есть только B (один шаг), а глубина ≈ количество шагов. В Sessa сразу есть все Bk.
В Transformer каждый токен один раз смотрит на прошлые токены и получает взвешенную сумму.
В Sessa каждый токен сначала извлекает информацию, а затем эта информация проходит через систему взаимных влияний между всеми предыдущими состояниями.
Power-law в Sessa возникает потому, что рекурсивная attention-система с обратной связью создаёт спектр памяти без характерного масштаба, что математически эквивалентно смеси бесконечного числа экспоненциальных затуханий — а такая смесь в критическом режиме всегда даёт степенной закон.
В обычных моделях информация либо размывается (Transformer), либо затухает экспоненциально (RNN/SSM), а в Sessa информация убывает медленно → остаётся значимой даже через большое время. Это значит, что модель лучше помнит дальний контекст.
Transformer — читает прошлое,
SSM — сжимает прошлое,
Sessa — пересобирает прошлое через систему взаимных влияний.
Вместо одного чтения истории (как в Transformer), строится память как устойчивое состояние системы, где внимание участвует в прямой передаче информации и в обратной связи. Это создает много путей влияния прошлого на будущее.
Сравнение архитектур: OpenMythos и Sessa
Два разных подхода к глубокой обработке контекста.
OpenMythos - это гипотеза архитектуры типа Recurrent-Depth Transformer (RDT).
Таким образом модель думает итеративно, а не за один проход как классический Transformer.
Что делает Sessa: s= f *(I−B)^−1
или: state = attention + feedback(state)
В отличии от OpenMythos, это не loop по времени, а решение фикс-точки.
Обе архитектуры делают одно и то же на концептуальном уровне: мышление — это не один проход, а процесс. Таким образом обе модели отходят от «one-pass computation» к динамическому процессу.
Но дальше начинается ключевое различие, хотя они похожи философски, но математически — это разные классы моделей.
OpenMythos → h(k+1)=F(h(k),x) - это итеративный процесс с явным loop. Мышление в глубине сети, повторяются слои и Transformer внутри loop, что формирует глубину по времени.
У этих моделей был разный токенизатор? Если разные, то на выходе может быть бред, ведь вклад токенов другой.
У этих моделей были разные эмбеддинги? Если разные, то это значит, что информационные связи нарушаются. В одном случае связь король + мужчина может сместиться в огурец + вино.
С переносном FFN в MoE как раз меньше всего проблем. Классические Трансформеры FFN и MoE не особо сильно отличаются. То что так любят называть экспертами, по сути это разрезание глобального FFN на несколько частей, каждая из которых более качественно аппроксимирует и выделяет часть глобального FFN. То есть глобальный FFN теряет точность, из за ограничения размеров. Поэтому мы можем по сути взять его участки и расширить их размерность. Это можно представить через аналогию с функцией описывающей N колебаний. Чтобы апроксимировать все N колебаний, нам нужна FFN с большой размерностью, но мы можем разложить ее на N частей, где каждый FFN будет описывать свое колебание с более высокой точностью (функция больше не пытается апроксимировать все N). Так как на практике в статической модели, только некоторые колебания имеют наибольшую ценность, то остальные можно ~ игнорировать (поэтому говорят про активные веса в MoE) и MoE выбирает одну из FFN (эксперта). Само разбиение в MoE как раз и происходит по интервалам после голов. Это как разбить линейку на участки. Если участок 1 сильнее остальных, значит аппроксимируем на основе него.
Я ускорял обучение MoE за счёт того, что сначала обучал модель с одним FFN, затем копировал его значение во всех экспертов (несколько FFN) и затем дообучал. Таким образом при дообучении, модель детализирована каждый из своих участков. Это давала ещё один плюс. Например, для какого-то эксперта не хватает данных при обучении. Если вдруг модель выберет его, результат будет не очень, а так они уже содержать глобальную информацию и даже если для данного эксперта не хватило данных при обучении, модель не начнет нести полный бред.
Второй подход, который ускорял обучение заключался в том, что сначала мы обучаем K блоков. Затем добавляем ещё один блок и копируем в FFN K+1 веса предыдущего K. Дальше модель детализирует его. Это ускоряет обучение, так как чем меньше блоков, тем быстрее обучение. По сути на каждой итерации мы дообучаем новый блок и согласовываем связи.
Дополню свой комментарий выше, чтобы было понятнее о чем идет речь.
Здесь более подробно про то, что реальная геометрия пространства кривая. В конце они предлагают свой подход к решению.
Здесь описывается про проблемы Jepa (на 15:50 точно есть об этом, но в целом в видео разбор исследования, где описывается эта проблема и попытка не решения).
Здесь про то, как сейчас решают проблему Jepa (7:45) через дополнительный член штрафа SIGReg на основе распределения Коши. Здесь проблему пытаются решать через теорему Крамера — Вольда (9:20).
То о чем я написал выше, как раз рассмотрено в этом видео про Jepa. Тут разбирается исследование, где как раз речь идет про изогнутые поверхности в рамках Jepa (правильнее сказать в рамках вероятностей).
Здесь ещё одна попытка решения проблемы обучения V-Jepa (7:00), через измение обучения, коэффициенты и прочие ухищрения
Ещё одно исследование и попытка обучения кривизне пространства при обучении Jepa.
На самом деле исследований и попыток решить эту проблему сейчас очень много. Но безупречно рабочей нет (как с трансформерами), почти везде ручные настройки и прочие ухищрения.
1) там ошибки именно фундаментальные. Это не значит, что Jepa не работает или не правильная. Как раз она правильная, но из-за того чем она на самом деле является можно сказать что там ошибка. Хотя, правильно сказать не ошибка, а "даже не знаю какое слово подобрать".
Дело в том, что JEPA минимизирует евклидову дивергенцию, но не гарантирует согласование с информационной геометрией распределений. Она реализует KL второго порядка только в частном, локальном и структурно согласованном случае. Глобально изометрия невозможна на основе Jepa, поскольку KL не является евклидовой метрикой. Я скоро опубликую доказательство.
То есть Jepa работает, но локально на ограниченных участках и при других условиях и ломается глобально. Это изображение из будущей статьи, надеюсь оно немного наглядней объяснить суть. Латентное пространство на самом деле кривое (аналогия с земным шаром), но локально оно Евлидовое (прямой участок земли). Вот Jepa как раз реализует локальную геометрию на небольших участках - это доказывается математически. Но глобально она ломается, так как не учитывает кривизну. Поэтому при обучении Jepa там возникает множество проблем с обучением, когда все ломается и приходиться придумывать извращенные способы при обучении.
2) это не значит что Jepa не работает. Локально она работает. Но ломается в разных ситуациях, что приводит к тому, что приходиться ручками придумывать разные как это исправить. Когда она пытается все свести к плоскости при обучении (надо найти видео с этими исследованиями о проблемах Jepa при обучении).
В любом случае, сам подход Jepa и направление выбрано правильно. Jepa работает, но при выполнении ряда условий, которые могут не выполняться глобально, но сам подход можно исправить.
При разборе RAG, стоило найти современные решения ряда проблем.
Например:
Реальное решение проблемы чанкования.
Увидеть, что часть описанного вами в реальности работает плохо и как это решить. В частности использование RAG в медицине. То есть разделив на базовую часть и практическую.
Выше два примера исследований, но их можно привести больше.
Лучше убирать часть воды (LLM любит раздувать), и этот текст потратить на разбор современных исследований/решений. Так как часть из них на английском и не скоро дойдут до русскоязычной аудитории.
Странное ощущение. С одной стороны DeepMind как R&D компания и странно такое слышать от них, с другой - это глава компании и его слова не про AGI, а про ожидания рынка которые он должен подогревать.
В данном случае однозначно на стороне Яна ЛеКуна. Современные LLM на трансформерах это тупик, как минимум из-за статики. И ещё ряд других ограничений. Хотя сейчас есть, попытки уйти от этого:
MesaNet - механизм внимания как сетка с постоянным вызовом метода обратного распространения для мини сеток. В остальном это трансформер.
Mythos - так же трансформеры, но со смешиванием данных вместо текстового CoT.
Mamba3 - локальный механизм внимания. При расширении преимущества шире, чем трансформеры. Но пока архитектура ограниченный механизм внимания.
Jepa ЛеКуна это даже не про выбор подхода - трансформер или другие как блок, а о том, что данные работают в других латентных пространствах, объединяющих разные типы данных. Текст это лишь один из типов сигнала, в которую данные могут преобразоваться и они далеко не всегда эффективные. Но у Jepa тоже есть ошибки в математическом подходе, но направление выбрано верно.
Не то чтобы я оспариваю сказанное, но оно выглядит слишком обобщающим. И это не всегда так многое зависит от среды и конкретной культуры. Например:
Hadza (Хадза) охотники-собиратели, у них нет постоянной боевой части, а социальная структура крайне эгалитарная, без доминирующих воинов-защитников.
Племена Mbuti (Мбути) известны как одна из самых мирных культур. Да у них есть охота, но нет идеи, что каждый мужчина вооружённый защитник и значимость распределена в племени. Женщины так же участвуют в группой охоте. Более того, они так же активно поддерживают единство общины и имеют равное право голоса при принятии коллективных решений. Помимо охоты, они также отвечают за сбор дикорастущих растений, приготовление пищи, воспитание детей и строительство домов.
Ну и яркий пример племена Semai. Один из самых ярких примеров анти-насильственной культуры. В них наоборот агрессия и воинственность социально подавляются.
В ряде обществ (тех же Hadza) женщины дают значительную долю калорий (иногда 50–80%) через собирательство Охота даёт белок и жир, но очень нестабильна.
Очень много племен сейчас, где собирательство играет большую часть в рационе. Например эти племена были оттеснены современной цивилизацией на территории, где звери встречаются не так часто и можно неделями ждать появления добычи. Так основной вклад в еду идет именно от женщин. Поэтому ключевую роль играет среда.
То есть модель "мужчина добывает мясо и защищает, а это главный фактор отбора" работает не везде и сильно зависит от условий. Я к тому, что все очень сильно зависит от среды и смешенных факторов: биология + культура + экология + история + ... другие факторы = среда. Поэтому нет универсальной модели мужчина-воин-добытчик.
Про медведей на сколько я помню изучено почему это происходит. Так как это касалось не только медведей:
А у людей в племенах всё как раз по дарвиновски - кто лучше добывает жрачку и защищает самку, тот и больше детей имеет.
Это больше похоже на описание турнирных типов, а есть ещё парные виды. Человек это среднее между ними, и разброс поведения даже в различных племенах тоже разный.
В лекции Сапольского этот момент как раз хорошо было разобран. Я к тому, что описанный выше тезис про защиту самки больше подходит к турнирным видам, а про добывание еды тут все очень размыто. У ряда африканских племен, мужчины хоть и ходят на охоту, но основная еда поступает (или половина) от женщин которые занимаются собирательством. А есть африканские племена, которые фактически не охотятся, а едят корешки выкопанные из земли.
Я к тому, что было бы некорректно обобщать их всех. Так как там возникают сложные процессы, и социальный статус может сыграть большую роль (какой-нибудь шаман).
Почему каждый раз читаю новости про технологические решения на хабре, это не разбор что конкретно было сделано?
Для начала стоило объяснить, что за архитектура OpenMythos и чем отличается. Архитектура состоит из трех ключевых этапов:
1. Prelude (Прелюдия)
Это входной блок стандартных слоев трансформера, которые выполняются ровно один раз. Его задача cформировать первичное латентное представление входного токена. Результат этого блока сохраняется и добавляется в каждый последующий цикл рекурсии, чтобы предотвратить "дрейф" или потерю контекста при глубоких вычислениях.
2. Recurrent Block (Рекурсивный блок)
Это основа OpenMythos. В нем данные входят в цикл (до 16 итераций). Используются одни и те же веса для каждой итерации. Это делает модель компактной, но «глубокой» с точки зрения вычислений. На каждом шаге t скрытое состояние h(t) обновляется с учетом исходного эмбеддинга из Prelude:
h(t+1) = TransformerBlock(h(t), e)
Внутри этого блока часто используется маршрутизация экспертов MoE, что дает возможность динамически выбирать нужные нейронные пути для решения конкретной подзадачи на каждой итерации.
3. Coda (Кода)
Финальный блок слоев, который также выполняется один раз, декодирует накопленное в циклах мышление в финальное распределение вероятностей токенов (логиты).
Как и в SSM, здесь главное рекуррентность. В классических трансформерах информация идет только вперед (feed-forward). В OpenMythos, как и в Mamba, текущее состояние зависит от предыдущего шага обработки.
Разница лишь в том, что в Mamba заменяет механизм внимания (Attention) на селективное сканирование (локальное внимание). OpenMythos оставляет Self-Attention внутри рекурсивного блока. То есть на каждом из 16 циклов модель заново смотрит на все остальные токены в контексте. Это дает точность и глобальное внимание трансформера, которых иногда не хватает рекуррентным сетям.
В обычной рекуррентной сети сигнал затухает. В OpenMythos на каждом цикле в блок подается не только результат предыдущего шага, но и исходный эмбеддинг из блока Prelude.
Это попытка сделать аналогию с мозгом. Хотя и очень ограниченная. В нем данные после таламуса поступают в область мозга аналогичную Recurrent Block. Затем поступают в MPFC (тут аналогии нет). Мы тут опускаем ACC и другие части. Главное что затем сигнал попадает в гиппокамп. При этом у рекуррентного блока слои 6 отдают сигнал ошибки так же таламус в ассоциативные ядра. Что я имею ввиду под аналогией?
Сигнал ошибки из слоя 6 попавший в ассоциативные ядра затем смешивается с сигналом от сенсорных ядер.
Сигнал из гиппокампа потом поступает в Recurrent Block и смешивается с сигналом от таламуса (который так же может быть смешан сенсорным и ассоциативным ядром). Механизм таламуса сложнее, но если грубо то так. Смысл в частичной аналогии, как в модели OpenMythos, входной сигнал смешивается со старым. По сути с памятью прежнего “размышления” и с ошибками, а так же с новой информацией. В OpenMythos это сделано более урезано, но само направление частично перекликается, но в более простой и ограниченной форме. Это можно было бы сравнить с чтением книги. Сенсорный сигнал - это информация прочтения абзаца. Затем обработанный сигнал через таламо-кортикальными петли снова идет на вход, где снова повторяется сигнал с прочитанного абзаца, словно пользователь прочитал и думает об этом не переходя дальше. Сравнение очень грубое и неточное, но сама идея частично перекликается.
Рекуррентный блок как раз в цикле ближе к гиппокамп (хотя без явного запоминания важных деталей - урезанная реализация). А вот аналога слоя 6 как ошибки, которая потом добавляется в начальные сенсорные данные, чтобы перестроить размышления (на альтернативные рассуждения) нет. Я вижу работы ассоциативные ядер от слоя 6 при смешивании с сенсорным сигналом, как усиление альтернативных направлений (если ошибка большая, то альтернативный маршрут может быть усилен). А в случае OpenMythos есть только смешивания сигнала с аналогом CoT, что ближе к гиппокампу, который снова идет на вход и смешивается с сигналом таламуса.
Рекуррентный блок в OpenMythos работает на удержание и уточнение контекста. Данные циркулируют, смешиваясь с «сенсорным» входом (Prelude), что функционально напоминает работу гиппокампа по поддержанию временных связей и формированию эпизодического кадра. Это похоже на внутренний монолог (Implicit CoT), где мы просто прокручиваем одну и ту же информацию. Но это пассивный процесс, он не меняет стратегию мышления на ходу.
В биологическом мозге слой 6 коры посылает проекции обратно в таламус. Если предсказание (Top-down) не совпадает с сенсорным входом (Bottom-up), возникает сигнал ошибки. В мозге высокая ошибка буквально переключает внимание таламуса на другие ассоциативные ядра. Это позволяет мгновенно сменить интерпретацию (например, когда ты понимаешь, что пятно в кустах это не тень, а тигр).
В OpenMythos этого нет. Там нет детектора рассогласования. Рекурсия идет по жестко заданному алгоритму. Если модель изначально начала с неверного рассуждения на первом цикле, она будет продолжать уточнять эту ошибку все 16 циклов, просто смешивая её с исходным сигналом. У неё нет механизма, чтобы определить что "Ошибка велика, забудь этот путь, попробуй альтернативную активацию экспертов (MoE)".
Я бы рекомендовал ознакомиться с этим исследованием тут
Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.
Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.
Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.
Все это не решает главную проблему, разрыв контекста при разбиении на чанки. Я часто вижу извращённые решения построения графов с выделение сущностей NER чтобы сохранить контекст банков, или ведение дополнительных тегов или как в статье выше. Но это костыль, а не решение которое поломается на различных данных. Например на юридических документах.
В данном исследовании Late Chunking эта проблема решается. Основная идея это метод создания эмбеддингов для RAG, при котором сегментация текста на чанки происходит после того, как весь текст был передан через модель эмбеддингов с длинным контекстом. То есть:
1) Сначала весь документ, или большая часть текста, обрабатывается моделью эмбеддингов с длинным контекстом. Модель получает весь текст сразу и генерирует эмбеддинги для всех токенов с учётом глобального контекста.
2) Затем из полученных токеновых эмбеддингов формируются отдельные эмбеддинги чанков (например, с помощью среднего/mean‑pooling по токенам внутри каждого сегмента). Таким образом каждый итоговый чанк наследует весь контекст документа, а не только локальный кусок текста.
Проблема классического RAG, что каждый чанк видит только свой локальный контекст и при запросах может теряться смысл, связанный с информацией, которая находится в других частях документа. Поэтому используют разные извращённые подходы в виде графов, дерева, меток и прочего нагромождения которое не решает полностью проблему и не работает на многих документах.
В видео есть пример со статьей из Вики, где:
Париж столица Франции.... (где то в середине текста) его население более 18 млн человек...
Если делать как описано в статье или других костылях, то мы получаем потерю связи про численность (чанк не связан) или он окажется близок и к Парижу и к Лондону и к Москве и т.д. Это отлично видно, если мы возьмём сложные и длинные юридические документы, где будет много сущностной связанных друг с другом, и с учётом что они могут быть разные, то костыли ломаются (какого только изврата не видел и не наслушался).
Это просто разложение цены через IMF на компоненты. Подобно как разложение Фурье, только Фурье тут не стабилен (хотя IMF тоже не идеален). Получаем несколько компонент, затем находим все пики колебаний у каждой компоненты и угол наклона (разница между пиками деленная на временной интервал между пиками). И затем выводим комбинацию (значение пика; угол наклона).
Я просто подобным образом анализировал раньше речь через форманты, когда нашел закономерности. И просто решил проверить это на финансовых графиках. Меня прежде всего интересовала плотность распределения углов наклона, а выше получился как побочный график. Проблема IMF в том, что ближе к концу данных она не очень стабильная и на молодых рынках (вроде Тинькофф) даёт скорее хаос, особенно на крипте (на ней колебания имеют огромную частоту и на дневных графиках вращение может сделать полный оборот). А вот там где рынок давно (евро доллар, золото, нефть..) там все более плавно вращается.
Я в свою очередь пробовал проверить, есть ли момента, когда все сильные колебания направлены в одну сторону. То есть все компоненты имеют одинаковый тренд. Оказалось что таких моментов практически нет.
Для примера евро доллар, колебания стабильные. Интересны только IMF больше 4, так как именно они вносят основной вклад в цену.
Но это если что не стратегия и я ни к чему не призываю и не утверждаю. Просто интересное наблюдение. Например, оссоциляции Nvidia совпадают с индексом чего то там (забыл индекс топ компаний), то есть Nvidia влияет так или это общий тренд , я не знаю. Мой интерес был исследовательский. Просто он меня немного ставит в тупик. Что первично, события и колебания отражают подготовку к ним, или колебания и какие-то события потом наступают как спусковой крючок.
Ну по сравнению с тем же Газпромом, NVidia более хаотичная. Малые IMF всегда колеблятся очень быстро. У газпрома на дневных графиках они превращаются фактически в линии (быстро вращение и от спирали видим только линию туда-обратно). Но в целом все российские, словно на ручном регулировании ходят по кругу (что сбер, тинькоф и остальные). А NVidia, Tesla это прям красивые колебания по спирали. Выше, что самое интересное, изображение для Газпрома делал до того как на ближнем востоке случилось. И сами изображения говорят, что дальше по спирали снова вверх на сильных осцилляциях. То ли рынок уже ждал этого, то я скоро начну верить что все события предрешены в какой-то форме. Я не могу объяснить, то что выше. Но интересно, что будет с Nvidia.
Насчет пузыря не знаю, но то что NVidia будет дешеветь, тут не нужно быть Нострадамусом.
NVidia
Из любопытства делал разложение IMF, чтобы проверить плотность распределения вероятности динамики у фин инструментов и заодно просто смотрел разные интерпретации. Выше NVidia.
по оси X угол наклона, а по оси Y вклад в стоимость. Зеленым - текущее значение + аппроксимация
Так вот если мы посмотрим на них, то по своей природе они делают осцилляционные движения по спиралевидной форме, колебания. Самые большие IMF дают наибольше вклад и они самые медленные. Ну так вот, самые крупные сейчас на пике, дальше колебания все равно будет вести их вниз. А более мелкие хотя и сдерживают цену, но особо вклад не вносят.
Я не знаю что произойдет, то ли Китай выпустить карты новые, то ли модели удешевятся, то ли тема ИИ начнет сдуваться в плане покупки мощностей. Но явно что через год, это начнет потихоньку затихать, хотя бы для NVidia не оправдав ожиданий.
Я бы был немного аккуратнее с ожиданиями. Прогресс действительно быстрый, но говорить о том, что осталось совсем немного до систем, которые обобщают на порядки лучше человека, пока преждевременно.
Архитектуры вроде JEPA (включая V-JEPA), конечно важный шаг, но у них есть фундаментальное ограничение. Они оптимизируют расстояния в евклидовом латентном пространстве, тогда как реальная структура данных задаётся все таки вероятностной геометрией (через лог-вероятности и дивергенции типа KL). Локально это совпадает (через квадратичную аппроксимацию), но глобально нет. Как итог, такие модели сейчас требуют дополнительных трюков, типа регуляризаций и аккуратного обучения.
То есть идея в целом правильная, чтобы учиться в пространстве представлений, а не в пикселях или токенах. Но текущая реализация скорее приближение, а не полноценная реализация этой геометрии. Там еще работать и работать...
Так что прогресс есть, но точно не экспоненциальный без ограничений. Языковые модели не столько упёрлись в потолок, сколько вышли на стадию насыщения в базовой архитектуре. Поэтому сейчас основной рост сместился за счёт инженерных решений вроде специализированных моделей, мультимодальности, агентных систем и интеграция с разными инструментами.
Так что хотя движение есть, но фундаментальные ограничения (в том числе геометрические и статистические) пока никуда не делись. И до качественного скачка уровня, когда модель сильно превосходит человека в обобщении пока еще далековато.
Меня поражает, что в России так зациклены на трансформерах и агентах. Я слежу за исследованиями и работами в области нейронок и на западе сейчас усиленно развивают Jepa. Она сырая, в ней есть математические ошибки, но это следующий шаг. Так как проблема чистых llm или современных мультимодальных в том что они построены на трансформерах и не работают в пространстве обобщающих данных. Именно к этому стремиться Jepa. По этой причине, чисто языковые модели не могут обобщать данные в абстрактной форме. Они работают в одном пространстве текста или видео.
Если смотреть на развитие с точки зрения чисто языковых моделей или их расширений мультимодальных (которые все равно привязаны к тексту), то они не могут абстрагироваться. То есть обобщить данные. Это как недавно в статье про рентгеновские снимки, они учат шум и пытаются работать с пикселям. То же самое языковые модели на уровне кода, не обобщают код на уровне целостной системы.
У человека есть область в мозге, которая обобщает условно предсказания "текста/речи" , "зрения", моторики и другие. Обобщает эти сигналы в новом пространстве и уже дальше формируется целостная картина. И это минимум.
Поэтому пока что llm это инструмент. Мощный, удобный, который может работать на одном уровне абстракции, например текста в рамках дальних связей (на сколько они хорошо обучены). Но он не скажет вам, что внося измените в эту часть кода, вы поломаете другой модуль. Потому что это уже верхний уровень абстракция, которого у языковых моделей просто нет. Она узнает о поломке, только кода код в том месте выдачи ошибку.
Простые сетки в виде трансформеров или диффузионных моделей тут не подходят. Они обучаются шуму, а не абстрагированию. Поэтому они реконструируют шум. Задача же оценки снимках, как раз смотреть на это ни как на шум, а как на целостный объект.
Проблема в том, что эти снимки в отличии от обычных изображений построены на шуме.
И для работы с ними и распознавании на них, нужно работать не на уровне точек, а на уровне абстракций. Поэтому трансформеры и диффузионные модели тут бесполезные, так как они пытаются запомнить шум на уровне пикселей и работать с ним. Тут как раз авторы пробуют применить доработанный вариант Jepa.
Таким образом переходим от постановки задачи - какого цвета пиксель и что это за пиксель, а задаче что это за объект. Напомню, что данные снимки построены на стохастическом шуме. И авторы показывают, что привычные модели просто не могут нормально работать на данном уровне.
Как итог, трансформеры и диффузионные модели пытаются классифицировать и восстанавливать пиксели, которые являются шумом и поэтому для подобных снимков их качество очень низкое. В то время как подход с Jepa построен на абстрагировании модели.
Это я к тому, что просто взять снимки и скормить их сетке, лишено смысла. Так как мы получим в реальности плохое качество, можно конечно подогнать. Но в реальности результат подойдет только для инвесторов и PR-маркетинга. Человек в этом случае как раз абстрагируется, в этом разница. Собственно в видео делали это через Jepa, чтобы улучшить показатели.
Вот так выглядит вращение отдельных компонент у золота.
По X это угол наклона, по Y это значение пика. Это анализ динамики, через градиенты и пики.
Биткоин
А это биткоин. Говорить о том, что биткоин что то защищает, это как играть в русскую рулетку. Он вращается с огромной скоростью и сегодня вы защитили, через месяц уже наоборот все потеряли.
В комментариев выкладывал и другие графики от сырья, валют и акций:
Если мне память не изменяет, то например та же Nvidia сейчас на пике и дальше там идёт падение для крупных компонент, которые вносят основной вклад в оссоциляции. Так что видимо хайп по языковым моделям все таки будет утихать.
Сбер
Что касается Сбера, как написали выше. То да, видно, что основные компоненты оссоциляции росли последним годы. Но дальше у них только падение. Так как это колебательные осцилляторы, которые вращаются по спиралевидной форме, и физически не могут сменить направление. Так что от Сбера явно лучше избавляться. Видимо проблемы в экономике сильно скажутся на нем.
Чтобы заниматься фундаментальными исследованиями для развития ИИ, миллиарды денег не нужно. Проблема тут не в деньгах, а в мышлении компаний. Я тщательно слежу за научными работами Сбера и Яндекс по ИИ и надо признать, что они слабые. Нет ни одной фундаментальной работы.
На сегодня в России к сожалению слабая школа в области нейронных сетей. Классический фундамент дают, но именно чтобы создать и изучать новое, нет.
Я много смотрю по другим работам, тех же импульсных нейронок в РФ, там не хватает мат базы.
Работы того же Фристона по FEP свободной энергии, изучают глубоко несколько человек, но изучают, а не развивают.
Те же работы Jepa, тесно связанные с EBM, в России вообще пока игнорируют и часто даже не понимают, сводя все к шутливому названию. Хотя там главное совсем в другом, так как они доказали что движутся в правильном направлении. И на западе это сейчас тема номер 1 в исследованиях.
И получается, вместо фундаментальной математики и развития научного направления, сейчас у нас все сводится к тому, чтобы взять открытые модели и дообучать их на русскоязычном датасете. Как бизнес подход это правильно, но в плане развития это значит, что мы отстали лет на 10.
Так что какой смысл выделять субсидии, чтобы просто сжигать их? Когда можно направить все усилия в научном направлении, чтобы сделать рывок. Это долго, но это единственный правильный реальный путь развития. Сейчас же Сбер и Яндекс это АвтоВАЗ, с той разницей что все автомобильные технологии, которые можно взять, есть в открытом доступе. Надолго ли такая тенденция продлится? И это всегда стратегия 10 ого места, не позволяющая даже приблизиться к лидерам.
Если будет нужно использовать в других статьях исходники выше, то выложил тут:
https://disk.yandex.ru/d/J1bS853ToIpgSg
Я пока в течении недели разбирался с теоремами и архитектурой и кодом, частично через сетки, частично в фотошопе сделал данные изображения, можете если нужно что-то вырезать из них. Это облегчит задачу, так как сетки плохо генерируют такие картинки (пробовал в разных, даже с учетом подробного описания, выходило в большей части мусор), поэтому пришлось делать сначала крупные картинки (по частям генерировать фрагменты) и собирать их в фотошопе (хотел сначала в комментарии приложит именно их), но потом решил что это будет не очень понятно.
Поэтому замечательно если их переработать и написать наглядно не доказательную часть, а визуально объясняющую. Я их делал исходя из того, как их понял архитектуру с кодом и теоремы.
И чтобы добавить веса, стоит все таки провести аналогию с OpenMythos, чтобы было проще понять общую идею.
А предложенное архитектурное решение и доказательства теорем - интересные.
Потратил около недели, чтобы вникнуть в теоремы, код и статьи. Мне кажется, надо было тут делать упор не на доказательства, а в целом и затем просто ссылку на доказательства теорем. Архитектура, теоремы и подход в целом интересный и надо было его преподнести иначе. И заодно надо было сравнить со схожими архитектурами, так как предложенная в общем смысле перекликается решением той же проблемы, что и OpenMythos.
Чтобы те, кто читали статью лучше поняли, что автор предложил, попробую описать ниже. Возможно, я где то ошибся и меня поправят, но из того что я изучил в теоремах, условиях и так далее, то это выглядит так:
Предположения при доказательствахПредположения (ограничения) в теоретическом анализе архитектуры Sessa. Эти предположения вводятся, чтобы доказать теоремы о памяти, затухании и избирательном извлечении информации.
Во многих местах предполагается, что s=f+Bs где:
f — фиксированная функция входа
B — линейный оператор
это означает, что система считается линейной, нет сложных нелинейных взаимодействий, хотя в реальности B зависит от x и есть нелинейности (tanh, softmax), поэтому доказательства следует рассматривать как идеализацию динамики.
Так же вводится ограничение на γ: 0 < γmax<1. Это нужно чтобы (I−B)^−1 существовала (то есть система была устойчивой). Влияние прошлого не должно «взорваться», спектральный радиус B<1, иначе система может стать неустойчивой и память стремится к бесконечности.
Для доказательств обычно предполагается, что attention веса регулярные, не вырождаются и имеют определённую гладкость. В частности A(t,i)∼smooth function of (t−i). То есть веса не случайные и есть структура по расстоянию. Это ломается, если attention в реальности спайковый, шумный или нестабильный.
Вводится предположение, что у матрицы B есть собственные значения, плотно расположенные около 1. Формально спектральный радиус близок к 1 и плотность собственных значений не дискретная. Это означает, что система «почти не затухает».
Это важное предположение. Если eigenvalues далеко от 1 → экспоненциальное затухание, eigenvalues около 1 → медленное (power-law).
Так же, при доказательствах часто полагается, что статистические свойства не зависят от позиции и система «однородна по времени». Это упрощает анализ: B(t,i)≈B(t−i).
Так же делается предположение о бесконечной длине последовательности. Для вывода асимптотики: ℓ→∞, анализируется поведение на очень больших расстояниях. Поэтому надо учитывать это, когда контекст ограничен (например, 4k–1M токенов).
Так же неявно предполагается, что (I−B) обратима. Это требует отсутствия сингулярности и собственных значений = 1, иначе система не имеет решения или имеет бесконечно много решений.
Для теоремы про отсутствие затухания, делается предположение, что существует структура B, где некоторые направления почти не затухают и есть «устойчивые моды». То есть «каналы памяти», которые не исчезают. Это конструктивное предположение, где показывается, что это возможно, но не гарантирует, что обучение найдёт это.
Если система ведёт себя как в предположениях, то появляется power-law память. Поэтому следует интерпретировать это как возможный режим у модели, в котором она принципиально сильнее.
Теоремы Sessa: математика памяти и внимание.Sessa – это рекуррентная система, в которой внимание (attention) встроено в обратную связь. Теоремы показывают, что такая система обладает сильной и управляемой долговременной памятью.
Теоремы доказываются не для полной нейросети из кода, а для упрощённой математической модели. В них доказываются свойства «ядра механизма», а не всей архитектуры.
В контексте статьи каузальность это когда состояние s(t) зависит только от прошлых индексов i<t, то есть B(t,i)=0 для i≥t. То есть будущее не влияет на прошлое (модель идёт слева направо). Это даёт треугольную структуру матрицы B.
Матрица B имеет вид треугольной структуры, это означает что зависимости идут только “назад” и является эквивалентом DAG (ориентированный ациклический граф) во времени.
Такая матрица позволяет решать систему последовательно s1→s2→s3→... чьл гарантирует отсутствие бесконечных циклов и корректность решения.
В линейной алгебре спектр — это набор собственных значений λ(i). В данной работе он означает насколько сильная обратная связь. Главным условием является ρ(B)<1, где ρ(B) — спектральный радиус (максимальное |λ|). В этом смысле:
если ∣λ∣<1 → система устойчива
если ∣λ∣≈1 → долгоживущая память
если ∣λ∣>1 → взрыв (нестабильность)
Так же теоремы требуют, что спектр не выходит за пределы единичного круга, чтобы можно было разложить решение в ряд и тогда память равна сумме влияний на всех глубинах.
Если спектр B плотно расположен около 1 и есть много собственных значений ≈ 1, тогда B(k)∼k^(−β), то несть много медленно затухающих мод, которые суммируются и дают степенной закон. Это главный результат, который говорит, что память в этом случае не экспоненциальная, а степенная.
Так же есть один важный технический момент. Attention в B должен быть нормирован (softmax), ограничен и не давать взрывных значений. Это означает ограниченность ∣B(t,i)∣≤γmax<1, стабильность так как сумма весов не растёт и локальное нормировка (влияние распределено). Это нужно, чтобы гарантировать ρ(B)<1 что дает сходимость ряда и корректность решения.
Теорема 1 про существование и устойчивость памяти доказывает, что система (I−B)s=f корректно определена и имеет единственное решение.
Теорема 2 про power-law память показывает, что влияние прошлого затухает как O(ℓ^−β), 0<β<1.
Теорема 3 про селективное извлечение показывает, что возможны режимы, где влияние не стремится к 0 при ℓ→∞.
В доказательствах видно, что сначала речь идет доказательство из каузальности → следует треугольность. Затем из треугольности, что система решается однозначно.
Затем идет разложение и оценка оценка B^k, которая анализирует как быстро уменьшается B(k).
Следом используя свойства спектра, выводится скорость затухания и получается influence∼ℓ^−β.
Теорема про selective retrieval заключается в том, что существуют такие B, где некоторые собственные значения ≈ 1 и соответствующие компоненты не затухают. Это означает, что модель может держать важную информацию бесконечно долго.
В работе делается предположения, что attention контролируемый, ограниченный γ и о структуре спектра. Это значит, что результаты не универсальны для любых весов, но достижимы конструктивно.
В этом случае из теорем следует, что память может быть степенной → лучше long-range, возможна выборочная память→ selective retrieval, модель устойчиво определена → нет взрывов и Attention становится частью динамики.
Таким образом теоремы показывают, что если сделать память как линейную систему с attention-ядром и правильно ограничить её спектр, то можно получить качественно новый режим памяти.
Теоремы показывают, что Sessa - это устойчивая казуальная динамическая система с attention-оператором, которая может реализовать сильную, долговременную память и селективную память.
Архитектура: Sessa (Selective State Space Attention)Архитектура строит память, как устойчивое состояние системы с обратной связью, внутри которого работает attention.
В отличие от Transformer, где attention используется как одношаговый механизм чтения контекста, Sessa встраивает attention внутрь рекуррентной системы обратной связи. Это превращает вычисление представления из простого взвешенного суммирования в задачу нахождения самосогласованного состояния, где токены многократно влияют друг на друга через attention. В результате память не просто извлекается, а формируется как устойчивое состояние динамической системы.
В Transformer токены взаимодействуют один раз, а влияние прямое и плоское. Вроде: A → D
В Sessaтокены взаимодействуют много раз через цепочки, влияние распространяется как в сети, как:
A → B → C → D
A → C → D
A → D
...
Это важно, так как в Transformer влияние токенов быстро размывается, а в Sessa оно накапливается, распространяется и дольше сохраняется. Таким образом превращает attention из операции чтения в динамическую систему памяти с обратной связью.
Вместо того чтобы один раз посмотреть в прошлое (как в Transformer), модель многократно пересчитывает память, позволяя токенам влиять друг на друга через цепочки attention-связей.
В Transformer каждый токен влияет на результат один раз на слой, а глубина = число итераций взаимодействия.
В Sessa взаимодействия происходят многократно до сходимости (через inverse / series).
Ключевой момент: Bⁿ (это то, чего нет в Transformer)
s=f+fB+fB2+fB3...
здесь B это attention-граф, B2 влияние через 2 шага, Bk влияние через k переходов. В Transformer есть только B (один шаг), а глубина ≈ количество шагов. В Sessa сразу есть все Bk.
В Transformer каждый токен один раз смотрит на прошлые токены и получает взвешенную сумму.
В Sessa каждый токен сначала извлекает информацию, а затем эта информация проходит через систему взаимных влияний между всеми предыдущими состояниями.
Power-law в Sessa возникает потому, что рекурсивная attention-система с обратной связью создаёт спектр памяти без характерного масштаба, что математически эквивалентно смеси бесконечного числа экспоненциальных затуханий — а такая смесь в критическом режиме всегда даёт степенной закон.
В обычных моделях информация либо размывается (Transformer), либо затухает экспоненциально (RNN/SSM), а в Sessa информация убывает медленно → остаётся значимой даже через большое время. Это значит, что модель лучше помнит дальний контекст.
Transformer — читает прошлое,
SSM — сжимает прошлое,
Sessa — пересобирает прошлое через систему взаимных влияний.
Вместо одного чтения истории (как в Transformer), строится память как устойчивое состояние системы, где внимание участвует в прямой передаче информации и в обратной связи. Это создает много путей влияния прошлого на будущее.
Сравнение архитектур: OpenMythos и SessaДва разных подхода к глубокой обработке контекста.
OpenMythos - это гипотеза архитектуры типа Recurrent-Depth Transformer (RDT).
Основная идея OpenMythos
Вместо: Layer1 → Layer2 → ... → Layer100
используется: Prelude → Recurrent Block (loop × N) → Coda
один и тот же блок повторяется много раз.
Формально: h(t+1) =Ah(t)+Be+Transformer(h(t), e), где:
h(t) - внутреннее состояние (итерация мысли)
e - вход (постоянно подмешивается)
loop увеличивает глубину мышления.
Таким образом модель думает итеративно, а не за один проход как классический Transformer.
Что делает Sessa: s= f *(I−B)^−1
или: state = attention + feedback(state)
В отличии от OpenMythos, это не loop по времени, а решение фикс-точки.
Обе архитектуры делают одно и то же на концептуальном уровне: мышление — это не один проход, а процесс. Таким образом обе модели отходят от «one-pass computation» к динамическому процессу.
Но дальше начинается ключевое различие, хотя они похожи философски, но математически — это разные классы моделей.
OpenMythos → h(k+1)=F(h(k),x) - это итеративный процесс с явным loop. Мышление в глубине сети, повторяются слои и Transformer внутри loop, что формирует глубину по времени.
Думает через последовательность шагов: h0 → h1 → h2 → h3 ...
Sessa → s=f+Bs - это сразу решается как s=f*(I−B)^−1
Мышление внутри памяти, тут attention внутри feedback и состояние само себя перерабатывает, что формирует глубину внутри состояния.
Думает через суперпозицию всех путей сразу: s = f + Bf + B²f + B³f + ...
Обе архитектуры связаны через динамические системы.
OpenMythos h(k+1)=F(h(k)) → это дискретная динамическая система
Sessa s=F(s) → это фикс-точка динамики
Таким образом Sessa — это предельный случай OpenMythos, когда: H(k+1) → s при k→∞.
Иначе говоря, Sessa ≈ OpenMythos с бесконечным числом итераций.
Я не очень понял.
У этих моделей был разный токенизатор? Если разные, то на выходе может быть бред, ведь вклад токенов другой.
У этих моделей были разные эмбеддинги? Если разные, то это значит, что информационные связи нарушаются. В одном случае связь король + мужчина может сместиться в огурец + вино.
С переносном FFN в MoE как раз меньше всего проблем. Классические Трансформеры FFN и MoE не особо сильно отличаются. То что так любят называть экспертами, по сути это разрезание глобального FFN на несколько частей, каждая из которых более качественно аппроксимирует и выделяет часть глобального FFN. То есть глобальный FFN теряет точность, из за ограничения размеров. Поэтому мы можем по сути взять его участки и расширить их размерность. Это можно представить через аналогию с функцией описывающей N колебаний. Чтобы апроксимировать все N колебаний, нам нужна FFN с большой размерностью, но мы можем разложить ее на N частей, где каждый FFN будет описывать свое колебание с более высокой точностью (функция больше не пытается апроксимировать все N). Так как на практике в статической модели, только некоторые колебания имеют наибольшую ценность, то остальные можно ~ игнорировать (поэтому говорят про активные веса в MoE) и MoE выбирает одну из FFN (эксперта). Само разбиение в MoE как раз и происходит по интервалам после голов. Это как разбить линейку на участки. Если участок 1 сильнее остальных, значит аппроксимируем на основе него.
Я ускорял обучение MoE за счёт того, что сначала обучал модель с одним FFN, затем копировал его значение во всех экспертов (несколько FFN) и затем дообучал. Таким образом при дообучении, модель детализирована каждый из своих участков. Это давала ещё один плюс. Например, для какого-то эксперта не хватает данных при обучении. Если вдруг модель выберет его, результат будет не очень, а так они уже содержать глобальную информацию и даже если для данного эксперта не хватило данных при обучении, модель не начнет нести полный бред.
Второй подход, который ускорял обучение заключался в том, что сначала мы обучаем K блоков. Затем добавляем ещё один блок и копируем в FFN K+1 веса предыдущего K. Дальше модель детализирует его. Это ускоряет обучение, так как чем меньше блоков, тем быстрее обучение. По сути на каждой итерации мы дообучаем новый блок и согласовываем связи.
Дополню свой комментарий выше, чтобы было понятнее о чем идет речь.
Здесь более подробно про то, что реальная геометрия пространства кривая. В конце они предлагают свой подход к решению.
Здесь описывается про проблемы Jepa (на 15:50 точно есть об этом, но в целом в видео разбор исследования, где описывается эта проблема и попытка не решения).
Здесь про то, как сейчас решают проблему Jepa (7:45) через дополнительный член штрафа SIGReg на основе распределения Коши. Здесь проблему пытаются решать через теорему Крамера — Вольда (9:20).
То о чем я написал выше, как раз рассмотрено в этом видео про Jepa. Тут разбирается исследование, где как раз речь идет про изогнутые поверхности в рамках Jepa (правильнее сказать в рамках вероятностей).
Здесь ещё одна попытка решения проблемы обучения V-Jepa (7:00), через измение обучения, коэффициенты и прочие ухищрения
Ещё одно исследование и попытка обучения кривизне пространства при обучении Jepa.
На самом деле исследований и попыток решить эту проблему сейчас очень много. Но безупречно рабочей нет (как с трансформерами), почти везде ручные настройки и прочие ухищрения.
1) там ошибки именно фундаментальные. Это не значит, что Jepa не работает или не правильная. Как раз она правильная, но из-за того чем она на самом деле является можно сказать что там ошибка. Хотя, правильно сказать не ошибка, а "даже не знаю какое слово подобрать".
Дело в том, что JEPA минимизирует евклидову дивергенцию, но не гарантирует согласование с информационной геометрией распределений. Она реализует KL второго порядка только в частном, локальном и структурно согласованном случае. Глобально изометрия невозможна на основе Jepa, поскольку KL не является евклидовой метрикой. Я скоро опубликую доказательство.
То есть Jepa работает, но локально на ограниченных участках и при других условиях и ломается глобально. Это изображение из будущей статьи, надеюсь оно немного наглядней объяснить суть. Латентное пространство на самом деле кривое (аналогия с земным шаром), но локально оно Евлидовое (прямой участок земли). Вот Jepa как раз реализует локальную геометрию на небольших участках - это доказывается математически. Но глобально она ломается, так как не учитывает кривизну. Поэтому при обучении Jepa там возникает множество проблем с обучением, когда все ломается и приходиться придумывать извращенные способы при обучении.
2) это не значит что Jepa не работает. Локально она работает. Но ломается в разных ситуациях, что приводит к тому, что приходиться ручками придумывать разные как это исправить. Когда она пытается все свести к плоскости при обучении (надо найти видео с этими исследованиями о проблемах Jepa при обучении).
В любом случае, сам подход Jepa и направление выбрано правильно. Jepa работает, но при выполнении ряда условий, которые могут не выполняться глобально, но сам подход можно исправить.
При разборе RAG, стоило найти современные решения ряда проблем.
Например:
Реальное решение проблемы чанкования.
Увидеть, что часть описанного вами в реальности работает плохо и как это решить. В частности использование RAG в медицине. То есть разделив на базовую часть и практическую.
Выше два примера исследований, но их можно привести больше.
Лучше убирать часть воды (LLM любит раздувать), и этот текст потратить на разбор современных исследований/решений. Так как часть из них на английском и не скоро дойдут до русскоязычной аудитории.
Странное ощущение. С одной стороны DeepMind как R&D компания и странно такое слышать от них, с другой - это глава компании и его слова не про AGI, а про ожидания рынка которые он должен подогревать.
В данном случае однозначно на стороне Яна ЛеКуна. Современные LLM на трансформерах это тупик, как минимум из-за статики. И ещё ряд других ограничений. Хотя сейчас есть, попытки уйти от этого:
MesaNet - механизм внимания как сетка с постоянным вызовом метода обратного распространения для мини сеток. В остальном это трансформер.
Mythos - так же трансформеры, но со смешиванием данных вместо текстового CoT.
Mamba3 - локальный механизм внимания. При расширении преимущества шире, чем трансформеры. Но пока архитектура ограниченный механизм внимания.
Jepa ЛеКуна это даже не про выбор подхода - трансформер или другие как блок, а о том, что данные работают в других латентных пространствах, объединяющих разные типы данных. Текст это лишь один из типов сигнала, в которую данные могут преобразоваться и они далеко не всегда эффективные. Но у Jepa тоже есть ошибки в математическом подходе, но направление выбрано верно.
Не то чтобы я оспариваю сказанное, но оно выглядит слишком обобщающим. И это не всегда так многое зависит от среды и конкретной культуры. Например:
Hadza (Хадза) охотники-собиратели, у них нет постоянной боевой части, а социальная структура крайне эгалитарная, без доминирующих воинов-защитников.
Племена Mbuti (Мбути) известны как одна из самых мирных культур. Да у них есть охота, но нет идеи, что каждый мужчина вооружённый защитник и значимость распределена в племени. Женщины так же участвуют в группой охоте. Более того, они так же активно поддерживают единство общины и имеют равное право голоса при принятии коллективных решений. Помимо охоты, они также отвечают за сбор дикорастущих растений, приготовление пищи, воспитание детей и строительство домов.
Ну и яркий пример племена Semai. Один из самых ярких примеров анти-насильственной культуры. В них наоборот агрессия и воинственность социально подавляются.
В ряде обществ (тех же Hadza) женщины дают значительную долю калорий (иногда 50–80%) через собирательство Охота даёт белок и жир, но очень нестабильна.
Очень много племен сейчас, где собирательство играет большую часть в рационе. Например эти племена были оттеснены современной цивилизацией на территории, где звери встречаются не так часто и можно неделями ждать появления добычи. Так основной вклад в еду идет именно от женщин. Поэтому ключевую роль играет среда.
То есть модель "мужчина добывает мясо и защищает, а это главный фактор отбора" работает не везде и сильно зависит от условий. Я к тому, что все очень сильно зависит от среды и смешенных факторов: биология + культура + экология + история + ... другие факторы = среда. Поэтому нет универсальной модели мужчина-воин-добытчик.
Про медведей на сколько я помню изучено почему это происходит. Так как это касалось не только медведей:
Это больше похоже на описание турнирных типов, а есть ещё парные виды. Человек это среднее между ними, и разброс поведения даже в различных племенах тоже разный.
В лекции Сапольского этот момент как раз хорошо было разобран. Я к тому, что описанный выше тезис про защиту самки больше подходит к турнирным видам, а про добывание еды тут все очень размыто. У ряда африканских племен, мужчины хоть и ходят на охоту, но основная еда поступает (или половина) от женщин которые занимаются собирательством. А есть африканские племена, которые фактически не охотятся, а едят корешки выкопанные из земли.
Я к тому, что было бы некорректно обобщать их всех. Так как там возникают сложные процессы, и социальный статус может сыграть большую роль (какой-нибудь шаман).
Почему каждый раз читаю новости про технологические решения на хабре, это не разбор что конкретно было сделано?
Для начала стоило объяснить, что за архитектура OpenMythos и чем отличается. Архитектура состоит из трех ключевых этапов:
1. Prelude (Прелюдия)
Это входной блок стандартных слоев трансформера, которые выполняются ровно один раз. Его задача cформировать первичное латентное представление входного токена. Результат этого блока сохраняется и добавляется в каждый последующий цикл рекурсии, чтобы предотвратить "дрейф" или потерю контекста при глубоких вычислениях.
2. Recurrent Block (Рекурсивный блок)
Это основа OpenMythos. В нем данные входят в цикл (до 16 итераций). Используются одни и те же веса для каждой итерации. Это делает модель компактной, но «глубокой» с точки зрения вычислений. На каждом шаге t скрытое состояние h(t) обновляется с учетом исходного эмбеддинга из Prelude:
h(t+1) = TransformerBlock(h(t), e)
Внутри этого блока часто используется маршрутизация экспертов MoE, что дает возможность динамически выбирать нужные нейронные пути для решения конкретной подзадачи на каждой итерации.
3. Coda (Кода)
Финальный блок слоев, который также выполняется один раз, декодирует накопленное в циклах мышление в финальное распределение вероятностей токенов (логиты).
Как и в SSM, здесь главное рекуррентность. В классических трансформерах информация идет только вперед (feed-forward). В OpenMythos, как и в Mamba, текущее состояние зависит от предыдущего шага обработки.
Разница лишь в том, что в Mamba заменяет механизм внимания (Attention) на селективное сканирование (локальное внимание). OpenMythos оставляет Self-Attention внутри рекурсивного блока. То есть на каждом из 16 циклов модель заново смотрит на все остальные токены в контексте. Это дает точность и глобальное внимание трансформера, которых иногда не хватает рекуррентным сетям.
В обычной рекуррентной сети сигнал затухает. В OpenMythos на каждом цикле в блок подается не только результат предыдущего шага, но и исходный эмбеддинг из блока Prelude.
Это попытка сделать аналогию с мозгом. Хотя и очень ограниченная. В нем данные после таламуса поступают в область мозга аналогичную Recurrent Block. Затем поступают в MPFC (тут аналогии нет). Мы тут опускаем ACC и другие части. Главное что затем сигнал попадает в гиппокамп. При этом у рекуррентного блока слои 6 отдают сигнал ошибки так же таламус в ассоциативные ядра. Что я имею ввиду под аналогией?
Сигнал ошибки из слоя 6 попавший в ассоциативные ядра затем смешивается с сигналом от сенсорных ядер.
Сигнал из гиппокампа потом поступает в Recurrent Block и смешивается с сигналом от таламуса (который так же может быть смешан сенсорным и ассоциативным ядром). Механизм таламуса сложнее, но если грубо то так. Смысл в частичной аналогии, как в модели OpenMythos, входной сигнал смешивается со старым. По сути с памятью прежнего “размышления” и с ошибками, а так же с новой информацией. В OpenMythos это сделано более урезано, но само направление частично перекликается, но в более простой и ограниченной форме. Это можно было бы сравнить с чтением книги. Сенсорный сигнал - это информация прочтения абзаца. Затем обработанный сигнал через таламо-кортикальными петли снова идет на вход, где снова повторяется сигнал с прочитанного абзаца, словно пользователь прочитал и думает об этом не переходя дальше. Сравнение очень грубое и неточное, но сама идея частично перекликается.
Рекуррентный блок как раз в цикле ближе к гиппокамп (хотя без явного запоминания важных деталей - урезанная реализация). А вот аналога слоя 6 как ошибки, которая потом добавляется в начальные сенсорные данные, чтобы перестроить размышления (на альтернативные рассуждения) нет. Я вижу работы ассоциативные ядер от слоя 6 при смешивании с сенсорным сигналом, как усиление альтернативных направлений (если ошибка большая, то альтернативный маршрут может быть усилен). А в случае OpenMythos есть только смешивания сигнала с аналогом CoT, что ближе к гиппокампу, который снова идет на вход и смешивается с сигналом таламуса.
Рекуррентный блок в OpenMythos работает на удержание и уточнение контекста. Данные циркулируют, смешиваясь с «сенсорным» входом (Prelude), что функционально напоминает работу гиппокампа по поддержанию временных связей и формированию эпизодического кадра. Это похоже на внутренний монолог (Implicit CoT), где мы просто прокручиваем одну и ту же информацию. Но это пассивный процесс, он не меняет стратегию мышления на ходу.
В биологическом мозге слой 6 коры посылает проекции обратно в таламус. Если предсказание (Top-down) не совпадает с сенсорным входом (Bottom-up), возникает сигнал ошибки. В мозге высокая ошибка буквально переключает внимание таламуса на другие ассоциативные ядра. Это позволяет мгновенно сменить интерпретацию (например, когда ты понимаешь, что пятно в кустах это не тень, а тигр).
В OpenMythos этого нет. Там нет детектора рассогласования. Рекурсия идет по жестко заданному алгоритму. Если модель изначально начала с неверного рассуждения на первом цикле, она будет продолжать уточнять эту ошибку все 16 циклов, просто смешивая её с исходным сигналом. У неё нет механизма, чтобы определить что "Ошибка велика, забудь этот путь, попробуй альтернативную активацию экспертов (MoE)".
Я бы рекомендовал ознакомиться с этим исследованием тут
Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.
Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.
Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.
Все это не решает главную проблему, разрыв контекста при разбиении на чанки. Я часто вижу извращённые решения построения графов с выделение сущностей NER чтобы сохранить контекст банков, или ведение дополнительных тегов или как в статье выше. Но это костыль, а не решение которое поломается на различных данных. Например на юридических документах.
В данном исследовании Late Chunking эта проблема решается. Основная идея это метод создания эмбеддингов для RAG, при котором сегментация текста на чанки происходит после того, как весь текст был передан через модель эмбеддингов с длинным контекстом. То есть:
1) Сначала весь документ, или большая часть текста, обрабатывается моделью эмбеддингов с длинным контекстом. Модель получает весь текст сразу и генерирует эмбеддинги для всех токенов с учётом глобального контекста.
2) Затем из полученных токеновых эмбеддингов формируются отдельные эмбеддинги чанков (например, с помощью среднего/mean‑pooling по токенам внутри каждого сегмента).
Таким образом каждый итоговый чанк наследует весь контекст документа, а не только локальный кусок текста.
Проблема классического RAG, что каждый чанк видит только свой локальный контекст и при запросах может теряться смысл, связанный с информацией, которая находится в других частях документа. Поэтому используют разные извращённые подходы в виде графов, дерева, меток и прочего нагромождения которое не решает полностью проблему и не работает на многих документах.
В видео есть пример со статьей из Вики, где:
Париж столица Франции.... (где то в середине текста) его население более 18 млн человек...Если делать как описано в статье или других костылях, то мы получаем потерю связи про численность (чанк не связан) или он окажется близок и к Парижу и к Лондону и к Москве и т.д.
Это отлично видно, если мы возьмём сложные и длинные юридические документы, где будет много сущностной связанных друг с другом, и с учётом что они могут быть разные, то костыли ломаются (какого только изврата не видел и не наслушался).
Это просто разложение цены через IMF на компоненты. Подобно как разложение Фурье, только Фурье тут не стабилен (хотя IMF тоже не идеален). Получаем несколько компонент, затем находим все пики колебаний у каждой компоненты и угол наклона (разница между пиками деленная на временной интервал между пиками). И затем выводим комбинацию (значение пика; угол наклона).
https://t.me/greenruff/2578
Тут выкладывал в комментариях код как разложить.
Я просто подобным образом анализировал раньше речь через форманты, когда нашел закономерности. И просто решил проверить это на финансовых графиках. Меня прежде всего интересовала плотность распределения углов наклона, а выше получился как побочный график. Проблема IMF в том, что ближе к концу данных она не очень стабильная и на молодых рынках (вроде Тинькофф) даёт скорее хаос, особенно на крипте (на ней колебания имеют огромную частоту и на дневных графиках вращение может сделать полный оборот). А вот там где рынок давно (евро доллар, золото, нефть..) там все более плавно вращается.
Я в свою очередь пробовал проверить, есть ли момента, когда все сильные колебания направлены в одну сторону. То есть все компоненты имеют одинаковый тренд. Оказалось что таких моментов практически нет.
Для примера евро доллар, колебания стабильные. Интересны только IMF больше 4, так как именно они вносят основной вклад в цену.
Но это если что не стратегия и я ни к чему не призываю и не утверждаю. Просто интересное наблюдение. Например, оссоциляции Nvidia совпадают с индексом чего то там (забыл индекс топ компаний), то есть Nvidia влияет так или это общий тренд , я не знаю. Мой интерес был исследовательский. Просто он меня немного ставит в тупик. Что первично, события и колебания отражают подготовку к ним, или колебания и какие-то события потом наступают как спусковой крючок.
Ну по сравнению с тем же Газпромом, NVidia более хаотичная. Малые IMF всегда колеблятся очень быстро. У газпрома на дневных графиках они превращаются фактически в линии (быстро вращение и от спирали видим только линию туда-обратно). Но в целом все российские, словно на ручном регулировании ходят по кругу (что сбер, тинькоф и остальные). А NVidia, Tesla это прям красивые колебания по спирали. Выше, что самое интересное, изображение для Газпрома делал до того как на ближнем востоке случилось. И сами изображения говорят, что дальше по спирали снова вверх на сильных осцилляциях. То ли рынок уже ждал этого, то я скоро начну верить что все события предрешены в какой-то форме. Я не могу объяснить, то что выше. Но интересно, что будет с Nvidia.
Насчет пузыря не знаю, но то что NVidia будет дешеветь, тут не нужно быть Нострадамусом.
Из любопытства делал разложение IMF, чтобы проверить плотность распределения вероятности динамики у фин инструментов и заодно просто смотрел разные интерпретации. Выше NVidia.
Так вот если мы посмотрим на них, то по своей природе они делают осцилляционные движения по спиралевидной форме, колебания. Самые большие IMF дают наибольше вклад и они самые медленные. Ну так вот, самые крупные сейчас на пике, дальше колебания все равно будет вести их вниз. А более мелкие хотя и сдерживают цену, но особо вклад не вносят.
Я не знаю что произойдет, то ли Китай выпустить карты новые, то ли модели удешевятся, то ли тема ИИ начнет сдуваться в плане покупки мощностей. Но явно что через год, это начнет потихоньку затихать, хотя бы для NVidia не оправдав ожиданий.
Я бы был немного аккуратнее с ожиданиями. Прогресс действительно быстрый, но говорить о том, что осталось совсем немного до систем, которые обобщают на порядки лучше человека, пока преждевременно.
Архитектуры вроде JEPA (включая V-JEPA), конечно важный шаг, но у них есть фундаментальное ограничение. Они оптимизируют расстояния в евклидовом латентном пространстве, тогда как реальная структура данных задаётся все таки вероятностной геометрией (через лог-вероятности и дивергенции типа KL). Локально это совпадает (через квадратичную аппроксимацию), но глобально нет. Как итог, такие модели сейчас требуют дополнительных трюков, типа регуляризаций и аккуратного обучения.
То есть идея в целом правильная, чтобы учиться в пространстве представлений, а не в пикселях или токенах. Но текущая реализация скорее приближение, а не полноценная реализация этой геометрии. Там еще работать и работать...
Так что прогресс есть, но точно не экспоненциальный без ограничений. Языковые модели не столько упёрлись в потолок, сколько вышли на стадию насыщения в базовой архитектуре. Поэтому сейчас основной рост сместился за счёт инженерных решений вроде специализированных моделей, мультимодальности, агентных систем и интеграция с разными инструментами.
Так что хотя движение есть, но фундаментальные ограничения (в том числе геометрические и статистические) пока никуда не делись. И до качественного скачка уровня, когда модель сильно превосходит человека в обобщении пока еще далековато.
Меня поражает, что в России так зациклены на трансформерах и агентах. Я слежу за исследованиями и работами в области нейронок и на западе сейчас усиленно развивают Jepa. Она сырая, в ней есть математические ошибки, но это следующий шаг. Так как проблема чистых llm или современных мультимодальных в том что они построены на трансформерах и не работают в пространстве обобщающих данных. Именно к этому стремиться Jepa. По этой причине, чисто языковые модели не могут обобщать данные в абстрактной форме. Они работают в одном пространстве текста или видео.
Если смотреть на развитие с точки зрения чисто языковых моделей или их расширений мультимодальных (которые все равно привязаны к тексту), то они не могут абстрагироваться. То есть обобщить данные. Это как недавно в статье про рентгеновские снимки, они учат шум и пытаются работать с пикселям. То же самое языковые модели на уровне кода, не обобщают код на уровне целостной системы.
У человека есть область в мозге, которая обобщает условно предсказания "текста/речи" , "зрения", моторики и другие. Обобщает эти сигналы в новом пространстве и уже дальше формируется целостная картина. И это минимум.
Поэтому пока что llm это инструмент. Мощный, удобный, который может работать на одном уровне абстракции, например текста в рамках дальних связей (на сколько они хорошо обучены). Но он не скажет вам, что внося измените в эту часть кода, вы поломаете другой модуль. Потому что это уже верхний уровень абстракция, которого у языковых моделей просто нет. Она узнает о поломке, только кода код в том месте выдачи ошибку.
Вообще-то все гораздо сложнее. Недавно попадалось видео с исследованиями про работа со снимками с рентгеновскими снимками и ультразвуковыми.
https://www.youtube.com/watch?v=dTKg-fA8ttU
Простые сетки в виде трансформеров или диффузионных моделей тут не подходят. Они обучаются шуму, а не абстрагированию. Поэтому они реконструируют шум. Задача же оценки снимках, как раз смотреть на это ни как на шум, а как на целостный объект.
Проблема в том, что эти снимки в отличии от обычных изображений построены на шуме.
И для работы с ними и распознавании на них, нужно работать не на уровне точек, а на уровне абстракций. Поэтому трансформеры и диффузионные модели тут бесполезные, так как они пытаются запомнить шум на уровне пикселей и работать с ним. Тут как раз авторы пробуют применить доработанный вариант Jepa.
Таким образом переходим от постановки задачи - какого цвета пиксель и что это за пиксель, а задаче что это за объект. Напомню, что данные снимки построены на стохастическом шуме. И авторы показывают, что привычные модели просто не могут нормально работать на данном уровне.
Как итог, трансформеры и диффузионные модели пытаются классифицировать и восстанавливать пиксели, которые являются шумом и поэтому для подобных снимков их качество очень низкое. В то время как подход с Jepa построен на абстрагировании модели.
Это я к тому, что просто взять снимки и скормить их сетке, лишено смысла. Так как мы получим в реальности плохое качество, можно конечно подогнать. Но в реальности результат подойдет только для инвесторов и PR-маркетинга. Человек в этом случае как раз абстрагируется, в этом разница. Собственно в видео делали это через Jepa, чтобы улучшить показатели.
Не заменит. Ниже визуализация дневных данных
Вот так выглядит вращение отдельных компонент у золота.
По X это угол наклона, по Y это значение пика. Это анализ динамики, через градиенты и пики.
А это биткоин. Говорить о том, что биткоин что то защищает, это как играть в русскую рулетку. Он вращается с огромной скоростью и сегодня вы защитили, через месяц уже наоборот все потеряли.
В комментариев выкладывал и другие графики от сырья, валют и акций:
https://t.me/greenruff/2579
Если мне память не изменяет, то например та же Nvidia сейчас на пике и дальше там идёт падение для крупных компонент, которые вносят основной вклад в оссоциляции. Так что видимо хайп по языковым моделям все таки будет утихать.
Что касается Сбера, как написали выше. То да, видно, что основные компоненты оссоциляции росли последним годы. Но дальше у них только падение. Так как это колебательные осцилляторы, которые вращаются по спиралевидной форме, и физически не могут сменить направление. Так что от Сбера явно лучше избавляться. Видимо проблемы в экономике сильно скажутся на нем.
Чтобы заниматься фундаментальными исследованиями для развития ИИ, миллиарды денег не нужно. Проблема тут не в деньгах, а в мышлении компаний. Я тщательно слежу за научными работами Сбера и Яндекс по ИИ и надо признать, что они слабые. Нет ни одной фундаментальной работы.
На сегодня в России к сожалению слабая школа в области нейронных сетей. Классический фундамент дают, но именно чтобы создать и изучать новое, нет.
Я много смотрю по другим работам, тех же импульсных нейронок в РФ, там не хватает мат базы.
Работы того же Фристона по FEP свободной энергии, изучают глубоко несколько человек, но изучают, а не развивают.
Те же работы Jepa, тесно связанные с EBM, в России вообще пока игнорируют и часто даже не понимают, сводя все к шутливому названию. Хотя там главное совсем в другом, так как они доказали что движутся в правильном направлении. И на западе это сейчас тема номер 1 в исследованиях.
И получается, вместо фундаментальной математики и развития научного направления, сейчас у нас все сводится к тому, чтобы взять открытые модели и дообучать их на русскоязычном датасете. Как бизнес подход это правильно, но в плане развития это значит, что мы отстали лет на 10.
Так что какой смысл выделять субсидии, чтобы просто сжигать их? Когда можно направить все усилия в научном направлении, чтобы сделать рывок. Это долго, но это единственный правильный реальный путь развития. Сейчас же Сбер и Яндекс это АвтоВАЗ, с той разницей что все автомобильные технологии, которые можно взять, есть в открытом доступе. Надолго ли такая тенденция продлится? И это всегда стратегия 10 ого места, не позволяющая даже приблизиться к лидерам.