Слабое исследование. Вместо того, чтобы использовать мат. статистику, пытаются искусственно вводить правила. Данный подход не будет учитывать динамику языка, его заимствования и прочие вещи. Правила конечно лучше чем BPE, но фактически и там и там используется просто частотный подход.
Хотите реально качественный скачек в токенизации, а не эти извращения, то надо рассматривать текст как условные вероятности, которые формируют цепи Маркова и собирать статистику по цепям Маркова, а не по частотным слияниям букв.
В данном случае, даже уже всего на 1000 примерах обучения разница будет огромная. И чем дальше обучение, тем сильнее эта разница заметнее. BPE и подход выше, так и будет оставаться в рамках частотных (случайных токенов), где модель пытается это исправить через обучение. И мы долго будем видеть шум и высокочастотные токены. В то время как при правильном подходе, даже на первых 100-400 примерах сразу будет видна разница и первые формирования устойчивых правил. Так как все эти правила и так собраны в статистику наиболее вероятных Марковских цепей.
Я бы рекомендовал для лучшего понимания того, о чем говорит Ян, помирились это видео:
Здесь подробнее объясняется про vl-jepa 2 и прежние архитектуры. Как я понимаю он поэтому и ушел из meta, из-за разногласий по данной архитектуре. На Ютубе есть видео, где показано как модель "думает" при формировании текста, когда "смотрит". Этот подход сильно отличается от подхода, когда обучают мультимодальную модель связывая обучение видео и аудио данных.
Но ключевая идея тут ближе к мозгу. У нас тоже есть предварительные области оьратоки видео данных и аудио речи, и затем уже все "мышление" идёт в MPFC зоне, которая "мыслит" абстракциями. А затем уже может декорировать это в текст или видео. Отличие в том, что модель не учиться предсказывать следующий токен или пиксель, а она связывают данные и предсказание это лишь декодер "внутреннего" процесса "мышления". То есть она связывает физические явления, смысловые и так далее. Находит устойчивые связи. А уже задача декодера текстового или видео декодировать их в текст или изображение. При том, что нет гарантии что это будет сделано. Так как словесный текст, не может работать на этом уровне абстракции.
Не знаю, понятно ли написал. Но именно от этом говорит Ян. Так как обучение этой модели отличается от привычного. И просто обучать модель на тексте там не получится так. Мы просто обучаем "абстракции" и модель сама находит связи. При этом на выходе мы не сравниваем , правильно ли она предсказала текст или пиксель. Декодер обучается отдельно от общей модели. Его нельзя обучать совместно.
Когда пишите такие "статьи" то хотя бы разворачивайте мысль. Здесь ключевое как раз в том, о чем говорит Ян. Он работал над vl-jepa, и после ухода продолжил заниматься ею. Сейчас там вроде vl-jepa 2, и разница с классическими LLM и связками видео+текст на базе трансфомеров в том, что они они в итоге переходят на другой уровень абстракции и работают на его уровне. То есть модель связывает не предсказание следующего токена, а через связи абстракций (это не видео и не текст) и лишь затем может выдать текст/видео/картинку а может и не выдать.
Модель не предсказывает пиксели или токены, она предсказывает представления (embeddings) в латентном пространстве. В базовой VL-JEPA ничего не извлекают и ничего не декодируют. Она не обязана уметь порождать текст или изображения.
Там есть не мало разницы, хотя кажется что схожи с LLM. На вход латентного пространства VL-JEPA подаются предиктивные латентные состояния, полученные из частично наблюдаемых видео-патчей и текстовых фрагментов, а не “эмбеддинги контента” в привычном смысле.
Если отбросить детали, то все это сводится к одной мысли, о которой говорит Ян: модель должна работать в мультимодальном пространстве (в его случае специальное латентное пространство абстрактного сигнала), и уже от нее делать декодеры данных. Там есть сложности с обучением, так как они обучаются отдельно.
VL-JEPA 2 действительно сильный претендент на место классических моделей. Особенно в робототехнике, где важно "абстрактное мышление", а не текстовое.
То что вы написали, это и есть цепь Маркова. Только в статье извращенный способ попытки встроить ее к токенизатор. Не важно на одном уровне блоков или нескольких или только в начале.
Связка "Александр" + "Македонский" это и есть условная вероятность, которая присуща цепи Маркова, а три "слова" в вашем случае это цепь из трех элементов.
Какой-то извращенный способ. Все эти последовательности "внутренней дополнительной архитектуры", как цепи можно получить и так на основе сбора статистики.
Длина слова регулируется через длину цепи Маркова. Больше чувствительность больше статистика для токенизации. Описывал это тут https://t.me/greenruff/2483
Классический подход BPE и любых ngramm, построенный на частотности.
при правильной токенизации, когда вместо частотности (маргинальные вероятности) мы используем условные вероятности при построении токенов, хоть на первичном, хоть на после каждого блока дополнительно.
И тогда, если выкинуть частотный подход. который вообще чудом работает в языковым моделях из-за их пластичности, а правильно собирать статистику, то мы можем строить правильно и токенизатор и правильно вставлять его между уровнями, а не как в статье через "извращенный прием".
Вместо того, чтобы изобретать костыли как описано выше, почему ни кто не делает R&D, почему вообще так с точки зрения математики. Такая реализация вставки между слоями - просто пытается сгладить проблемы ngramm, чтобы он стал ближе к цепочке условных вероятностей. Именно их и пытаются получить в статье: Александр -> Македонский, яблоко-> красное, Древний мир -> Греция -> Аристотель и так далее.
До этой работы были выдвинуты гипотезы, как работают различные процессы на уровне нейрона. Они были описаны математически и написан симулятор на основе этих формул. Из научных исследования были взяты значения параметров (данные из сканирования мозга мыши), которые были получены при различных исследованиях. Этими данными были инициализированы значения параметров в описанных ими математических формулах. После этого симуляция была запущена для огромного числа таких инициализированных элементов. Задачей эксперимента была проверить, не "упадет" ли вообще модель, например в нейронных сетях есть взрывы градиентов. Аналогично тут, хотели проверить, не будет ли каких проблем, вдруг какие-то значения пойдут в разнос, так как упустили какие-то ограничения.
Это можно представить так. Мы делаем игру, наделяем элементы какими-то правилами. Заранее инициализируем их. Запускаем игру с миллиардом таких элементов и смотрим, как будут вести себя значения. Мы пока не делаем ни обучения, ни управления ими. Мы делаем проверку, что наша модель не упадет, если мы инициализируем ее и оставим работать на некоторое время с огромным кол-вом элементов на поле. То есть проверяем, масштабируема она или нет.
Поэтому пока говорить о связи с мозгом рано. Да, гипотеза описания формул на основе реальных нейронов. Но пока нет сравнения реального поведения нейронов с таким сигналом и тех что в модели, мы не можем говорить о том, что данная модель симулируем нейроны равносильно нейронам в мозгу.
если внимательно посмотреть, что делали и что получили и о чем исследование, то все становиться не таким красивым. Не знаю, журналисты приукрасили и PR служба пресс релизов.
Нет, они сделали другое. Они написали свою интерпретацию работы нейронов. Замечу. интерпретацию, которая может выдавать похожие сигналы (конкретные) в абстрактном вакууме, если настроить множество параметров. То есть иными словами - выдвинули гипотезу, что работа нейрона описывается таким математическим аппаратом. И в данном опыте масштабировали его. У данной модели пока нет доказательной основы, что она реализует механизм нейрона. У нее нет механизмом для обучения, этого не заложено в модель. На ней нельзя пока проверить работу реальных участков мозга, но можно сравнить маленькие участки сигналов мозга и данной симуляции, чтобы доказать, что она верно реализует реальный механизм. Но чтобы это сделать, надо разработать правильные механизмы подачи внешних сигналов на нейроны, обучения таких нейронов. Так как классические SNN (спайковые сети) в плане обучения тут не подходят, так как они "не обучаются" нормально.
Суть данной работы, что на базе разработанной гипотезы, был описан математический аппарат. И данный эксперимент показал, что если этот математический аппарат применить не к одному, а к огромному кластеру элементов, то он не развалиться (не выдаст ошибок, числа не уплывут). Все, больше ничего в рамках эксперимента доказано не было. Здесь не было доказано, что данный математический аппарат действительно совпадает с биологическим в процессе работы. Только то, что он не развалился во время работы, через заданное небольшое время.
Немного двоякое отношение, столько шума, а если внимательно почитать статью и вникнуть в имульсные сети (спайковые), то окажется слишком много шума. Для примера, что было реально получено в рамках данной работы:
1) Запуск модели - подтверждение, что запустить реально. 1 симуляция биологического времени занимает десятки секунд реального - это главный подтверждённый результат, а не какие-то другие утверждения.
2) Что система не уходит в разнос. Численная валидация сохраняется, то ест нет переполнений, выход за пределы (хотя они и так ограничены у них формулами), нет числовых взрывов. То есть числовая проверка, а не биологическая. Именно только проверка, а не обучение или реальные сигналы какого-то процесса.
3) показали некоторые метрики, например распределения спайков по областям. То есть это не сравнение с биологическими реальными измерениями такого же процесса, а просто метрики внутри системы. Тут нет ни KL-сравнений, ни спектральных совпадений, ни корреляционных метрик и так далее.
А теперь самое интересное. Что НЕ было сделано (и это прямо видно в тексте):
нет обучения: нет STDP, нет пластичности, веса фиксированы.
нет задачи, нет входа, нет выхода, нет поведения.
нет функциональной валидации: не показано, что области выполняют свои биологические функции, не показано воспроизведение известных кортикальных паттернов.
ну и главное, нет теоретических выводов: ни одной теоремы, ни одного утверждения о принципах работы мозг
То есть доказали вычислительная осуществимость, того же, что сами математически задали. Численная стабильность, то есть может работать без разноса, хотя тут вопросы - время маленькое на демо, обучения нет, просто динамика каких-то значений. Что можно вообще запустить на данной инфраструктуре. Все, ни каких больше доказательств или выводов с статье нет.
НЕ доказано, что модель: что-то вычисляет, что-то репрезентирует, что-то понимает, что-то объясняет в нейронауке.
Не доказано: соответствие живому мозгу, воспроизведение когнитивных функций, объяснение интеллекта.
Статья по сути: “Мы смогли собрать и запустить огромную модель сферического коня в вакууме”
Эта статья НЕ подтверждает гипотезу SNN / нейроморфики / мозга как сети спайков.
Она подтверждает только:
детализированная динамическая система может быть просчитана в огромном масштабе
Никакой новой нейронаучной истины из неё логически не следует.
Скрытый текст
Если что сама статья называется и ее можно найти: Microscopic-Level Mouse Whole Cortex Simulation Composed of 9 Million Biophysical Neurons and 26 Billion Synapses on the Supercomputer Fugaku RIN KURIYAMA, The University of Electro-Communications, Chofu, Tokyo, Japan KAAYA AKIRA, The University of Electro-Communications, Chofu, Tokyo, Japan LAURA GREEN BEATRIZ HERRERA KAEL DAI MARI IURA, The University of Electro-Communications, Chofu, Tokyo, Japan View all Open Access Support provided by: Research Organization for Information Science and Technology RIKEN Center for Computational Science The University of Electro-Communications Yamaguchi University
Авторы подчёркивают, что модель ещё не включает:
пластичность/обучение (изменения весов синапсов) — нет адаптации во времени
сенсорные входы и взаимодействие с внешним миром
полный объём мозга (только кора)
гормональные/нейромодуляторные эффекты
восприятие, поведение, функции
Это означает, что симуляция показывает динамику. И есть вопрос к этому. Те же SNN (спайковые сети) можно сказать что не работают (то что они могут реализовывать простейшие фильтры не в счет). Я нисколько не принижаю данную работу, но пока скептически отношусь к ней. Так как пока не увидел в ней доказательств того, что созданная ими махина реально как-то связана с работой нейронных клеток, я не просто сделана по их подобию (представлению, хотя и описанному математически).
Нужно получить первые подтверждения, что математический аппарат, на котором данная махина построена, действительно выдает тоже самое, что и живые ансамбли нейронов.
Там скорее про AGI в математическом плане, так как тут два лагеря:
AGI как система, способная понять абсолютно всё Такую трактовку использует Шлерет. AGI это универсальная система, способная охватить все возможные данные и концепты. Если мы следуем этому определению, то, как утверждает Шлерет, AGI невозможен: алгоритмические системы ограничены семантическим алфавитом и не могут индуктивно выйти за пределы своего (Semantic Closure), особенно в условиях тяжёлых хвостов (α ≤ 1), когда энтропия расходится.
AGI как выдающаяся обобщающая система (человеко-подобная) Если AGI понимать как систему, способную разумно обобщать данные, учиться, адаптироваться в широком диапазоне задач (человеко‑подобный интеллект, но не всесильная модель), то такая AGI может быть теоретически достижима. Этот подход соответствует определению AGI как способности обобщения и адаптации в разнообразных средах, например, как способность учиться и адаптироваться к новым задачам.
Если AGI требует бесконечного символического охвата, то согласно Шлерету, это невозможно.
Если же AGI это скорее человеческий интеллект, способный обрабатывать широкий класс задач, тогда Шлерет лишь указывает, что алгоритмические модели имеют пределы, но уже такие системы могут приближаться к человеческой универсальности.
Поэтому если называть AGI в рамках теоремы Шлерет, то человек сам по себе не способен охватить абсолютно всё, значит человек тоже не является AGI в строгом смысле первой трактовки. Таким образом AGI невозможен если нужен абсолютный охват.
AGI возможен в практическом смысле человеческой универсальности и человек, и алгоритмы могут быть ограниченно универсальны.
Так что выводы Шлерета не оспаривают возможность создания систем, схожих с человеческим интеллектом, но ставят под сомнение концепт AGI как всемогущего оракула, который охватывает всё.
Но изначально была речь про интерпретацию теоремы в рамках галлюцинаций (в рамка поста выше), а она к ним не имеет отношения, об этом я и указал.
Там под AGI подразумевается немного другое. Условно говоря система, которая может описать все что только возможно, то есть любую сложность. Поэтому эту теорему критиковали, так как аргумент был что мозг это AGI. Но автор теоремы все таки говорил там о другом. То есть словами теоремы, наш мог тоже не может обобщать бесконечно и поэтому имеет ограничение по предсказанию/аппроксимации/описанию. Подозреваю, что в теореме фигурирует AGI в данной формулировке, по той причине, что было много обещаний, что появиться AGI и сможет объяснить все на свете.
Не знаю, на сколько Владимир Крылов силен в математике, думаю что достаточно хорошо. Но то что она написал это каша, и интерполировать некоторые субъективные представления без доказательств на LLM, как минимум не профессионально.
Множество всех функций континуально, вычислимых - счётно, мера вычислимых равна нулю
В реальности LLM никогда не аппроксимируют произвольные функции. Они работают внутри фиксированного класса параметризованных функций. Это конечномерные, вычислимые, гладкие отображения. Мы здесь не ищем произвольную функцию. Наша задача аппроксимировать условное распределение языка, а не функцию Z→Z. Аргумент про "меру ноль" ничего не говорит об обучаемости, аппроксимации, обобщении, вероятностных моделях.
сам механизм attention неизбежно содержит появление галлюцинаций
Это просто неверно. Attention линейный по V, детерминированный, полностью вычислимый, не вводит ошибок сам по себе. Галлюцинации прекрасно возникают и без attention (RNN, n-gram), в байесовских моделях, в любом генеративном вероятностном процессе. Attention не причина, это формально "усилитель уверенности".
Галлюцинация не дефект архитектуры
Частично верно, но сказано в неверной формулировке. Более правильно было бы сказать, что галлюцинации это следствие постановки задачи как вероятностного языкового моделирования, а не конкретно трансформеров или attention. Более того, есть множество видов галлюцинаций, которые имеют разные причины и проявляются схожим образом.
Для примера делал разбор, как это у мозга. Даже у краткого частичного описания этого явления, можно понять, что причин существует множество. А существующие архитектуры, не охватывают/учитывают многие моменты.
Это означает, что модель не оптимизируется на истинность, не оптимизируется на выполнимость, не оптимизируется на корректность логического вывода, а только на правдоподобие продолжения. В этом смысле галлюцинация это естественный режим работы модели, когда данных недостаточно, сигнал слабый, распределение неоднозначно, или запрос лежит вне обучающего распределения. Но это не имеет никакого отношения к невычислимым функциям, Тьюрингу и мерам множеств.
теорема о неизбежной ошибке: для любого вычислительно перечислимого множества найдётся вход, на котором модель ошибётся
Это по сути переформулировка теоремы Райса, следствия неразрешимости. Формально верно, но логически вообще не связано с галлюцинациями.
Теорема говорит о точном вычислении функций. LLM не претендуют на точность, они оптимизируют ожидаемую правдоподобность, а не универсальную корректность. По этой логике любой калькулятор галлюцинирует, потому что есть входы вне его спецификации. Это подмена понятий.
Возможно он имел ввиду теорему AGI is Impossible. Here is the Proof. The Infinite Choice Barrier and a New Critique of Artificial Reason. Author: Max M. Schlereth. Не знаю как Крылов, но очень подробно изучал эту работу, так как она была связана с другими нужными мне математическими теоремами. Формально она говорит:
Существует класс задач рассуждения, в которых агенту требуется сделать выбор из неограниченного (неперечислимого или неограниченно растущего) множества альтернатив, без априорного алгоритмического критерия остановки.
Формально это близко к неразрешимости, отсутствию эффективной процедуры выбора, или отсутствию вычислимого функционала оптимальности. Это своего рода вариация аргументов Гёделя, Райса и анти-формалистских аргументов Пенроуза. Но тут важно, что Schlereth говорит о принципиальной невозможности универсального разума, а не об ошибках в конкретных ответах. поэтому если упоминается она, то это натягивание совы на глобус и подмена понятий.
Потому что галлюцинация это уверенный вывод при недостаточной информации, в рамках вероятностного генератора. А ICB это невозможность алгоритмического выбора в бесконечном пространстве альтернатив, даже в идеальных условиях.
Если совсем кратко, то разница в том, что галлюцинации не следствие невозможности выбора, а следствие принуждения к выбору там, где оптимально было бы воздержаться.
Про 33–48% галлюцинаций у reasoning-моделей, здесь он частично прав, но формулирует это как-то криво. Если описывать причину понятно и правильно, то reasoning это длинная цепочка. Она приводит к тому, что вероятность ошибки растёт экспоненциально. То есть по факту это накопление ошибки, а не парадокс рассуждений. Именно об этом я и писал в комментарии ранее:
как об одном конкретном виде галлюцинаций, который приводит к накоплению ошибки и в итоге это проявляется как сдвиг. А так же почему он происходит и как его минимизировать.
Как математик он вроде говорит корректные вещи. Но как специалист по ИИ он явно путает вычислимость и обобщение, подменяет задачу, использует нерелевантные теоремы, не понимает оптимизационную природу LLM. То что я вижу, это ответ человека, который знает теорию вычислимости, но не понимает что именно оптимизируют LLM.
Если следовать его цепочке рассуждения, то AGI невозможно из-за Infinite Choice Barrier => LLM частичный AGI => Следовательно, ошибки LLM (галлюцинации) фундаментальны.
Но на основе ICB, мы можем говорит только о существовании нерешаемых задач, но галлюцинации возникают на решаемых, конечных задачах из-за того, что модель обязана генерировать ответ.
Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.
Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.
Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом.
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM: https://disk.yandex.ru/d/pNjCRp-hpS1ywg
Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь - для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Это во первых. На текущей архитектуре вы от этого не избавитесь. Во вторых в статье речь идет о другой форме проблемы галлюцинаций - это когда модель не знает. Это две разные проблемы галлюцинаций. Одна когда мы продолжаем генерацию шума, и другая когда встречаемся с ситуацией, что все варианты на уровне шума. В цитате из статьи выше, как раз об этом. Что в современных LLM нет механизма для разрешения галлюцинаций, в ситуации когда все варианты на уровне шума.
Где они выяснили причину? Вы понимаете, что обучая модель на разных диалогах, где так же есть "не знаю", модель получает представление о таких ответах. О каких нулях баллах идет речь? Модель обучается по Loss. Если говорить о рассуждениях, так это дообучение модели, где может быть регуляризация. Модели без разницы, что она ответит. Что будет вероятно то и ответит. Вы путаете обучение с регуляризацией с жестко заточенным алгоритмом и неопределенностью. Если вы вводите регуляризацию, то можете выбрать любой критерий. Хоть частое вручающийся символ "А". Только это не имеет отношения к состоянию неопределённости. Вы смотрели ту работу, на чем она была построена.
Если бы все было так просто, то галлюцинаций в ChatGPT не было бы. И он умел отвечать "я не знаю" самостоятельно.
Вы в этом уверены? Можете привести не абстрактные аргументы, а конкретные?
Кто вам сказал, что иначе бы не работали. в большинстве случаев глобальная цепь Маркова не нарушается. Во вторых, небольшие шумы не приводят к неустойчивости иерархии.
Стандартный BPE токенизатор.
Токенизатор построенный на основе цепей Маркова.
У меня есть аргументы. Я смог доказать на примерах и в работах, что мы имеем дело с иерархической цепью Маркова. Одним из таких примеров является построение на основе этого токенизатора, который не является частотным как BPE, а именно основан на цепях Маркова. И при равных условиях при обучении одних и тех же LLM с нуля, мы получаем результат который просто "рвет" классические токенизаторы в процессе обучения, как по скорости обучения.
Так же модель по Loss при обучении заметно быстрее сходиться и дает гораздо более качественный результат. https://t.me/greenruff/2518
Поэтому если вы что-то утверждаете, то приводите аргументы. Я математически доказал, что является иерархическими цепями Маркова, подтвердил это эмпирически, получил предсказательную силу которую наглядно можно пощупать.
Вы не до конца видимо понимаете, как устроена LLM и как она предсказывает вероятности.
Что касается памяти, то вот интересное исследование с фреймворком от Google. Речь про исследование Google про архитектуру Titans + фреймворк MIRAS, где они используют Predict Coding в качестве "удивления"/"новизны" для выбора того. что запоминать.
Если коротко, то проблема в выборе вероятного токееа. Текст это цепь иерархическая цепь Маркова. LLM на выходе выдает условную вероятность с учётом всей иерархии. Но это не значит, что мы можем на каждом шаге выбрать любой токен по критерию top-p/top-k. Так как это ломает цепь, согласованность всех ее уровней. Высокая вероятность не значит, что она допустима в данной цепи. Мы должны учитывать вероятность всей текущей цепи Маркова.
Мы должны учитывать вероятность цепи с учётом порога разрыва цепи Маркова. Сам порог разрыва связан с ограничением кол-ва возможных состояний. Его можно посчитать. Выше ссылке показано как. Только в этом случае мы не разрушаем цепь. Иначе, может возникнуть ситуацию, что мы пытаемся генерировать продолжение шума. Это приводит к тому, что теряется контекст. И это приводит к усилению галлюцинаций.
Особенно сильно это проявляется в том случае, когда сеть "не знает" ответ. В этом случае мы получаем на выходе множество условных вероятностей, которые будут близки по своему значению. И выбор неправильной, легко приводит к тому, что мы выбираем шум и пытаемся его продолжить. Тут два момента:
1) мы все таки можем выбрать правильный, только должны сильно сузить выбор допустимых, чтобы не разрушать контекст.
2) ни один не позволяет сделать выбор, итак чтобы цепь Маркова могла продолжится. То есть мы получаем состояние неопределенности. В случае мозга, запустился бы поиск альтернативного маршрута или это привело к ответу "я не знаю", так как не одна из предложенных вероятностей не допустима, при условии что она не разрушит цепь Маркова. Когда все варианты равновероятны и недопустимы это и есть условно состояние "я не знаю". Но у текущих архитектур LLM нет механизма для обработки такой ситуации. В мозге для этого есть область ACC, она отвечает за подобные конфликты. У LLM такого нет, и она не может прекратить регенерировать текст дальше, так как мы продолжаем выбирать "шум" как следующий токен, даже если мы достигли "неопределенности".
Что касается разрешения состояния неопределенности, то в мозге для этого есть специальный механизм:
Слабое исследование. Вместо того, чтобы использовать мат. статистику, пытаются искусственно вводить правила. Данный подход не будет учитывать динамику языка, его заимствования и прочие вещи. Правила конечно лучше чем BPE, но фактически и там и там используется просто частотный подход.
Хотите реально качественный скачек в токенизации, а не эти извращения, то надо рассматривать текст как условные вероятности, которые формируют цепи Маркова и собирать статистику по цепям Маркова, а не по частотным слияниям букв.
https://t.me/greenruff/2483
В данном случае, даже уже всего на 1000 примерах обучения разница будет огромная. И чем дальше обучение, тем сильнее эта разница заметнее. BPE и подход выше, так и будет оставаться в рамках частотных (случайных токенов), где модель пытается это исправить через обучение. И мы долго будем видеть шум и высокочастотные токены. В то время как при правильном подходе, даже на первых 100-400 примерах сразу будет видна разница и первые формирования устойчивых правил. Так как все эти правила и так собраны в статистику наиболее вероятных Марковских цепей.
Я бы рекомендовал для лучшего понимания того, о чем говорит Ян, помирились это видео:
Здесь подробнее объясняется про vl-jepa 2 и прежние архитектуры. Как я понимаю он поэтому и ушел из meta, из-за разногласий по данной архитектуре. На Ютубе есть видео, где показано как модель "думает" при формировании текста, когда "смотрит". Этот подход сильно отличается от подхода, когда обучают мультимодальную модель связывая обучение видео и аудио данных.
Но ключевая идея тут ближе к мозгу. У нас тоже есть предварительные области оьратоки видео данных и аудио речи, и затем уже все "мышление" идёт в MPFC зоне, которая "мыслит" абстракциями. А затем уже может декорировать это в текст или видео. Отличие в том, что модель не учиться предсказывать следующий токен или пиксель, а она связывают данные и предсказание это лишь декодер "внутреннего" процесса "мышления". То есть она связывает физические явления, смысловые и так далее. Находит устойчивые связи. А уже задача декодера текстового или видео декодировать их в текст или изображение. При том, что нет гарантии что это будет сделано. Так как словесный текст, не может работать на этом уровне абстракции.
Не знаю, понятно ли написал. Но именно от этом говорит Ян. Так как обучение этой модели отличается от привычного. И просто обучать модель на тексте там не получится так. Мы просто обучаем "абстракции" и модель сама находит связи. При этом на выходе мы не сравниваем , правильно ли она предсказала текст или пиксель. Декодер обучается отдельно от общей модели. Его нельзя обучать совместно.
Когда пишите такие "статьи" то хотя бы разворачивайте мысль. Здесь ключевое как раз в том, о чем говорит Ян. Он работал над vl-jepa, и после ухода продолжил заниматься ею. Сейчас там вроде vl-jepa 2, и разница с классическими LLM и связками видео+текст на базе трансфомеров в том, что они они в итоге переходят на другой уровень абстракции и работают на его уровне. То есть модель связывает не предсказание следующего токена, а через связи абстракций (это не видео и не текст) и лишь затем может выдать текст/видео/картинку а может и не выдать.
Модель не предсказывает пиксели или токены, она предсказывает представления (embeddings) в латентном пространстве. В базовой VL-JEPA ничего не извлекают и ничего не декодируют. Она не обязана уметь порождать текст или изображения.
Там есть не мало разницы, хотя кажется что схожи с LLM. На вход латентного пространства VL-JEPA подаются предиктивные латентные состояния, полученные из частично наблюдаемых видео-патчей и текстовых фрагментов, а не “эмбеддинги контента” в привычном смысле.
Если отбросить детали, то все это сводится к одной мысли, о которой говорит Ян: модель должна работать в мультимодальном пространстве (в его случае специальное латентное пространство абстрактного сигнала), и уже от нее делать декодеры данных. Там есть сложности с обучением, так как они обучаются отдельно.
VL-JEPA 2 действительно сильный претендент на место классических моделей. Особенно в робототехнике, где важно "абстрактное мышление", а не текстовое.
То что вы написали, это и есть цепь Маркова. Только в статье извращенный способ попытки встроить ее к токенизатор. Не важно на одном уровне блоков или нескольких или только в начале.
Связка "Александр" + "Македонский" это и есть условная вероятность, которая присуща цепи Маркова, а три "слова" в вашем случае это цепь из трех элементов.
Какой-то извращенный способ. Все эти последовательности "внутренней дополнительной архитектуры", как цепи можно получить и так на основе сбора статистики.
Длина слова регулируется через длину цепи Маркова. Больше чувствительность больше статистика для токенизации. Описывал это тут https://t.me/greenruff/2483
И тогда, если выкинуть частотный подход. который вообще чудом работает в языковым моделях из-за их пластичности, а правильно собирать статистику, то мы можем строить правильно и токенизатор и правильно вставлять его между уровнями, а не как в статье через "извращенный прием".
Вместо того, чтобы изобретать костыли как описано выше, почему ни кто не делает R&D, почему вообще так с точки зрения математики. Такая реализация вставки между слоями - просто пытается сгладить проблемы ngramm, чтобы он стал ближе к цепочке условных вероятностей. Именно их и пытаются получить в статье: Александр -> Македонский, яблоко-> красное, Древний мир -> Греция -> Аристотель и так далее.
До этой работы были выдвинуты гипотезы, как работают различные процессы на уровне нейрона. Они были описаны математически и написан симулятор на основе этих формул. Из научных исследования были взяты значения параметров (данные из сканирования мозга мыши), которые были получены при различных исследованиях. Этими данными были инициализированы значения параметров в описанных ими математических формулах. После этого симуляция была запущена для огромного числа таких инициализированных элементов. Задачей эксперимента была проверить, не "упадет" ли вообще модель, например в нейронных сетях есть взрывы градиентов. Аналогично тут, хотели проверить, не будет ли каких проблем, вдруг какие-то значения пойдут в разнос, так как упустили какие-то ограничения.
Это можно представить так. Мы делаем игру, наделяем элементы какими-то правилами. Заранее инициализируем их. Запускаем игру с миллиардом таких элементов и смотрим, как будут вести себя значения. Мы пока не делаем ни обучения, ни управления ими. Мы делаем проверку, что наша модель не упадет, если мы инициализируем ее и оставим работать на некоторое время с огромным кол-вом элементов на поле. То есть проверяем, масштабируема она или нет.
Поэтому пока говорить о связи с мозгом рано. Да, гипотеза описания формул на основе реальных нейронов. Но пока нет сравнения реального поведения нейронов с таким сигналом и тех что в модели, мы не можем говорить о том, что данная модель симулируем нейроны равносильно нейронам в мозгу.
К сожалению, то что описывают журналисты и то что описывает само исследование, несколько отличаются. В другой статье по этой новости писал
https://habr.com/ru/articles/988032/comments/#comment_29437034
если внимательно посмотреть, что делали и что получили и о чем исследование, то все становиться не таким красивым. Не знаю, журналисты приукрасили и PR служба пресс релизов.
Скрытый текст
Сейчас это напоминает
Нет, они сделали другое. Они написали свою интерпретацию работы нейронов. Замечу. интерпретацию, которая может выдавать похожие сигналы (конкретные) в абстрактном вакууме, если настроить множество параметров. То есть иными словами - выдвинули гипотезу, что работа нейрона описывается таким математическим аппаратом. И в данном опыте масштабировали его. У данной модели пока нет доказательной основы, что она реализует механизм нейрона. У нее нет механизмом для обучения, этого не заложено в модель. На ней нельзя пока проверить работу реальных участков мозга, но можно сравнить маленькие участки сигналов мозга и данной симуляции, чтобы доказать, что она верно реализует реальный механизм. Но чтобы это сделать, надо разработать правильные механизмы подачи внешних сигналов на нейроны, обучения таких нейронов. Так как классические SNN (спайковые сети) в плане обучения тут не подходят, так как они "не обучаются" нормально.
Суть данной работы, что на базе разработанной гипотезы, был описан математический аппарат. И данный эксперимент показал, что если этот математический аппарат применить не к одному, а к огромному кластеру элементов, то он не развалиться (не выдаст ошибок, числа не уплывут). Все, больше ничего в рамках эксперимента доказано не было. Здесь не было доказано, что данный математический аппарат действительно совпадает с биологическим в процессе работы. Только то, что он не развалился во время работы, через заданное небольшое время.
Немного двоякое отношение, столько шума, а если внимательно почитать статью и вникнуть в имульсные сети (спайковые), то окажется слишком много шума. Для примера, что было реально получено в рамках данной работы:
1) Запуск модели - подтверждение, что запустить реально. 1 симуляция биологического времени занимает десятки секунд реального - это главный подтверждённый результат, а не какие-то другие утверждения.
2) Что система не уходит в разнос. Численная валидация сохраняется, то ест нет переполнений, выход за пределы (хотя они и так ограничены у них формулами), нет числовых взрывов. То есть числовая проверка, а не биологическая. Именно только проверка, а не обучение или реальные сигналы какого-то процесса.
3) показали некоторые метрики, например распределения спайков по областям. То есть это не сравнение с биологическими реальными измерениями такого же процесса, а просто метрики внутри системы. Тут нет ни KL-сравнений, ни спектральных совпадений, ни корреляционных метрик и так далее.
А теперь самое интересное. Что НЕ было сделано (и это прямо видно в тексте):
нет обучения: нет STDP, нет пластичности, веса фиксированы.
нет задачи, нет входа, нет выхода, нет поведения.
нет функциональной валидации: не показано, что области выполняют свои биологические функции, не показано воспроизведение известных кортикальных паттернов.
ну и главное, нет теоретических выводов: ни одной теоремы, ни одного утверждения о принципах работы мозг
То есть доказали вычислительная осуществимость, того же, что сами математически задали. Численная стабильность, то есть может работать без разноса, хотя тут вопросы - время маленькое на демо, обучения нет, просто динамика каких-то значений. Что можно вообще запустить на данной инфраструктуре. Все, ни каких больше доказательств или выводов с статье нет.
Статья по сути: “Мы смогли собрать и запустить огромную модель сферического коня в вакууме”
Эта статья НЕ подтверждает гипотезу SNN / нейроморфики / мозга как сети спайков.
Она подтверждает только:
Никакой новой нейронаучной истины из неё логически не следует.
Скрытый текст
Если что сама статья называется и ее можно найти:
Microscopic-Level Mouse Whole Cortex Simulation Composed of 9 Million Biophysical Neurons and 26 Billion Synapses on the Supercomputer Fugaku RIN KURIYAMA, The University of Electro-Communications, Chofu, Tokyo, Japan KAAYA AKIRA, The University of Electro-Communications, Chofu, Tokyo, Japan LAURA GREEN BEATRIZ HERRERA KAEL DAI MARI IURA, The University of Electro-Communications, Chofu, Tokyo, Japan View all Open Access Support provided by: Research Organization for Information Science and Technology RIKEN Center for Computational Science The University of Electro-Communications Yamaguchi University
Авторы подчёркивают, что модель ещё не включает:
пластичность/обучение (изменения весов синапсов) — нет адаптации во времени
сенсорные входы и взаимодействие с внешним миром
полный объём мозга (только кора)
гормональные/нейромодуляторные эффекты
восприятие, поведение, функции
Это означает, что симуляция показывает динамику. И есть вопрос к этому. Те же SNN (спайковые сети) можно сказать что не работают (то что они могут реализовывать простейшие фильтры не в счет). Я нисколько не принижаю данную работу, но пока скептически отношусь к ней. Так как пока не увидел в ней доказательств того, что созданная ими махина реально как-то связана с работой нейронных клеток, я не просто сделана по их подобию (представлению, хотя и описанному математически).
Нужно получить первые подтверждения, что математический аппарат, на котором данная махина построена, действительно выдает тоже самое, что и живые ансамбли нейронов.
Там скорее про AGI в математическом плане, так как тут два лагеря:
AGI как система, способная понять абсолютно всё
Такую трактовку использует Шлерет. AGI это универсальная система, способная охватить все возможные данные и концепты. Если мы следуем этому определению, то, как утверждает Шлерет, AGI невозможен: алгоритмические системы ограничены семантическим алфавитом и не могут индуктивно выйти за пределы своего (Semantic Closure), особенно в условиях тяжёлых хвостов (α ≤ 1), когда энтропия расходится.
AGI как выдающаяся обобщающая система (человеко-подобная)
Если AGI понимать как систему, способную разумно обобщать данные, учиться, адаптироваться в широком диапазоне задач (человеко‑подобный интеллект, но не всесильная модель), то такая AGI может быть теоретически достижима. Этот подход соответствует определению AGI как способности обобщения и адаптации в разнообразных средах, например, как способность учиться и адаптироваться к новым задачам.
Если AGI требует бесконечного символического охвата, то согласно Шлерету, это невозможно.
Если же AGI это скорее человеческий интеллект, способный обрабатывать широкий класс задач, тогда Шлерет лишь указывает, что алгоритмические модели имеют пределы, но уже такие системы могут приближаться к человеческой универсальности.
Поэтому если называть AGI в рамках теоремы Шлерет, то человек сам по себе не способен охватить абсолютно всё, значит человек тоже не является AGI в строгом смысле первой трактовки. Таким образом AGI невозможен если нужен абсолютный охват.
AGI возможен в практическом смысле человеческой универсальности и человек, и алгоритмы могут быть ограниченно универсальны.
Так что выводы Шлерета не оспаривают возможность создания систем, схожих с человеческим интеллектом, но ставят под сомнение концепт AGI как всемогущего оракула, который охватывает всё.
Но изначально была речь про интерпретацию теоремы в рамках галлюцинаций (в рамка поста выше), а она к ним не имеет отношения, об этом я и указал.
Там под AGI подразумевается немного другое. Условно говоря система, которая может описать все что только возможно, то есть любую сложность. Поэтому эту теорему критиковали, так как аргумент был что мозг это AGI. Но автор теоремы все таки говорил там о другом. То есть словами теоремы, наш мог тоже не может обобщать бесконечно и поэтому имеет ограничение по предсказанию/аппроксимации/описанию. Подозреваю, что в теореме фигурирует AGI в данной формулировке, по той причине, что было много обещаний, что появиться AGI и сможет объяснить все на свете.
Не знаю, на сколько Владимир Крылов силен в математике, думаю что достаточно хорошо. Но то что она написал это каша, и интерполировать некоторые субъективные представления без доказательств на LLM, как минимум не профессионально.
В реальности LLM никогда не аппроксимируют произвольные функции. Они работают внутри фиксированного класса параметризованных функций. Это конечномерные, вычислимые, гладкие отображения. Мы здесь не ищем произвольную функцию. Наша задача аппроксимировать условное распределение языка, а не функцию Z→Z. Аргумент про "меру ноль" ничего не говорит об обучаемости, аппроксимации, обобщении, вероятностных моделях.
Это просто неверно. Attention линейный по V, детерминированный, полностью вычислимый, не вводит ошибок сам по себе. Галлюцинации прекрасно возникают и без attention (RNN, n-gram), в байесовских моделях, в любом генеративном вероятностном процессе. Attention не причина, это формально "усилитель уверенности".
Частично верно, но сказано в неверной формулировке. Более правильно было бы сказать, что галлюцинации это следствие постановки задачи как вероятностного языкового моделирования, а не конкретно трансформеров или attention. Более того, есть множество видов галлюцинаций, которые имеют разные причины и проявляются схожим образом.
Скрытый текст
https://t.me/greenruff/2223
Для примера делал разбор, как это у мозга. Даже у краткого частичного описания этого явления, можно понять, что причин существует множество. А существующие архитектуры, не охватывают/учитывают многие моменты.
Это означает, что модель не оптимизируется на истинность, не оптимизируется на выполнимость, не оптимизируется на корректность логического вывода, а только на правдоподобие продолжения. В этом смысле галлюцинация это естественный режим работы модели, когда данных недостаточно, сигнал слабый, распределение неоднозначно, или запрос лежит вне обучающего распределения. Но это не имеет никакого отношения к невычислимым функциям, Тьюрингу и мерам множеств.
Это по сути переформулировка теоремы Райса, следствия неразрешимости. Формально верно, но логически вообще не связано с галлюцинациями.
Теорема говорит о точном вычислении функций. LLM не претендуют на точность, они оптимизируют ожидаемую правдоподобность, а не универсальную корректность. По этой логике любой калькулятор галлюцинирует, потому что есть входы вне его спецификации. Это подмена понятий.
Возможно он имел ввиду теорему AGI is Impossible. Here is the Proof. The Infinite Choice Barrier and a New Critique of Artificial Reason. Author: Max M. Schlereth. Не знаю как Крылов, но очень подробно изучал эту работу, так как она была связана с другими нужными мне математическими теоремами. Формально она говорит:
Формально это близко к неразрешимости, отсутствию эффективной процедуры выбора, или отсутствию вычислимого функционала оптимальности. Это своего рода вариация аргументов Гёделя, Райса и анти-формалистских аргументов Пенроуза. Но тут важно, что Schlereth говорит о принципиальной невозможности универсального разума, а не об ошибках в конкретных ответах. поэтому если упоминается она, то это натягивание совы на глобус и подмена понятий.
Потому что галлюцинация это уверенный вывод при недостаточной информации, в рамках вероятностного генератора. А ICB это невозможность алгоритмического выбора в бесконечном пространстве альтернатив, даже в идеальных условиях.
Если совсем кратко, то разница в том, что галлюцинации не следствие невозможности выбора, а следствие принуждения к выбору там, где оптимально было бы воздержаться.Про 33–48% галлюцинаций у reasoning-моделей, здесь он частично прав, но формулирует это как-то криво. Если описывать причину понятно и правильно, то reasoning это длинная цепочка. Она приводит к тому, что вероятность ошибки растёт экспоненциально. То есть по факту это накопление ошибки, а не парадокс рассуждений. Именно об этом я и писал в комментарии ранее:
https://habr.com/ru/articles/982494/comments/#comment_29332940
как об одном конкретном виде галлюцинаций, который приводит к накоплению ошибки и в итоге это проявляется как сдвиг. А так же почему он происходит и как его минимизировать.
Как математик он вроде говорит корректные вещи. Но как специалист по ИИ он явно путает вычислимость и обобщение, подменяет задачу, использует нерелевантные теоремы, не понимает оптимизационную природу LLM. То что я вижу, это ответ человека, который знает теорию вычислимости, но не понимает что именно оптимизируют LLM.
Если следовать его цепочке рассуждения, то AGI невозможно из-за Infinite Choice Barrier => LLM частичный AGI => Следовательно, ошибки LLM (галлюцинации) фундаментальны.
Но на основе ICB, мы можем говорит только о существовании нерешаемых задач, но галлюцинации возникают на решаемых, конечных задачах из-за того, что модель обязана генерировать ответ.
Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.
Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.
Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM:
https://disk.yandex.ru/d/pNjCRp-hpS1ywg
если надо понять как https://t.me/greenruff/2472
Пусть LLM разжует вам подробно, как строиться эта иерархия и связи.
Вы внимательно читали ту стать. OpenAI?
Это во первых. На текущей архитектуре вы от этого не избавитесь. Во вторых в статье речь идет о другой форме проблемы галлюцинаций - это когда модель не знает. Это две разные проблемы галлюцинаций. Одна когда мы продолжаем генерацию шума, и другая когда встречаемся с ситуацией, что все варианты на уровне шума. В цитате из статьи выше, как раз об этом. Что в современных LLM нет механизма для разрешения галлюцинаций, в ситуации когда все варианты на уровне шума.
Кто вам такое сказал? Откуда вы это взяли?
Где они выяснили причину? Вы понимаете, что обучая модель на разных диалогах, где так же есть "не знаю", модель получает представление о таких ответах. О каких нулях баллах идет речь? Модель обучается по Loss. Если говорить о рассуждениях, так это дообучение модели, где может быть регуляризация. Модели без разницы, что она ответит. Что будет вероятно то и ответит. Вы путаете обучение с регуляризацией с жестко заточенным алгоритмом и неопределенностью. Если вы вводите регуляризацию, то можете выбрать любой критерий. Хоть частое вручающийся символ "А". Только это не имеет отношения к состоянию неопределённости. Вы смотрели ту работу, на чем она была построена.
Если бы все было так просто, то галлюцинаций в ChatGPT не было бы. И он умел отвечать "я не знаю" самостоятельно.
Вы в этом уверены? Можете привести не абстрактные аргументы, а конкретные?
Кто вам сказал, что иначе бы не работали. в большинстве случаев глобальная цепь Маркова не нарушается. Во вторых, небольшие шумы не приводят к неустойчивости иерархии.
У меня есть аргументы. Я смог доказать на примерах и в работах, что мы имеем дело с иерархической цепью Маркова. Одним из таких примеров является построение на основе этого токенизатора, который не является частотным как BPE, а именно основан на цепях Маркова. И при равных условиях при обучении одних и тех же LLM с нуля, мы получаем результат который просто "рвет" классические токенизаторы в процессе обучения, как по скорости обучения.
Так же модель по Loss при обучении заметно быстрее сходиться и дает гораздо более качественный результат. https://t.me/greenruff/2518
Поэтому если вы что-то утверждаете, то приводите аргументы. Я математически доказал, что является иерархическими цепями Маркова, подтвердил это эмпирически, получил предсказательную силу которую наглядно можно пощупать.
Вы не до конца видимо понимаете, как устроена LLM и как она предсказывает вероятности.
Что касается памяти, то вот интересное исследование с фреймворком от Google. Речь про исследование Google про архитектуру Titans + фреймворк MIRAS, где они используют Predict Coding в качестве "удивления"/"новизны" для выбора того. что запоминать.
Ниже видео. которое неплохо об этом рассказывает:
https://www.youtube.com/watch?v=MKHGE8yjsUM
Ссылка на само исследование:
https://arxiv.org/pdf/2504.13173
Ссылка на описание исследования:
https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/
Я бы порекомендовал вам обратить внимание на такое понятие как Марковское одеяло.
Это будет полезно для тех, кто занимается агентскими системами или пытается сделать что то подобное.
Для тех кто не знаком, что такое Марковское одеяло и ли хочет лучше его понять, ниже неплохое видео объясняющее Марковское одеяло:
https://www.youtube.com/watch?v=RrqQ00TWSUE
И обратить внимание на FEP. Хотя у принципу свободной энергии Фристона много вопросов, но многие вещи из него можно почерпнуть.
Для ознакомления с Принципом свободной энергии Фристона:
https://www.youtube.com/watch?v=dcRC7ViIUHQ
Автор неплохо описал работу Фристона, другие различные лекции по FEP на русском языке мне показались более низкого качества.
В целом Марковское одеяло хорошо эмпирически себя зарекомендовало при описании различных биологических систем.
Недавно описывал в одном из комментариев причину одной из галлюцинаций LLM.
https://habr.com/ru/articles/982494/comments/#comment_29332940
Если коротко, то проблема в выборе вероятного токееа. Текст это цепь иерархическая цепь Маркова. LLM на выходе выдает условную вероятность с учётом всей иерархии. Но это не значит, что мы можем на каждом шаге выбрать любой токен по критерию top-p/top-k. Так как это ломает цепь, согласованность всех ее уровней. Высокая вероятность не значит, что она допустима в данной цепи. Мы должны учитывать вероятность всей текущей цепи Маркова.
https://telegra.ph/Rangovaya-model-veroyatnostej-i-bifurkacii-kak-utraty-asimmetrii-07-17
Мы должны учитывать вероятность цепи с учётом порога разрыва цепи Маркова. Сам порог разрыва связан с ограничением кол-ва возможных состояний. Его можно посчитать. Выше ссылке показано как. Только в этом случае мы не разрушаем цепь. Иначе, может возникнуть ситуацию, что мы пытаемся генерировать продолжение шума. Это приводит к тому, что теряется контекст. И это приводит к усилению галлюцинаций.
Особенно сильно это проявляется в том случае, когда сеть "не знает" ответ. В этом случае мы получаем на выходе множество условных вероятностей, которые будут близки по своему значению. И выбор неправильной, легко приводит к тому, что мы выбираем шум и пытаемся его продолжить. Тут два момента:
1) мы все таки можем выбрать правильный, только должны сильно сузить выбор допустимых, чтобы не разрушать контекст.
2) ни один не позволяет сделать выбор, итак чтобы цепь Маркова могла продолжится. То есть мы получаем состояние неопределенности. В случае мозга, запустился бы поиск альтернативного маршрута или это привело к ответу "я не знаю", так как не одна из предложенных вероятностей не допустима, при условии что она не разрушит цепь Маркова. Когда все варианты равновероятны и недопустимы это и есть условно состояние "я не знаю". Но у текущих архитектур LLM нет механизма для обработки такой ситуации. В мозге для этого есть область ACC, она отвечает за подобные конфликты. У LLM такого нет, и она не может прекратить регенерировать текст дальше, так как мы продолжаем выбирать "шум" как следующий токен, даже если мы достигли "неопределенности".
Что касается разрешения состояния неопределенности, то в мозге для этого есть специальный механизм:
https://t.me/greenruff/2561