Старые спайковые SNN должны умереть. Они не выстрелят, так как имеют слабое отношение к спайковым и поэтому почти не обучаются (если это можно вообще назвать обучение). В случае случае SNN реализуют фильтры, а не спайковые сети, там где их и применяют как детекторы.
А так да, при правильной реализации спайковая сеть, я ее пример обучения показал выше, отлично обучается на GPU. Даже может выигрывать у классических по ресурсоемкости, так как работает только с сигналами, которые образовали спайки. Это приводит к тому, что кол-во арифметических операций уменьшается.
Вот пример обучения при правильной реализации спайковой сети и сравнение с SNN.
Сейчас готовлю статью об этом, если кратко то часть динамики это цепь Маркова, разрыв цепи по порогу (https://t.me/greenruff/2462) описываемому размерностью пространства состояний - спайк. В остальном нейрон представляет собой Марковское одеяло, что накладывает требования на вход и выход. Ну а сама динамика нейрона происходит в лог пространстве, поэтому цепь Маркова представляет собой сложение, а не произведение. Это если совсем грубо и кратко. Так что ответ - да, на GPU это работает при правильной реализации.
Так проблема мультимодальных модулей в том, что в них каждая модальность по большому счету живёт своей жизнью.
В той же jepa, которую сейчас на западе рассматривают как следующий шаг, работает с мультимодальностью в специальном латентном пространстве. Которое уже и выдает данные через декодер. А текущие мультимодальные модели используют латентное пространство только как дополнение (и то не все), а прогноз в итоге делает отдельно текстовая или графическая модель. В случае jepa, в латентном "абстрактном" пространстве мы находим устойчивые связи. Там не анализируются пиксели для распознавания или общие детали. Там модель находить абстрактные связи, образно говоря модель видит что "скелет" соответствует животному, пейзаж "Африке" как сущности, морда ещё кому-то и так далее. И уже на выходе скажет, что это собака (через декодер в текст), а может ничего не сказать или что не знает. То есть это как если бы мы распознавали не по пикселям, а по общей "логике" абстрактной в целом. Для нас отдельные пиксели и детали в этом случае просто шум.
Здесь интересный момент был в том, что переход к нетональному явно прослеживается с переходом в холодный климат. (Там и другие есть исследования других лабораторий).
В частности, клики у африканских народов исчезают, когда мы смещаемся в холодный климат. Так как клики это "речь" на вдохе. Аналогично тональный язык это грубо говоря речь "песня", а открывать часто рот в холод чревато восполнением лёгких или трахеи.
Интересно, есть ли исследования, где связь речи и заболеваний. Поговорил много в холод и организм ослаб или простыл.
А дальше уже заразил остальных: было исследование о распространении болезни на основе метода 6 рукопожатий (условно, точно не помню название). Там было, что уже заражённый быстро разносит болезнь на всю популяцию без изоляции, за 24 дня вроде (не вспомню). Его используют при прогнозировании времени роста эпидемии.
Если хотите улучшить озвучку, то рекомендую синтезировать не все сразу. В этом случае модели часто плохо справляются с этим. А разбивать текст на синтагмы. Это не панацея, но улучшает качество.э, так как делает речь более живой.
Тут с синтезом было сложнее. Так как задача была управлять эмоциями, но большую роль так играет именно синтез по частям - синтагмам. В этом случае нет длинных синтезированных фраз. При этом управляя скоростью озвучки через тон и громкость, вы меняете эмоциональный окрас.
В этом случае получаем более человеческий вариант речи. Мозг не устает тогда. По стандартных синтезах, без данного подхода, через 1-2 дня начинаешь слышать разницу.
Сейчас правда есть уже модели вроде с возможностью задать эмоции, поэтому задача упрощается. Но даже там, для улучшения качества, текст для синтез надо резать на синтагмы.
Это так, если вы решите развить качество синтеза речи.
Сам подход тот же, что и для тензорных датчиков. Только тут были специально разработанные сплавы на основе галлия, с сопротивлением близком к меди. Сама технология относительно дешёвая.
Проблема на тот момент была в том, что по сути это не особо было нужно. Рынок только только появляется.
Но идея было в том, чтобы прикрутить через нейронки "кожу".
Уже тогда во всех странах велись работы над этим. Германия, США, Китай, Япония - основные страны работающие над этим. С учётом того, как сейчас в Китае развивается робототехника, думаю там первым и выстрелит это.
Свое же оборудование, которое сделали, так и лежит в гараже. Увы..
Слабое исследование. Вместо того, чтобы использовать мат. статистику, пытаются искусственно вводить правила. Данный подход не будет учитывать динамику языка, его заимствования и прочие вещи. Правила конечно лучше чем BPE, но фактически и там и там используется просто частотный подход.
Хотите реально качественный скачек в токенизации, а не эти извращения, то надо рассматривать текст как условные вероятности, которые формируют цепи Маркова и собирать статистику по цепям Маркова, а не по частотным слияниям букв.
В данном случае, даже уже всего на 1000 примерах обучения разница будет огромная. И чем дальше обучение, тем сильнее эта разница заметнее. BPE и подход выше, так и будет оставаться в рамках частотных (случайных токенов), где модель пытается это исправить через обучение. И мы долго будем видеть шум и высокочастотные токены. В то время как при правильном подходе, даже на первых 100-400 примерах сразу будет видна разница и первые формирования устойчивых правил. Так как все эти правила и так собраны в статистику наиболее вероятных Марковских цепей.
Я бы рекомендовал для лучшего понимания того, о чем говорит Ян, помирились это видео:
Здесь подробнее объясняется про vl-jepa 2 и прежние архитектуры. Как я понимаю он поэтому и ушел из meta, из-за разногласий по данной архитектуре. На Ютубе есть видео, где показано как модель "думает" при формировании текста, когда "смотрит". Этот подход сильно отличается от подхода, когда обучают мультимодальную модель связывая обучение видео и аудио данных.
Но ключевая идея тут ближе к мозгу. У нас тоже есть предварительные области оьратоки видео данных и аудио речи, и затем уже все "мышление" идёт в MPFC зоне, которая "мыслит" абстракциями. А затем уже может декорировать это в текст или видео. Отличие в том, что модель не учиться предсказывать следующий токен или пиксель, а она связывают данные и предсказание это лишь декодер "внутреннего" процесса "мышления". То есть она связывает физические явления, смысловые и так далее. Находит устойчивые связи. А уже задача декодера текстового или видео декодировать их в текст или изображение. При том, что нет гарантии что это будет сделано. Так как словесный текст, не может работать на этом уровне абстракции.
Не знаю, понятно ли написал. Но именно от этом говорит Ян. Так как обучение этой модели отличается от привычного. И просто обучать модель на тексте там не получится так. Мы просто обучаем "абстракции" и модель сама находит связи. При этом на выходе мы не сравниваем , правильно ли она предсказала текст или пиксель. Декодер обучается отдельно от общей модели. Его нельзя обучать совместно.
Когда пишите такие "статьи" то хотя бы разворачивайте мысль. Здесь ключевое как раз в том, о чем говорит Ян. Он работал над vl-jepa, и после ухода продолжил заниматься ею. Сейчас там вроде vl-jepa 2, и разница с классическими LLM и связками видео+текст на базе трансфомеров в том, что они они в итоге переходят на другой уровень абстракции и работают на его уровне. То есть модель связывает не предсказание следующего токена, а через связи абстракций (это не видео и не текст) и лишь затем может выдать текст/видео/картинку а может и не выдать.
Модель не предсказывает пиксели или токены, она предсказывает представления (embeddings) в латентном пространстве. В базовой VL-JEPA ничего не извлекают и ничего не декодируют. Она не обязана уметь порождать текст или изображения.
Там есть не мало разницы, хотя кажется что схожи с LLM. На вход латентного пространства VL-JEPA подаются предиктивные латентные состояния, полученные из частично наблюдаемых видео-патчей и текстовых фрагментов, а не “эмбеддинги контента” в привычном смысле.
Если отбросить детали, то все это сводится к одной мысли, о которой говорит Ян: модель должна работать в мультимодальном пространстве (в его случае специальное латентное пространство абстрактного сигнала), и уже от нее делать декодеры данных. Там есть сложности с обучением, так как они обучаются отдельно.
VL-JEPA 2 действительно сильный претендент на место классических моделей. Особенно в робототехнике, где важно "абстрактное мышление", а не текстовое.
То что вы написали, это и есть цепь Маркова. Только в статье извращенный способ попытки встроить ее к токенизатор. Не важно на одном уровне блоков или нескольких или только в начале.
Связка "Александр" + "Македонский" это и есть условная вероятность, которая присуща цепи Маркова, а три "слова" в вашем случае это цепь из трех элементов.
Какой-то извращенный способ. Все эти последовательности "внутренней дополнительной архитектуры", как цепи можно получить и так на основе сбора статистики.
Длина слова регулируется через длину цепи Маркова. Больше чувствительность больше статистика для токенизации. Описывал это тут https://t.me/greenruff/2483
Классический подход BPE и любых ngramm, построенный на частотности.
при правильной токенизации, когда вместо частотности (маргинальные вероятности) мы используем условные вероятности при построении токенов, хоть на первичном, хоть на после каждого блока дополнительно.
И тогда, если выкинуть частотный подход. который вообще чудом работает в языковым моделях из-за их пластичности, а правильно собирать статистику, то мы можем строить правильно и токенизатор и правильно вставлять его между уровнями, а не как в статье через "извращенный прием".
Вместо того, чтобы изобретать костыли как описано выше, почему ни кто не делает R&D, почему вообще так с точки зрения математики. Такая реализация вставки между слоями - просто пытается сгладить проблемы ngramm, чтобы он стал ближе к цепочке условных вероятностей. Именно их и пытаются получить в статье: Александр -> Македонский, яблоко-> красное, Древний мир -> Греция -> Аристотель и так далее.
До этой работы были выдвинуты гипотезы, как работают различные процессы на уровне нейрона. Они были описаны математически и написан симулятор на основе этих формул. Из научных исследования были взяты значения параметров (данные из сканирования мозга мыши), которые были получены при различных исследованиях. Этими данными были инициализированы значения параметров в описанных ими математических формулах. После этого симуляция была запущена для огромного числа таких инициализированных элементов. Задачей эксперимента была проверить, не "упадет" ли вообще модель, например в нейронных сетях есть взрывы градиентов. Аналогично тут, хотели проверить, не будет ли каких проблем, вдруг какие-то значения пойдут в разнос, так как упустили какие-то ограничения.
Это можно представить так. Мы делаем игру, наделяем элементы какими-то правилами. Заранее инициализируем их. Запускаем игру с миллиардом таких элементов и смотрим, как будут вести себя значения. Мы пока не делаем ни обучения, ни управления ими. Мы делаем проверку, что наша модель не упадет, если мы инициализируем ее и оставим работать на некоторое время с огромным кол-вом элементов на поле. То есть проверяем, масштабируема она или нет.
Поэтому пока говорить о связи с мозгом рано. Да, гипотеза описания формул на основе реальных нейронов. Но пока нет сравнения реального поведения нейронов с таким сигналом и тех что в модели, мы не можем говорить о том, что данная модель симулируем нейроны равносильно нейронам в мозгу.
если внимательно посмотреть, что делали и что получили и о чем исследование, то все становиться не таким красивым. Не знаю, журналисты приукрасили и PR служба пресс релизов.
Нет, они сделали другое. Они написали свою интерпретацию работы нейронов. Замечу. интерпретацию, которая может выдавать похожие сигналы (конкретные) в абстрактном вакууме, если настроить множество параметров. То есть иными словами - выдвинули гипотезу, что работа нейрона описывается таким математическим аппаратом. И в данном опыте масштабировали его. У данной модели пока нет доказательной основы, что она реализует механизм нейрона. У нее нет механизмом для обучения, этого не заложено в модель. На ней нельзя пока проверить работу реальных участков мозга, но можно сравнить маленькие участки сигналов мозга и данной симуляции, чтобы доказать, что она верно реализует реальный механизм. Но чтобы это сделать, надо разработать правильные механизмы подачи внешних сигналов на нейроны, обучения таких нейронов. Так как классические SNN (спайковые сети) в плане обучения тут не подходят, так как они "не обучаются" нормально.
Суть данной работы, что на базе разработанной гипотезы, был описан математический аппарат. И данный эксперимент показал, что если этот математический аппарат применить не к одному, а к огромному кластеру элементов, то он не развалиться (не выдаст ошибок, числа не уплывут). Все, больше ничего в рамках эксперимента доказано не было. Здесь не было доказано, что данный математический аппарат действительно совпадает с биологическим в процессе работы. Только то, что он не развалился во время работы, через заданное небольшое время.
Немного двоякое отношение, столько шума, а если внимательно почитать статью и вникнуть в имульсные сети (спайковые), то окажется слишком много шума. Для примера, что было реально получено в рамках данной работы:
1) Запуск модели - подтверждение, что запустить реально. 1 симуляция биологического времени занимает десятки секунд реального - это главный подтверждённый результат, а не какие-то другие утверждения.
2) Что система не уходит в разнос. Численная валидация сохраняется, то ест нет переполнений, выход за пределы (хотя они и так ограничены у них формулами), нет числовых взрывов. То есть числовая проверка, а не биологическая. Именно только проверка, а не обучение или реальные сигналы какого-то процесса.
3) показали некоторые метрики, например распределения спайков по областям. То есть это не сравнение с биологическими реальными измерениями такого же процесса, а просто метрики внутри системы. Тут нет ни KL-сравнений, ни спектральных совпадений, ни корреляционных метрик и так далее.
А теперь самое интересное. Что НЕ было сделано (и это прямо видно в тексте):
нет обучения: нет STDP, нет пластичности, веса фиксированы.
нет задачи, нет входа, нет выхода, нет поведения.
нет функциональной валидации: не показано, что области выполняют свои биологические функции, не показано воспроизведение известных кортикальных паттернов.
ну и главное, нет теоретических выводов: ни одной теоремы, ни одного утверждения о принципах работы мозг
То есть доказали вычислительная осуществимость, того же, что сами математически задали. Численная стабильность, то есть может работать без разноса, хотя тут вопросы - время маленькое на демо, обучения нет, просто динамика каких-то значений. Что можно вообще запустить на данной инфраструктуре. Все, ни каких больше доказательств или выводов с статье нет.
НЕ доказано, что модель: что-то вычисляет, что-то репрезентирует, что-то понимает, что-то объясняет в нейронауке.
Не доказано: соответствие живому мозгу, воспроизведение когнитивных функций, объяснение интеллекта.
Статья по сути: “Мы смогли собрать и запустить огромную модель сферического коня в вакууме”
Эта статья НЕ подтверждает гипотезу SNN / нейроморфики / мозга как сети спайков.
Она подтверждает только:
детализированная динамическая система может быть просчитана в огромном масштабе
Никакой новой нейронаучной истины из неё логически не следует.
Скрытый текст
Если что сама статья называется и ее можно найти: Microscopic-Level Mouse Whole Cortex Simulation Composed of 9 Million Biophysical Neurons and 26 Billion Synapses on the Supercomputer Fugaku RIN KURIYAMA, The University of Electro-Communications, Chofu, Tokyo, Japan KAAYA AKIRA, The University of Electro-Communications, Chofu, Tokyo, Japan LAURA GREEN BEATRIZ HERRERA KAEL DAI MARI IURA, The University of Electro-Communications, Chofu, Tokyo, Japan View all Open Access Support provided by: Research Organization for Information Science and Technology RIKEN Center for Computational Science The University of Electro-Communications Yamaguchi University
Авторы подчёркивают, что модель ещё не включает:
пластичность/обучение (изменения весов синапсов) — нет адаптации во времени
сенсорные входы и взаимодействие с внешним миром
полный объём мозга (только кора)
гормональные/нейромодуляторные эффекты
восприятие, поведение, функции
Это означает, что симуляция показывает динамику. И есть вопрос к этому. Те же SNN (спайковые сети) можно сказать что не работают (то что они могут реализовывать простейшие фильтры не в счет). Я нисколько не принижаю данную работу, но пока скептически отношусь к ней. Так как пока не увидел в ней доказательств того, что созданная ими махина реально как-то связана с работой нейронных клеток, я не просто сделана по их подобию (представлению, хотя и описанному математически).
Нужно получить первые подтверждения, что математический аппарат, на котором данная махина построена, действительно выдает тоже самое, что и живые ансамбли нейронов.
Там скорее про AGI в математическом плане, так как тут два лагеря:
AGI как система, способная понять абсолютно всё Такую трактовку использует Шлерет. AGI это универсальная система, способная охватить все возможные данные и концепты. Если мы следуем этому определению, то, как утверждает Шлерет, AGI невозможен: алгоритмические системы ограничены семантическим алфавитом и не могут индуктивно выйти за пределы своего (Semantic Closure), особенно в условиях тяжёлых хвостов (α ≤ 1), когда энтропия расходится.
AGI как выдающаяся обобщающая система (человеко-подобная) Если AGI понимать как систему, способную разумно обобщать данные, учиться, адаптироваться в широком диапазоне задач (человеко‑подобный интеллект, но не всесильная модель), то такая AGI может быть теоретически достижима. Этот подход соответствует определению AGI как способности обобщения и адаптации в разнообразных средах, например, как способность учиться и адаптироваться к новым задачам.
Если AGI требует бесконечного символического охвата, то согласно Шлерету, это невозможно.
Если же AGI это скорее человеческий интеллект, способный обрабатывать широкий класс задач, тогда Шлерет лишь указывает, что алгоритмические модели имеют пределы, но уже такие системы могут приближаться к человеческой универсальности.
Поэтому если называть AGI в рамках теоремы Шлерет, то человек сам по себе не способен охватить абсолютно всё, значит человек тоже не является AGI в строгом смысле первой трактовки. Таким образом AGI невозможен если нужен абсолютный охват.
AGI возможен в практическом смысле человеческой универсальности и человек, и алгоритмы могут быть ограниченно универсальны.
Так что выводы Шлерета не оспаривают возможность создания систем, схожих с человеческим интеллектом, но ставят под сомнение концепт AGI как всемогущего оракула, который охватывает всё.
Но изначально была речь про интерпретацию теоремы в рамках галлюцинаций (в рамка поста выше), а она к ним не имеет отношения, об этом я и указал.
Там под AGI подразумевается немного другое. Условно говоря система, которая может описать все что только возможно, то есть любую сложность. Поэтому эту теорему критиковали, так как аргумент был что мозг это AGI. Но автор теоремы все таки говорил там о другом. То есть словами теоремы, наш мог тоже не может обобщать бесконечно и поэтому имеет ограничение по предсказанию/аппроксимации/описанию. Подозреваю, что в теореме фигурирует AGI в данной формулировке, по той причине, что было много обещаний, что появиться AGI и сможет объяснить все на свете.
Не знаю, на сколько Владимир Крылов силен в математике, думаю что достаточно хорошо. Но то что она написал это каша, и интерполировать некоторые субъективные представления без доказательств на LLM, как минимум не профессионально.
Множество всех функций континуально, вычислимых - счётно, мера вычислимых равна нулю
В реальности LLM никогда не аппроксимируют произвольные функции. Они работают внутри фиксированного класса параметризованных функций. Это конечномерные, вычислимые, гладкие отображения. Мы здесь не ищем произвольную функцию. Наша задача аппроксимировать условное распределение языка, а не функцию Z→Z. Аргумент про "меру ноль" ничего не говорит об обучаемости, аппроксимации, обобщении, вероятностных моделях.
сам механизм attention неизбежно содержит появление галлюцинаций
Это просто неверно. Attention линейный по V, детерминированный, полностью вычислимый, не вводит ошибок сам по себе. Галлюцинации прекрасно возникают и без attention (RNN, n-gram), в байесовских моделях, в любом генеративном вероятностном процессе. Attention не причина, это формально "усилитель уверенности".
Галлюцинация не дефект архитектуры
Частично верно, но сказано в неверной формулировке. Более правильно было бы сказать, что галлюцинации это следствие постановки задачи как вероятностного языкового моделирования, а не конкретно трансформеров или attention. Более того, есть множество видов галлюцинаций, которые имеют разные причины и проявляются схожим образом.
Для примера делал разбор, как это у мозга. Даже у краткого частичного описания этого явления, можно понять, что причин существует множество. А существующие архитектуры, не охватывают/учитывают многие моменты.
Это означает, что модель не оптимизируется на истинность, не оптимизируется на выполнимость, не оптимизируется на корректность логического вывода, а только на правдоподобие продолжения. В этом смысле галлюцинация это естественный режим работы модели, когда данных недостаточно, сигнал слабый, распределение неоднозначно, или запрос лежит вне обучающего распределения. Но это не имеет никакого отношения к невычислимым функциям, Тьюрингу и мерам множеств.
теорема о неизбежной ошибке: для любого вычислительно перечислимого множества найдётся вход, на котором модель ошибётся
Это по сути переформулировка теоремы Райса, следствия неразрешимости. Формально верно, но логически вообще не связано с галлюцинациями.
Теорема говорит о точном вычислении функций. LLM не претендуют на точность, они оптимизируют ожидаемую правдоподобность, а не универсальную корректность. По этой логике любой калькулятор галлюцинирует, потому что есть входы вне его спецификации. Это подмена понятий.
Возможно он имел ввиду теорему AGI is Impossible. Here is the Proof. The Infinite Choice Barrier and a New Critique of Artificial Reason. Author: Max M. Schlereth. Не знаю как Крылов, но очень подробно изучал эту работу, так как она была связана с другими нужными мне математическими теоремами. Формально она говорит:
Существует класс задач рассуждения, в которых агенту требуется сделать выбор из неограниченного (неперечислимого или неограниченно растущего) множества альтернатив, без априорного алгоритмического критерия остановки.
Формально это близко к неразрешимости, отсутствию эффективной процедуры выбора, или отсутствию вычислимого функционала оптимальности. Это своего рода вариация аргументов Гёделя, Райса и анти-формалистских аргументов Пенроуза. Но тут важно, что Schlereth говорит о принципиальной невозможности универсального разума, а не об ошибках в конкретных ответах. поэтому если упоминается она, то это натягивание совы на глобус и подмена понятий.
Потому что галлюцинация это уверенный вывод при недостаточной информации, в рамках вероятностного генератора. А ICB это невозможность алгоритмического выбора в бесконечном пространстве альтернатив, даже в идеальных условиях.
Если совсем кратко, то разница в том, что галлюцинации не следствие невозможности выбора, а следствие принуждения к выбору там, где оптимально было бы воздержаться.
Про 33–48% галлюцинаций у reasoning-моделей, здесь он частично прав, но формулирует это как-то криво. Если описывать причину понятно и правильно, то reasoning это длинная цепочка. Она приводит к тому, что вероятность ошибки растёт экспоненциально. То есть по факту это накопление ошибки, а не парадокс рассуждений. Именно об этом я и писал в комментарии ранее:
как об одном конкретном виде галлюцинаций, который приводит к накоплению ошибки и в итоге это проявляется как сдвиг. А так же почему он происходит и как его минимизировать.
Как математик он вроде говорит корректные вещи. Но как специалист по ИИ он явно путает вычислимость и обобщение, подменяет задачу, использует нерелевантные теоремы, не понимает оптимизационную природу LLM. То что я вижу, это ответ человека, который знает теорию вычислимости, но не понимает что именно оптимизируют LLM.
Если следовать его цепочке рассуждения, то AGI невозможно из-за Infinite Choice Barrier => LLM частичный AGI => Следовательно, ошибки LLM (галлюцинации) фундаментальны.
Но на основе ICB, мы можем говорит только о существовании нерешаемых задач, но галлюцинации возникают на решаемых, конечных задачах из-за того, что модель обязана генерировать ответ.
Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.
Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.
Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом.
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM: https://disk.yandex.ru/d/pNjCRp-hpS1ywg
Обучение этой спайковой сети было на GPU и работают они на GPU. Но это не SNN архитектура.
Старые спайковые SNN должны умереть. Они не выстрелят, так как имеют слабое отношение к спайковым и поэтому почти не обучаются (если это можно вообще назвать обучение). В случае случае SNN реализуют фильтры, а не спайковые сети, там где их и применяют как детекторы.
А так да, при правильной реализации спайковая сеть, я ее пример обучения показал выше, отлично обучается на GPU. Даже может выигрывать у классических по ресурсоемкости, так как работает только с сигналами, которые образовали спайки. Это приводит к тому, что кол-во арифметических операций уменьшается.
Вот пример обучения при правильной реализации спайковой сети и сравнение с SNN.
https://t.me/greenruff/2564
Сейчас готовлю статью об этом, если кратко то часть динамики это цепь Маркова, разрыв цепи по порогу (https://t.me/greenruff/2462) описываемому размерностью пространства состояний - спайк. В остальном нейрон представляет собой Марковское одеяло, что накладывает требования на вход и выход. Ну а сама динамика нейрона происходит в лог пространстве, поэтому цепь Маркова представляет собой сложение, а не произведение. Это если совсем грубо и кратко. Так что ответ - да, на GPU это работает при правильной реализации.
Так проблема мультимодальных модулей в том, что в них каждая модальность по большому счету живёт своей жизнью.
В той же jepa, которую сейчас на западе рассматривают как следующий шаг, работает с мультимодальностью в специальном латентном пространстве. Которое уже и выдает данные через декодер. А текущие мультимодальные модели используют латентное пространство только как дополнение (и то не все), а прогноз в итоге делает отдельно текстовая или графическая модель. В случае jepa, в латентном "абстрактном" пространстве мы находим устойчивые связи. Там не анализируются пиксели для распознавания или общие детали. Там модель находить абстрактные связи, образно говоря модель видит что "скелет" соответствует животному, пейзаж "Африке" как сущности, морда ещё кому-то и так далее. И уже на выходе скажет, что это собака (через декодер в текст), а может ничего не сказать или что не знает. То есть это как если бы мы распознавали не по пикселям, а по общей "логике" абстрактной в целом. Для нас отдельные пиксели и детали в этом случае просто шум.
Так что, тут разный подход на уровне архитектуры.
А дальше мы перейдем к спайковым сеткам или jepa. И история с обещанием AGI повторится по новой))
Если их правильно реализовать, то они уделывают классические SOTA реализации и по стабильности и по качеству.
А так , классическим мульимодальным моделям на замену так же идёт новая архитектура jepa (условно новая). Где совсем другой подход.
Так что история про убытки это ещё на долго с нами.
В свое время делал небольшое исследование тонального и нетонального языка.
https://t.me/greenruff/2034
Здесь интересный момент был в том, что переход к нетональному явно прослеживается с переходом в холодный климат. (Там и другие есть исследования других лабораторий).
В частности, клики у африканских народов исчезают, когда мы смещаемся в холодный климат. Так как клики это "речь" на вдохе. Аналогично тональный язык это грубо говоря речь "песня", а открывать часто рот в холод чревато восполнением лёгких или трахеи.
Интересно, есть ли исследования, где связь речи и заболеваний. Поговорил много в холод и организм ослаб или простыл.
А дальше уже заразил остальных: было исследование о распространении болезни на основе метода 6 рукопожатий (условно, точно не помню название). Там было, что уже заражённый быстро разносит болезнь на всю популяцию без изоляции, за 24 дня вроде (не вспомню). Его используют при прогнозировании времени роста эпидемии.
Если хотите улучшить озвучку, то рекомендую синтезировать не все сразу. В этом случае модели часто плохо справляются с этим. А разбивать текст на синтагмы. Это не панацея, но улучшает качество.э, так как делает речь более живой.
https://t.me/greenruff/1826
Тут с синтезом было сложнее. Так как задача была управлять эмоциями, но большую роль так играет именно синтез по частям - синтагмам. В этом случае нет длинных синтезированных фраз. При этом управляя скоростью озвучки через тон и громкость, вы меняете эмоциональный окрас.
В этом случае получаем более человеческий вариант речи. Мозг не устает тогда. По стандартных синтезах, без данного подхода, через 1-2 дня начинаешь слышать разницу.
Сейчас правда есть уже модели вроде с возможностью задать эмоции, поэтому задача упрощается. Но даже там, для улучшения качества, текст для синтез надо резать на синтагмы.
Это так, если вы решите развить качество синтеза речи.
Тема искусственной кожи не нова. В 2020 году получал грант бортника на создание стендового оборудования для его производства
https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex
Сам подход тот же, что и для тензорных датчиков. Только тут были специально разработанные сплавы на основе галлия, с сопротивлением близком к меди. Сама технология относительно дешёвая.
Проблема на тот момент была в том, что по сути это не особо было нужно. Рынок только только появляется.
Но идея было в том, чтобы прикрутить через нейронки "кожу".
Уже тогда во всех странах велись работы над этим. Германия, США, Китай, Япония - основные страны работающие над этим. С учётом того, как сейчас в Китае развивается робототехника, думаю там первым и выстрелит это.
Свое же оборудование, которое сделали, так и лежит в гараже. Увы..
Слабое исследование. Вместо того, чтобы использовать мат. статистику, пытаются искусственно вводить правила. Данный подход не будет учитывать динамику языка, его заимствования и прочие вещи. Правила конечно лучше чем BPE, но фактически и там и там используется просто частотный подход.
Хотите реально качественный скачек в токенизации, а не эти извращения, то надо рассматривать текст как условные вероятности, которые формируют цепи Маркова и собирать статистику по цепям Маркова, а не по частотным слияниям букв.
https://t.me/greenruff/2483
В данном случае, даже уже всего на 1000 примерах обучения разница будет огромная. И чем дальше обучение, тем сильнее эта разница заметнее. BPE и подход выше, так и будет оставаться в рамках частотных (случайных токенов), где модель пытается это исправить через обучение. И мы долго будем видеть шум и высокочастотные токены. В то время как при правильном подходе, даже на первых 100-400 примерах сразу будет видна разница и первые формирования устойчивых правил. Так как все эти правила и так собраны в статистику наиболее вероятных Марковских цепей.
Я бы рекомендовал для лучшего понимания того, о чем говорит Ян, помирились это видео:
Здесь подробнее объясняется про vl-jepa 2 и прежние архитектуры. Как я понимаю он поэтому и ушел из meta, из-за разногласий по данной архитектуре. На Ютубе есть видео, где показано как модель "думает" при формировании текста, когда "смотрит". Этот подход сильно отличается от подхода, когда обучают мультимодальную модель связывая обучение видео и аудио данных.
Но ключевая идея тут ближе к мозгу. У нас тоже есть предварительные области оьратоки видео данных и аудио речи, и затем уже все "мышление" идёт в MPFC зоне, которая "мыслит" абстракциями. А затем уже может декорировать это в текст или видео. Отличие в том, что модель не учиться предсказывать следующий токен или пиксель, а она связывают данные и предсказание это лишь декодер "внутреннего" процесса "мышления". То есть она связывает физические явления, смысловые и так далее. Находит устойчивые связи. А уже задача декодера текстового или видео декодировать их в текст или изображение. При том, что нет гарантии что это будет сделано. Так как словесный текст, не может работать на этом уровне абстракции.
Не знаю, понятно ли написал. Но именно от этом говорит Ян. Так как обучение этой модели отличается от привычного. И просто обучать модель на тексте там не получится так. Мы просто обучаем "абстракции" и модель сама находит связи. При этом на выходе мы не сравниваем , правильно ли она предсказала текст или пиксель. Декодер обучается отдельно от общей модели. Его нельзя обучать совместно.
Когда пишите такие "статьи" то хотя бы разворачивайте мысль. Здесь ключевое как раз в том, о чем говорит Ян. Он работал над vl-jepa, и после ухода продолжил заниматься ею. Сейчас там вроде vl-jepa 2, и разница с классическими LLM и связками видео+текст на базе трансфомеров в том, что они они в итоге переходят на другой уровень абстракции и работают на его уровне. То есть модель связывает не предсказание следующего токена, а через связи абстракций (это не видео и не текст) и лишь затем может выдать текст/видео/картинку а может и не выдать.
Модель не предсказывает пиксели или токены, она предсказывает представления (embeddings) в латентном пространстве. В базовой VL-JEPA ничего не извлекают и ничего не декодируют. Она не обязана уметь порождать текст или изображения.
Там есть не мало разницы, хотя кажется что схожи с LLM. На вход латентного пространства VL-JEPA подаются предиктивные латентные состояния, полученные из частично наблюдаемых видео-патчей и текстовых фрагментов, а не “эмбеддинги контента” в привычном смысле.
Если отбросить детали, то все это сводится к одной мысли, о которой говорит Ян: модель должна работать в мультимодальном пространстве (в его случае специальное латентное пространство абстрактного сигнала), и уже от нее делать декодеры данных. Там есть сложности с обучением, так как они обучаются отдельно.
VL-JEPA 2 действительно сильный претендент на место классических моделей. Особенно в робототехнике, где важно "абстрактное мышление", а не текстовое.
То что вы написали, это и есть цепь Маркова. Только в статье извращенный способ попытки встроить ее к токенизатор. Не важно на одном уровне блоков или нескольких или только в начале.
Связка "Александр" + "Македонский" это и есть условная вероятность, которая присуща цепи Маркова, а три "слова" в вашем случае это цепь из трех элементов.
Какой-то извращенный способ. Все эти последовательности "внутренней дополнительной архитектуры", как цепи можно получить и так на основе сбора статистики.
Длина слова регулируется через длину цепи Маркова. Больше чувствительность больше статистика для токенизации. Описывал это тут https://t.me/greenruff/2483
И тогда, если выкинуть частотный подход. который вообще чудом работает в языковым моделях из-за их пластичности, а правильно собирать статистику, то мы можем строить правильно и токенизатор и правильно вставлять его между уровнями, а не как в статье через "извращенный прием".
Вместо того, чтобы изобретать костыли как описано выше, почему ни кто не делает R&D, почему вообще так с точки зрения математики. Такая реализация вставки между слоями - просто пытается сгладить проблемы ngramm, чтобы он стал ближе к цепочке условных вероятностей. Именно их и пытаются получить в статье: Александр -> Македонский, яблоко-> красное, Древний мир -> Греция -> Аристотель и так далее.
До этой работы были выдвинуты гипотезы, как работают различные процессы на уровне нейрона. Они были описаны математически и написан симулятор на основе этих формул. Из научных исследования были взяты значения параметров (данные из сканирования мозга мыши), которые были получены при различных исследованиях. Этими данными были инициализированы значения параметров в описанных ими математических формулах. После этого симуляция была запущена для огромного числа таких инициализированных элементов. Задачей эксперимента была проверить, не "упадет" ли вообще модель, например в нейронных сетях есть взрывы градиентов. Аналогично тут, хотели проверить, не будет ли каких проблем, вдруг какие-то значения пойдут в разнос, так как упустили какие-то ограничения.
Это можно представить так. Мы делаем игру, наделяем элементы какими-то правилами. Заранее инициализируем их. Запускаем игру с миллиардом таких элементов и смотрим, как будут вести себя значения. Мы пока не делаем ни обучения, ни управления ими. Мы делаем проверку, что наша модель не упадет, если мы инициализируем ее и оставим работать на некоторое время с огромным кол-вом элементов на поле. То есть проверяем, масштабируема она или нет.
Поэтому пока говорить о связи с мозгом рано. Да, гипотеза описания формул на основе реальных нейронов. Но пока нет сравнения реального поведения нейронов с таким сигналом и тех что в модели, мы не можем говорить о том, что данная модель симулируем нейроны равносильно нейронам в мозгу.
К сожалению, то что описывают журналисты и то что описывает само исследование, несколько отличаются. В другой статье по этой новости писал
https://habr.com/ru/articles/988032/comments/#comment_29437034
если внимательно посмотреть, что делали и что получили и о чем исследование, то все становиться не таким красивым. Не знаю, журналисты приукрасили и PR служба пресс релизов.
Скрытый текст
Сейчас это напоминает
Нет, они сделали другое. Они написали свою интерпретацию работы нейронов. Замечу. интерпретацию, которая может выдавать похожие сигналы (конкретные) в абстрактном вакууме, если настроить множество параметров. То есть иными словами - выдвинули гипотезу, что работа нейрона описывается таким математическим аппаратом. И в данном опыте масштабировали его. У данной модели пока нет доказательной основы, что она реализует механизм нейрона. У нее нет механизмом для обучения, этого не заложено в модель. На ней нельзя пока проверить работу реальных участков мозга, но можно сравнить маленькие участки сигналов мозга и данной симуляции, чтобы доказать, что она верно реализует реальный механизм. Но чтобы это сделать, надо разработать правильные механизмы подачи внешних сигналов на нейроны, обучения таких нейронов. Так как классические SNN (спайковые сети) в плане обучения тут не подходят, так как они "не обучаются" нормально.
Суть данной работы, что на базе разработанной гипотезы, был описан математический аппарат. И данный эксперимент показал, что если этот математический аппарат применить не к одному, а к огромному кластеру элементов, то он не развалиться (не выдаст ошибок, числа не уплывут). Все, больше ничего в рамках эксперимента доказано не было. Здесь не было доказано, что данный математический аппарат действительно совпадает с биологическим в процессе работы. Только то, что он не развалился во время работы, через заданное небольшое время.
Немного двоякое отношение, столько шума, а если внимательно почитать статью и вникнуть в имульсные сети (спайковые), то окажется слишком много шума. Для примера, что было реально получено в рамках данной работы:
1) Запуск модели - подтверждение, что запустить реально. 1 симуляция биологического времени занимает десятки секунд реального - это главный подтверждённый результат, а не какие-то другие утверждения.
2) Что система не уходит в разнос. Численная валидация сохраняется, то ест нет переполнений, выход за пределы (хотя они и так ограничены у них формулами), нет числовых взрывов. То есть числовая проверка, а не биологическая. Именно только проверка, а не обучение или реальные сигналы какого-то процесса.
3) показали некоторые метрики, например распределения спайков по областям. То есть это не сравнение с биологическими реальными измерениями такого же процесса, а просто метрики внутри системы. Тут нет ни KL-сравнений, ни спектральных совпадений, ни корреляционных метрик и так далее.
А теперь самое интересное. Что НЕ было сделано (и это прямо видно в тексте):
нет обучения: нет STDP, нет пластичности, веса фиксированы.
нет задачи, нет входа, нет выхода, нет поведения.
нет функциональной валидации: не показано, что области выполняют свои биологические функции, не показано воспроизведение известных кортикальных паттернов.
ну и главное, нет теоретических выводов: ни одной теоремы, ни одного утверждения о принципах работы мозг
То есть доказали вычислительная осуществимость, того же, что сами математически задали. Численная стабильность, то есть может работать без разноса, хотя тут вопросы - время маленькое на демо, обучения нет, просто динамика каких-то значений. Что можно вообще запустить на данной инфраструктуре. Все, ни каких больше доказательств или выводов с статье нет.
Статья по сути: “Мы смогли собрать и запустить огромную модель сферического коня в вакууме”
Эта статья НЕ подтверждает гипотезу SNN / нейроморфики / мозга как сети спайков.
Она подтверждает только:
Никакой новой нейронаучной истины из неё логически не следует.
Скрытый текст
Если что сама статья называется и ее можно найти:
Microscopic-Level Mouse Whole Cortex Simulation Composed of 9 Million Biophysical Neurons and 26 Billion Synapses on the Supercomputer Fugaku RIN KURIYAMA, The University of Electro-Communications, Chofu, Tokyo, Japan KAAYA AKIRA, The University of Electro-Communications, Chofu, Tokyo, Japan LAURA GREEN BEATRIZ HERRERA KAEL DAI MARI IURA, The University of Electro-Communications, Chofu, Tokyo, Japan View all Open Access Support provided by: Research Organization for Information Science and Technology RIKEN Center for Computational Science The University of Electro-Communications Yamaguchi University
Авторы подчёркивают, что модель ещё не включает:
пластичность/обучение (изменения весов синапсов) — нет адаптации во времени
сенсорные входы и взаимодействие с внешним миром
полный объём мозга (только кора)
гормональные/нейромодуляторные эффекты
восприятие, поведение, функции
Это означает, что симуляция показывает динамику. И есть вопрос к этому. Те же SNN (спайковые сети) можно сказать что не работают (то что они могут реализовывать простейшие фильтры не в счет). Я нисколько не принижаю данную работу, но пока скептически отношусь к ней. Так как пока не увидел в ней доказательств того, что созданная ими махина реально как-то связана с работой нейронных клеток, я не просто сделана по их подобию (представлению, хотя и описанному математически).
Нужно получить первые подтверждения, что математический аппарат, на котором данная махина построена, действительно выдает тоже самое, что и живые ансамбли нейронов.
Там скорее про AGI в математическом плане, так как тут два лагеря:
AGI как система, способная понять абсолютно всё
Такую трактовку использует Шлерет. AGI это универсальная система, способная охватить все возможные данные и концепты. Если мы следуем этому определению, то, как утверждает Шлерет, AGI невозможен: алгоритмические системы ограничены семантическим алфавитом и не могут индуктивно выйти за пределы своего (Semantic Closure), особенно в условиях тяжёлых хвостов (α ≤ 1), когда энтропия расходится.
AGI как выдающаяся обобщающая система (человеко-подобная)
Если AGI понимать как систему, способную разумно обобщать данные, учиться, адаптироваться в широком диапазоне задач (человеко‑подобный интеллект, но не всесильная модель), то такая AGI может быть теоретически достижима. Этот подход соответствует определению AGI как способности обобщения и адаптации в разнообразных средах, например, как способность учиться и адаптироваться к новым задачам.
Если AGI требует бесконечного символического охвата, то согласно Шлерету, это невозможно.
Если же AGI это скорее человеческий интеллект, способный обрабатывать широкий класс задач, тогда Шлерет лишь указывает, что алгоритмические модели имеют пределы, но уже такие системы могут приближаться к человеческой универсальности.
Поэтому если называть AGI в рамках теоремы Шлерет, то человек сам по себе не способен охватить абсолютно всё, значит человек тоже не является AGI в строгом смысле первой трактовки. Таким образом AGI невозможен если нужен абсолютный охват.
AGI возможен в практическом смысле человеческой универсальности и человек, и алгоритмы могут быть ограниченно универсальны.
Так что выводы Шлерета не оспаривают возможность создания систем, схожих с человеческим интеллектом, но ставят под сомнение концепт AGI как всемогущего оракула, который охватывает всё.
Но изначально была речь про интерпретацию теоремы в рамках галлюцинаций (в рамка поста выше), а она к ним не имеет отношения, об этом я и указал.
Там под AGI подразумевается немного другое. Условно говоря система, которая может описать все что только возможно, то есть любую сложность. Поэтому эту теорему критиковали, так как аргумент был что мозг это AGI. Но автор теоремы все таки говорил там о другом. То есть словами теоремы, наш мог тоже не может обобщать бесконечно и поэтому имеет ограничение по предсказанию/аппроксимации/описанию. Подозреваю, что в теореме фигурирует AGI в данной формулировке, по той причине, что было много обещаний, что появиться AGI и сможет объяснить все на свете.
Не знаю, на сколько Владимир Крылов силен в математике, думаю что достаточно хорошо. Но то что она написал это каша, и интерполировать некоторые субъективные представления без доказательств на LLM, как минимум не профессионально.
В реальности LLM никогда не аппроксимируют произвольные функции. Они работают внутри фиксированного класса параметризованных функций. Это конечномерные, вычислимые, гладкие отображения. Мы здесь не ищем произвольную функцию. Наша задача аппроксимировать условное распределение языка, а не функцию Z→Z. Аргумент про "меру ноль" ничего не говорит об обучаемости, аппроксимации, обобщении, вероятностных моделях.
Это просто неверно. Attention линейный по V, детерминированный, полностью вычислимый, не вводит ошибок сам по себе. Галлюцинации прекрасно возникают и без attention (RNN, n-gram), в байесовских моделях, в любом генеративном вероятностном процессе. Attention не причина, это формально "усилитель уверенности".
Частично верно, но сказано в неверной формулировке. Более правильно было бы сказать, что галлюцинации это следствие постановки задачи как вероятностного языкового моделирования, а не конкретно трансформеров или attention. Более того, есть множество видов галлюцинаций, которые имеют разные причины и проявляются схожим образом.
Скрытый текст
https://t.me/greenruff/2223
Для примера делал разбор, как это у мозга. Даже у краткого частичного описания этого явления, можно понять, что причин существует множество. А существующие архитектуры, не охватывают/учитывают многие моменты.
Это означает, что модель не оптимизируется на истинность, не оптимизируется на выполнимость, не оптимизируется на корректность логического вывода, а только на правдоподобие продолжения. В этом смысле галлюцинация это естественный режим работы модели, когда данных недостаточно, сигнал слабый, распределение неоднозначно, или запрос лежит вне обучающего распределения. Но это не имеет никакого отношения к невычислимым функциям, Тьюрингу и мерам множеств.
Это по сути переформулировка теоремы Райса, следствия неразрешимости. Формально верно, но логически вообще не связано с галлюцинациями.
Теорема говорит о точном вычислении функций. LLM не претендуют на точность, они оптимизируют ожидаемую правдоподобность, а не универсальную корректность. По этой логике любой калькулятор галлюцинирует, потому что есть входы вне его спецификации. Это подмена понятий.
Возможно он имел ввиду теорему AGI is Impossible. Here is the Proof. The Infinite Choice Barrier and a New Critique of Artificial Reason. Author: Max M. Schlereth. Не знаю как Крылов, но очень подробно изучал эту работу, так как она была связана с другими нужными мне математическими теоремами. Формально она говорит:
Формально это близко к неразрешимости, отсутствию эффективной процедуры выбора, или отсутствию вычислимого функционала оптимальности. Это своего рода вариация аргументов Гёделя, Райса и анти-формалистских аргументов Пенроуза. Но тут важно, что Schlereth говорит о принципиальной невозможности универсального разума, а не об ошибках в конкретных ответах. поэтому если упоминается она, то это натягивание совы на глобус и подмена понятий.
Потому что галлюцинация это уверенный вывод при недостаточной информации, в рамках вероятностного генератора. А ICB это невозможность алгоритмического выбора в бесконечном пространстве альтернатив, даже в идеальных условиях.
Если совсем кратко, то разница в том, что галлюцинации не следствие невозможности выбора, а следствие принуждения к выбору там, где оптимально было бы воздержаться.Про 33–48% галлюцинаций у reasoning-моделей, здесь он частично прав, но формулирует это как-то криво. Если описывать причину понятно и правильно, то reasoning это длинная цепочка. Она приводит к тому, что вероятность ошибки растёт экспоненциально. То есть по факту это накопление ошибки, а не парадокс рассуждений. Именно об этом я и писал в комментарии ранее:
https://habr.com/ru/articles/982494/comments/#comment_29332940
как об одном конкретном виде галлюцинаций, который приводит к накоплению ошибки и в итоге это проявляется как сдвиг. А так же почему он происходит и как его минимизировать.
Как математик он вроде говорит корректные вещи. Но как специалист по ИИ он явно путает вычислимость и обобщение, подменяет задачу, использует нерелевантные теоремы, не понимает оптимизационную природу LLM. То что я вижу, это ответ человека, который знает теорию вычислимости, но не понимает что именно оптимизируют LLM.
Если следовать его цепочке рассуждения, то AGI невозможно из-за Infinite Choice Barrier => LLM частичный AGI => Следовательно, ошибки LLM (галлюцинации) фундаментальны.
Но на основе ICB, мы можем говорит только о существовании нерешаемых задач, но галлюцинации возникают на решаемых, конечных задачах из-за того, что модель обязана генерировать ответ.
Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.
Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.
Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM:
https://disk.yandex.ru/d/pNjCRp-hpS1ywg
если надо понять как https://t.me/greenruff/2472
Пусть LLM разжует вам подробно, как строиться эта иерархия и связи.