Комментарии 26
Как предлагается сложить не плоскую геометрию в ИИ?
Да, дела плохи, мы всё ещё значительно далеки от прорыва
Внимательно не читал, вроде вся статья одно да потому в очень спорном ключе "у gpt галюны - значит оно бесполезный мусор". У кожмешков тоже глюков полно, но это некоторым из них не мешает быть ноблевскими лауреатами и всем таким подобным.
Глюками называю например когнитивные искажения описанные у Юдковского.
Да и математики бывают... Перельман тот же. У него что-то кроме гениальности и глюков есть?
Статья вообще не про это. Наверное все-же стоит сначала читать а потом уже комментировать.
Статья про то, что текущие пути улучшения llm не помогают и не помогут, потому что исправляют симптомы а не фундаментальную проблему архитектуры сетей, и предлагает посмотреть на llm с использованием других абстракций чтобы это понять. Ценность самой статьи спорна, но ваш комментарий к содержимому вообще отношения практически не имеет.
Недавно описывал в одном из комментариев причину одной из галлюцинаций LLM.
https://habr.com/ru/articles/982494/comments/#comment_29332940
Если коротко, то проблема в выборе вероятного токееа. Текст это цепь иерархическая цепь Маркова. LLM на выходе выдает условную вероятность с учётом всей иерархии. Но это не значит, что мы можем на каждом шаге выбрать любой токен по критерию top-p/top-k. Так как это ломает цепь, согласованность всех ее уровней. Высокая вероятность не значит, что она допустима в данной цепи. Мы должны учитывать вероятность всей текущей цепи Маркова.
https://telegra.ph/Rangovaya-model-veroyatnostej-i-bifurkacii-kak-utraty-asimmetrii-07-17
Мы должны учитывать вероятность цепи с учётом порога разрыва цепи Маркова. Сам порог разрыва связан с ограничением кол-ва возможных состояний. Его можно посчитать. Выше ссылке показано как. Только в этом случае мы не разрушаем цепь. Иначе, может возникнуть ситуацию, что мы пытаемся генерировать продолжение шума. Это приводит к тому, что теряется контекст. И это приводит к усилению галлюцинаций.
Особенно сильно это проявляется в том случае, когда сеть "не знает" ответ. В этом случае мы получаем на выходе множество условных вероятностей, которые будут близки по своему значению. И выбор неправильной, легко приводит к тому, что мы выбираем шум и пытаемся его продолжить. Тут два момента:
1) мы все таки можем выбрать правильный, только должны сильно сузить выбор допустимых, чтобы не разрушать контекст.
2) ни один не позволяет сделать выбор, итак чтобы цепь Маркова могла продолжится. То есть мы получаем состояние неопределенности. В случае мозга, запустился бы поиск альтернативного маршрута или это привело к ответу "я не знаю", так как не одна из предложенных вероятностей не допустима, при условии что она не разрушит цепь Маркова. Когда все варианты равновероятны и недопустимы это и есть условно состояние "я не знаю". Но у текущих архитектур LLM нет механизма для обработки такой ситуации. В мозге для этого есть область ACC, она отвечает за подобные конфликты. У LLM такого нет, и она не может прекратить регенерировать текст дальше, так как мы продолжаем выбирать "шум" как следующий токен, даже если мы достигли "неопределенности".
Что касается разрешения состояния неопределенности, то в мозге для этого есть специальный механизм:
Если бы это так работало, нейросеть не могла бы генерировать связный и осмысленный текст. Да и в принципе использовать цепи Маркова для верификации LLM как инструментов синтеза речи - абсурдная идея, т.к. цепи Маркова как инструмент синтеза речи несопоставимо менее эффективны, чем современные LLM.
Вы в этом уверены? Можете привести не абстрактные аргументы, а конкретные?
Кто вам сказал, что иначе бы не работали. в большинстве случаев глобальная цепь Маркова не нарушается. Во вторых, небольшие шумы не приводят к неустойчивости иерархии.


У меня есть аргументы. Я смог доказать на примерах и в работах, что мы имеем дело с иерархической цепью Маркова. Одним из таких примеров является построение на основе этого токенизатора, который не является частотным как BPE, а именно основан на цепях Маркова. И при равных условиях при обучении одних и тех же LLM с нуля, мы получаем результат который просто "рвет" классические токенизаторы в процессе обучения, как по скорости обучения.

Так же модель по Loss при обучении заметно быстрее сходиться и дает гораздо более качественный результат. https://t.me/greenruff/2518
Поэтому если вы что-то утверждаете, то приводите аргументы. Я математически доказал, что является иерархическими цепями Маркова, подтвердил это эмпирически, получил предсказательную силу которую наглядно можно пощупать.
Вы не до конца видимо понимаете, как устроена LLM и как она предсказывает вероятности.
Согласен, использование марковской модели может ускорять обучение и влиять на Loss, особенно с подходящим токенизатором. Но attention и большие корпуса обеспечивают связность текста независимо от марковской схемы, а качество и скорость обучения в итоге зависят в первую очередь от структуры и объёма данных.
Кто вам такое сказал? Откуда вы это взяли?
Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом. Марковская модель это полезное приближение и инженерный инструмент, но не необходимое условие. Влияние данных и контекста на качество и сходимость наблюдается эмпирически при масштабировании
Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.

Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом.
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM:
https://disk.yandex.ru/d/pNjCRp-hpS1ywg
если надо понять как https://t.me/greenruff/2472
Пусть LLM разжует вам подробно, как строиться эта иерархия и связи.
Нет, сами OpenAI уже выяснили причину - дело в неправильном обучении. Модель при обучении быстро понимает что если ответит "не знаю" то получит 0 баллов, а если ответит наугад - то есть мизерный шанс угадать, и он больше 0.
Где они выяснили причину? Вы понимаете, что обучая модель на разных диалогах, где так же есть "не знаю", модель получает представление о таких ответах. О каких нулях баллах идет речь? Модель обучается по Loss. Если говорить о рассуждениях, так это дообучение модели, где может быть регуляризация. Модели без разницы, что она ответит. Что будет вероятно то и ответит. Вы путаете обучение с регуляризацией с жестко заточенным алгоритмом и неопределенностью. Если вы вводите регуляризацию, то можете выбрать любой критерий. Хоть частое вручающийся символ "А". Только это не имеет отношения к состоянию неопределённости. Вы смотрели ту работу, на чем она была построена.
Если бы все было так просто, то галлюцинаций в ChatGPT не было бы. И он умел отвечать "я не знаю" самостоятельно.
Я читал об этом тут, на Хабре - https://habr.com/ru/articles/945450/
Вы внимательно читали ту стать. OpenAI?
Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь - для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Это во первых. На текущей архитектуре вы от этого не избавитесь. Во вторых в статье речь идет о другой форме проблемы галлюцинаций - это когда модель не знает. Это две разные проблемы галлюцинаций. Одна когда мы продолжаем генерацию шума, и другая когда встречаемся с ситуацией, что все варианты на уровне шума. В цитате из статьи выше, как раз об этом. Что в современных LLM нет механизма для разрешения галлюцинаций, в ситуации когда все варианты на уровне шума.
Разрешения нет, но возможно ли отслеживать такую ситуацию когда все варианты ответа на уровне шума и сообщать об этом пользователю?
Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.
Как популярное изложение для неспециалиста статья "пойдёт" — она правильно критикует “наивную интуицию” и переоценку масштабирования. Но как техническое объяснение “почему галлюцинации” и “что делать” — это, скорее, эссе: сильные заявления, мало проверяемых механизмов и много метафор.
“Плоская евклидова геометрия” как объяснение галлюцинаций — это скорее публицистика, чем техническая модель. В статье нет "работающего" критерия оценки (“как измерить кривизну”, “какую именно метрику внедрить”, “какой алгоритм обучения меняет геометрию так, чтобы исчезли галлюцинации”) — без этого утверждение непроверяемо.
Идея о том, что защитные слои и пост-тюнинг могут скрывать часть проблем, имеет основание: они действительно иногда уменьшают видимые ошибки, но при этом могут ухудшать другие свойства модели — например, калибровку уверенности, склонность «соглашаться» с пользователем или объяснимость причин ответа. Однако утверждать, что такие меры “всегда” или “в целом” лишь закапывают ошибки глубже, неправильно. На практике это набор компромиссов (как и многое другое в ИИ): часть классов ошибок становится реже, часть — меняет форму, появляются новые побочные эффекты.
Итого, автор (Jose Crespo) написал много рассуждений (заметьте, не научных рассуждений, а "человеческих", кстати, как раз интуитивных, неподтверждаемых), автор от Ботхаба увидел заголовок и перевел, не разобравшись (насколько вижу, с некоторой потерей смысла, беря ближайшие русские термины, а не наиболее подходящие термины из предметной области), запостил на Хабр (ну, байты не пахнут!), и производная от оригинала текстовка пошла отравлять мозги болтаться на глазах пользоваталей еще одного ресурса, на уже другом языке.
Вот работающие критерии оценки которые реально работают:
Локальная согласованность эмбеддингов
Геодезическая длина рассуждения
Entropy Collapse Index (ECI)
Контрастивная проверка кривизны
Intervention-based probing
Алгоритмическое изменение геометрии представлений
Да, это не «волшебная кнопка». Но утверждение, что геометрия — лишь метафора, неверно: у неё есть наблюдаемые величины, воспроизводимые эксперименты и количественные эффекты. Отсутствие их в популярной статье не означает отсутствия в реальной исследовательской практике.
Очередное ведро помоев от очередного интернетного шиза с "рииии вы делаете ИИ неправильно".
И не жалко было тратить токены на перевод этой чуши?
Ну аналогия смотреть на нейросеть, как на сложную поверхность, где ответ формируется путём построения маршрута (я бы даже сказал - скатывания шарика в самую низкую точку от места падения) - в целом довольно здравая. Правда людям сложно представить геометрию с более чем 3-мя изменениями, куда уж там до сотен тысяч в llm. И посыл искать решения смотря на проблему под разными углами, тоже всегда к месту. А в остальном да))
Ребятам выделили много денег, но родить прорыв из за этого прямо здесь и сейчас невозможно, это не так работает, думаете они не понимают проблем и ограничений текущих LLM ? Конечно понимают и получше нас с вами, но деньги выделены, нужно осваивать.
Это, конечно, красиво. Но...
Скрытый текст
Разве это не просто длинный способ сказать что машина которая перебирает кучу вариантов взвешивая вероятности, обречена ошибаться в силу своего определения. Что увеличение сущностей в такой системе должно множить количество ошибок. И что для более корректной работы, нужно не множить сущности, а специализировать машину под конкретную тематику и менять ее подход к перебору ?
Опять же, я мог ничего не понять.
Тема интересная, но читать такой перевод физически больно. Тот случай, когда лучше бы дали нейросети перевести этот текст в нормальный вид.
Ваша интуиция об ИИ сломана — и у OpenAI тоже