Комментарии 21
Однако любой, кто хоть раз интересовался природой памяти, прекрасно знает об отсутствии этих слов в реальности
поинтересовался и нашёл https://www.youtube.com/watch?v=3AcQFlnsY3s
записей было несколько, а дублей, вроде как, ещё больше. Так как для дальнего востока приходится отдельно "прямой эфир" организовывать. Другая версия, что в первом эфире показали, а в последующих вырезали
А что это вы нашли, не интересовались?) Это специально для ДВ логотип канала не стали накладывать? И даже на такой шакальной "записи" заметно несоответствие движений рта.
поинтересовался и нашёл
Ну это системная проблема. В этот раз поправят, а в следующий раз же удастся уверовать в креветочного Иисуса. И нейронки в тот раз задействуют, чтобы нельзя было свериться покадрово и найти монтаж.

Наконец-то! Спустя четверть века, по соседству с взломом канала Карусель 2010 и потерянным эпизодом Городка, они нашли исходную запись без логотипа телеканала в качестве 20-й копии VHS, сэмулированном эффектом ТВ-симулятора из вегаса.
Хотелось бы сказать, что это нейросгенерированное видео, но там буквально видно склейку.
Тем не менее, мы чаще всего можем отличить галлюцинацию от реальности, а модель нет.
Все сложнее. Текст является цепями Маркова. Но, это не просто непрерывная цепь Маркова, а иерархическая цепь Маркова, где иерархии верхнего уровня, связывают разрыв цепей нижнего уровня.
Если мы посмотрим распределение вероятностей у логитов в LLM, то увидим:

Здесь модель еще не обучена полностью, но суть передает. Мы видим условные вероятности перехода между токенами с учетом всей иерархии.
Рассмотрим слово «жильцов», представленное последовательностью токенов:
« ж»→«ильц»→«ов».
Вероятность соответствующей марковской цепи равна:
PMarkov = P1(« ж») ⋅ P2(«ильц»∣« ж») ⋅ P3(«ов»∣«ильц»)
Проблема в том, что стандартные методы top-k / top-p не способны правильно оставлять возможные вероятности для следующего выбора токена.
Как уже было сказано, мы имеем дело с иерархическими цепями Маркова, которые имеют точки разрыва. Поэтому на каждом следующем шаге, мы не можем выбрать все вероятности в ни по интервалу K (top-k) ни по суммарной вероятности P (top-p).
Пусть после двух первых токенов:
P1 ⋅ P2 ≳ θ, где θ— порог разрыва цепи Маркова.
Тогда при выборе следующего токена допустимы только такие условные вероятности P3, для которых:
P1 ⋅ P2 ⋅ P3 ≥ θ
Это резко сужает пространство допустимых токенов и приводит к тому, что:
в конце слова выбор возможен только среди токенов с высокой условной вероятностью;
именно поэтому мы наблюдаем пики вероятности на окончаниях слов.
Если мы выбираем argmax (нулевая температура), то все нормально. Цепь Маркова разрывается и начинается новая. Но argmax в рамках существующих архитектур LLM это статика. Он не способен динамически учитывать контекст. Это приводит к застреванию в локальных максимумах и мы получаем усредненный текст. Это не значит, что он оптимальный, это значит, что при использовании dropout в процессе обучения, в случае неопределенности мы случайно добавляем смещение. Это приводит к статичным локальным маршрутам, которые и отражает генерация текста при температуре 0.
Если же мы используем температуру от личную от 0, то это нормально. Но, тут у нас возникает другая проблема. Если при выборе следующего токена, мы выбираем токен который уменьшить вероятность цепи Маркова ниже допустимого порога, то по сути добавляем шум. Поэтому на каждом шаге мы должны выбирать только такие токены, чья условная вероятность P(v) не уменьшит PMarkov ⋅ P(v) < θ.

При правильном подходе, мы получаем то, что цепь не нарушается и не добавляет шум. Это хорошо видно при начальном обучении модели.
Для примера, при начальном обучении модели LLM (1000 примеров обучения):
Top-K: всего слов: 130, сломанных слов: 17, коэффициент F: 17/130 = 0.1307
Цепи Маркова с порогом разрыва цепи: всего слов: 187, сломанных слов: 22, коэффициент F: 22/187 = 0.1176
Чем меньше F, тем меньше ошибок в словах в целом. Цепь Маркова немного выигрывает Top-K (аналогично Top-pP). На самом деле, если мы посмотрим на сломанные слова у Top-K и Цепи Маркова, что увидим разницу. Top-K - ломает слова полностью "обгваласько"/"беззвольте", а цепь Маркова "гулятьвающиеся"/"покосившимский"/"горизонтело" ("гулять" и шум "вающиеся" на конце, "покосившим" и шум "ский", "горизонт" и шум "ело") из-за маленькой статистики собранной при обучении на 1000 примера. Причина у них разная, в первом случае мы работаем с шумом и пытаемся его продолжить, а во втором случае мы получаем на конце шум, так как еще не собрали достаточно статистики.
Несмотря на маленькую разницу, данный подход показывает, что при использовании цепи Маркова в качестве критерия отсечения logits, мы смещаем шум в конец. В этом случае все упирается в качество обучения. В то время как при использовании Top-K, даже при качественном обучении мы можем получить шум в середине или начале слова, что приведет галлюцинациям и при продолжении, что можем вызвать цепную реакцию галлюцинаций при продолжении генерации.
Поэтому использование top-k/top-p эта одна из причин галлюцинаций современных LLM. Если мы используем только top-p, это может привести к тому, что цепь Маркова выберет недопустимый элемент, который является шумом (при его выборе) для продолжения цепи. Высокая вероятность элемента, не может гарантировать, что он не является шумом. Например: "яблоко кра...". Продолжением может быть красное и красивое. Оба варианта имеют высокую вероятность такого продолжения. Но возможно что вероятность одного из них приведет вероятность цепи Маркова ниже порога. Это значит будет являться шумом. Например, контекст в начале указывает, что мы выбираем смелые яблоки на рынке и красный цвет важен. В то время как выбор красивый, приведет к продолжению галлюцинаций и генерацией текста связанного с красотой, а не выбором по цвету спелые яблоки или нет.
Это одна из форм галлюцинаций, которая возникают как накопление таких отклонений. Каждое, может сильнее отклонить генерацию текста от контекста. Галлюцинации в LLM возникают не как результат одного ошибочного токена, а как следствие накопления локально допустимых, но глобально несогласованных выборов, которые экспоненциально сужают пространство согласованных продолжений.
"Смелые яблоки" это конечно сильно. Пост был генерирован сеткой то же?
Какой пост, я не автор поста или вы про комментарий? Вы реально считаете, что нейронная сеть сможем сгенерировать подобный комментарий, да еще и провести сама исследование и показать это наглядно как выше? Нет, LLM бы вам на это сгенерировала тонну правдоподобного мусора, так как это тот случай, когда в обучающих ее данных нет данного ответа. Я видел опечатку про "смелые яблоки", но не стал править, так дальше было прекрасно понятно о чем речь. В том моем комментарии опечаток гораздо больше.
Хороший текст и удачная аналогия с реконструктивной памятью, но в ключевом месте есть логический скачок. Из того, что LLM - вероятностная генеративная модель, не следует архитектурная неизбежность галлюцинаций. Это подмена уровней: архитектура ≠ режим генерации ≠ контур валидации. Галлюцинации возникают не из-за стохастики как таковой (они есть и при temperature=0), а из-за отсутствия жесткого truth-constraint и механизма сказать „я не знаю“. Аналогия с человеческой памятью тоже неполная - человек способен различать реконструкцию и факт (пусть и с ошибками), у модели без внешнего контура такой эпистемической разницы нет. Иначе говоря, проблема не в том, что модель „дополняет реальность“, а в том, что мы используем генеративный механизм там, где ожидаем фактуальный ответ, без разделения этих режимов.
мы выбираем смелые яблоки
Ну да, а смелые яблоки могут быть и красные и красивые и вообще будут сами смело запрыгивать в корзину, да тут просто простор для продолжения галлюцинаций.
Тот редкий случай, когда опечатка (или галлюцинация?) прямо в тему статьи (вот только я уровнем ошибся - это к комментарию выше).
Почему никто не думает, что галлюцинации – это попытка завуалированного сообщения?
А когда придумают AGI выяснится что прокастенация, мелонхолия и даже дипрессия это тоже не баг а архитектурная особенность
Иными словами - причина галюцинаций - использование языка как средства описания состояний и переходов между ними, а так же операторов для этого. С использованием вероятностных связей. Фактически это синоним "с использованием языка".
Это отражает простой факт - язык может отражать реальность только с заданой точностью. А этот факт объясняется тем что средства наблюдения человека не позволяют ему увидеть онтологию мира.
Прекрасная статья 👍
Слыхали, про эксперимент Аша, на конформность? Неужели никто хоть интуитивно не видит связи, с эффектом Манделы?


Эффект Манделы в LLM: Почему галлюцинации — это не баг, а архитектурная неизбежность