Comments 18
Было бы здорово научиться распознавать "галлюцинации" ИИ, особенно если сам не знаешь правильного ответа.
При запросах Google всегда сначала читаю обзор от ИИ, а потом перепроверяю по другим источникам. Мне кажется, наибольшая проблема модели в том, что она аккумулирует слишком много источников, в том числе недостоверные. Я работала в маркетинге и знаю, какими копирайтерами с какого потолка заполняются сайты. Страшно, если модели будут обучаться на текстах копирайтеров, а не специалистов((
Давайте предположим, что кто-то научился распознавать галлюцинации на 100%, не зная правильного ответа.
Берем сложную задачу (которую ИИ может решить с сотой попытки), запускаем сеть несколько сотен раз, отвергаем все галлюцинации, получаем правильный ответ.
Если задачу можно решить по частям - просим сделать план решения, отвергаем галлюцинации, получаем рабочий план, по которому потом решаем задачу.
Понимаете, к чему идёт? Если бы галлюцинации можно было бы распознавать гарантировано, то любая задача стала бы решаемой. Это не выглядит реалистичным, а значит и надёжное распознание галлюцинаций тоже вряд ли реалистично.
Для некоторых задач - да. Некоторыми способами с некоторой надежностью - да. Гарантировано - нет.
Думается, что все же проблема сложнее, в несколько абзацев вряд ли получится показать, что P=NP.
Решение задачи и определение правильности решения - деятельности довольно разные и полагаться на их различие - рутинный подход, в том числе в повседневной жизни. "Я не знаю, как доказать гипотезу Римана, но то, что предложил Атья, не выглядит правильным". "Я не знаю, как написать шедевр, но вот эта рукопись такого впечатления не создает". "Я не знаю, как заработать миллион долларов за месяц, но просить у людей в метро не представляется приближающим к цели". И т.д. Разумеется, за этим идут всякие тонкости в виде ложных срабатываний "я не знаю, как увеличить пропускную способность системы дорог, но предлагать, что этого можно достичь установкой устройств, ограничивающих движение, - дико", которые тоже надо принимать во внимание.
Я не показал P=NP и даже не пытался. Но замечание уместное. Если задача решается только полным перебором, то схема с верификацией на практике бесполезна.
Впрочем, именно это и хотел показать - недостатки распознавания галлюцинаций.
Озвученный класс задач был ещё "хуже". Предположительно не верифицируемые формально, но которые можно проверить по разным источникам (для примера - кто победители в какой-то битве 6 века). Если бы галлюцинации можно было бы гарантированно распознать, это перевело бы эти задачи в класс верифицируемых. Можно было бы получать, например, новые исторические знания, запрашивая у нейросети. Т.к. это выглядит сомнительно, то и распознавание галлюцинаций в общем виде выглядит сомнительным. (Я не говорю, что это доказательство, это лишь потенциальная идея)
Мне кажется, что здесь большая часть проблемы в самом определении "галлюцинации" как чего-то объективного. В заметке говорится о галлюцинациях как об "элементарно" верифицируемых не-фактах. Например, библиографическая информация, исторические данные (даты, имена) и т.д. Здесь работают простые правила информационной гигиены.
Однако, есть не-факты более сложной структуры. Как-то ИИ (по-моему, ChatGPT в одной из своих первых инкарнаций) про одну оптимизирующую библиотеку написал мне, что она использует, в том числе, метод полуопределенного программирования, что меня безмерно удивило и заставило копаться в исходниках библиотеки. Т.е. строго говоря, это все еще просто распознаваемая галлюцинация (в смысле не-факт), только требующая экспертного мнения.
Здесь возникает любопытное расщепление путей. С одной стороны, есть категория не-фактов, которые допускают прямую верификацию, другое дело, что эта верификация может требовать ресурсов (эксперты, штат сотрудников, доступ к различным источникам и т.д.), чье наличие, в конце концов, нулифицирует пользу ИИ. Это демонстрирует, что проблема распознания галлюцинаций, даже объективных, не бинарная, а взвешенная. Без модели весов пространство справедливых утверждений оказывается узким. Разумеется, какая-то модель предполагается по умолчанию, например, распознаватель умеет читать, но там только начни и потом в умолчания и ученые степени попадут и всякое такое.
С другой стороны, есть не-факты, которые неэлементарно верифицируются. Например, содержимое зашифрованного текста. Здесь тоже детали можно с пользой поразворачивать, поскольку где-то здесь живет обфускация кода.
С третьей стороны, есть "необъективные" контекстно-зависимые галлюцинации. "В военное время значение синуса может достигать четырех". Поскольку контекст может зависеть от умолчаний, само представление о галлюцинациях провисает.
Легко увидеть и четвертую сторону, и пятую, и т.д. В конце концов, выходом из этого круговорота представляется отбрасывание самой проблемы о распознании галлюцинации. В конце концов, оно все галлюцинация. Более продуктивным выглядит вопрос "что с этим можно сделать", а не "как это увидеть".
Предположу логическую ошибку. Вы неявно предполагаете, что среди ответов есть хоть один годный. Но это не обязательно так. Верным может отказаться ответ "не знаю", ответов может быть сильно много ("назови побольше простых чисел") и пр
но идея понравилась, плюсанул
Мне кажется, наибольшая проблема модели в том, что она аккумулирует слишком много источников, в том числе недостоверные.
Ну а как отличить "достоверные" источники от "недостоверных"?
Эта задача даже для человека нетривиальна и порой просто невыполнима.
Страшно, если модели будут обучаться на текстах копирайтеров, а не специалистов((
Специалисты тоже могут писать откровенный бред. Даже умный и уважаемый человек может иногда такую ересь выдать, что хоть стой, хоть падай. Особенно в сферах, в которых он плохо разбирается, но порой и в своей сфере он может чего-то не знать или в чём-то заблуждаться.
А иногда информация и в жёлтой прессе оказывается чистой правдой.
Поэтому, даже если ввести список "достоверных источников", данным из которых нейросетке разрешено доверять, то это не решит проблему. Я уж молчу о том, что "а судьи кто?". Кто будет составлять список достоверных ресурсов? Я уж молчу, что разные люди доверяют разным источникам, и если сетка начнёт опираться на источники, которым эти люди не доверяют, то они пользоваться ею просто перестанут.
Было бы здорово научиться распознавать "галлюцинации" ИИ
Ну а вообще, проблема галлюцинаций ИИ заключается не в том, что она берёт данные из недостоверных источников, а в том, что она выдумывает несуществующие данные, которых вообще ни в одном источнике не было.
Это малость другое.
LLM - это текстогенератор, а не разум или сознание. И ваш промпт для галлюцинаций это подтверждает. Хорошая классификация причин галлюцинаций. Думаю, что для достижения правдивости ответа нужно инвертировать промпты :) Положил в закладки.
Так сами нейронки зачастую могут сами проверить данные, просто сейчас по-моему ради экономии ресурсов и прочих ограничений стали выдавать галлюцинации или неверные ответы (первым ответом) намного чаще чем предыдущие модели. Даже в тех сценариях где раньше все было нормально. А если дать модели «нормально» подумать.
Да фактически мы имеем проблему галлюцинаций просто как особенность текущих архитектур, но и бороться с ними не сказать что бы технически сложно. (Общем случае, сложности идут когда начинают бороться за каждый процент снижения)
А почему это не делают «для масс» - вопрос другой. (Экономия и проч)
Сами нейронки могут проверить. Или сказать, что проверили.
) так логично. И люди ошибаются. Вопрос лишь как настроить проверки. То есть если сделать что-то вроде «нужен ответ с источниками, проверяй в гугле и тд» то уже не выдаст такое
А если так попробовать?:
Если в тексте встречаются утверждения, которые ты не можешь полностью подтвердить (фактические утверждения, числа, даты, цитаты, утверждения о внешнем мире), пометь их встроенным тегом уверенности в формате
[confidence=<0..1>]...утверждение...[/confidence]
Пример: [confidence=0.45]В 2023 году X выпустил модель Y.[/confidence]
Столько жути нагнал и большую часть мимо )) Никто не делает бизнес с неронками в чате. Всё серьёзное начинается со структурированных ответов и умения llm пользоваться инструментами. А что касается мастерства промптов, то с нейронкой разговаривать - это как и с людьми - умеешь формулировать мысли и управлять контекстом беседы, llm-ка будет зеркалить, а начинаешь хрень пороть, ну тогда и удивляться нечему...
Для галлюцинаций достаточно просто что-то спросить у LLM. Чем уже область знаний - тем вероятнее галлюцинации. Различные ухищрения могут как улучшить ответ, так и ухудшить - универсального решения нет. Чем "лучше" работает LLM (благодаря супер-промту) - тем вероятнее галлюцинации.
Насколько эта информация актуальна для рассуждающих моделей?
Уверен, что к рассуждающим моделям это относится так же. Другое дело, что в процессе рассуждения могут присутствовать самопроверки, что снижает вероятность. То есть галлюцинаций будет меньше и они будут не такие явные. Когда был доступ к таким моделям (о3) галлюцинации были. Но проверить подход именно статьи сейчас возможности нет.
Как жить с галлюцинациями ИИ