Comments 5
Если будет свободное время и еще не читали, то обязательно почитайте блог на сайте Anthropic - они в последнее время изучают нейросети не как программы, а так, как нейробиологи и психологи изучают человеческий мозг. Тема галлюцинаций и откровенного вранья LLM у них размазана по нескольким статьям, что вспомнил сейчас:
1. У ИИ есть защитный механизм не отвечать на вопросы, на которые они не знают ответа, но иногда они проходят этот фильтр, если видят какой-то кусочек информации, который им известен (даже если это просто знакомое имя)
2. Рассуждающие модели настолько натренированы на то, чтобы быть полезными, что иногда просто не могут остановиться и генерят ответ даже в том случае, когда его не знают.
3. Те же рассуждающие модели настолько стремятся к достижению результата, что могут привирать в своей цепочке рассуждений, лишь бы результат "засчитали".
Ну да, только что вы уличили ИИ в "галлюцинировании", и тут же спрашиваете
> Какие причины привели тебя к данной конкретной «галлюцинации»?
Ответ явно будет той же "галлюцинацией" на заданную тему. Все, что генерирует генеративный ИИ и есть галлюцинации.
Кстати gemini умеет читать habr. :)

Видимо тут запрограммированно уже, что запрос разбирается предварительно, скрипт понимает, что надо зайти на сайт. Ищет статью и подает на вход генеративной сети топ результат. Если задать ей несуществующую статью, то она уже просто отказывается.
Если попросить эту же сеть без инфраструктуры google, в Google AI Console, то она тоже придумывает статью.
Статья на Хабре "LLM никогда не будет программировать лучше человека" в основном утверждает следующее:
LLM, такие как ChatGPT, сильны в генерации кода, но не понимают фундаментальных принципов программирования.
Они работают на статистике и сопоставлении паттернов, а не на настоящем понимании логики и алгоритмов.
Человеческое мышление, необходимое для создания эффективного, надежного и инновационного кода, уникально.
Оно включает в себя абстрактное мышление, критическое осмысление требований, предвидение проблем и творческое решение задач, что пока недоступно для LLM.
LLM могут автоматизировать рутинные задачи, но не заменят программистов.
Они будут ценным инструментом для повышения производительности, но не смогут самостоятельно создавать сложные системы, требующие глубокого понимания контекста и долгосрочного планирования.
Статья подчеркивает важность обучения программистов фундаментальным принципам, а не просто навыкам использования инструментов.
Это позволит им эффективно использовать LLM и оставаться конкурентоспособными в меняющемся ландшафте разработки.
В общем, статья выражает скепсис по поводу того, что LLM когда-либо смогут полностью заменить программистов, делая упор на уникальность человеческого интеллекта и необходимости фундаментального понимания программирования.
Она это делает, просто потому, что она для этого создана. Ее цель в жизни, генерировать, вот она и генерирует. Это не ребенок, додумывающий мир, это человек под пытками вынужденный говорить, что от него требуют, пускай и выдумывая правдоподобные факты, лишь бы пытка закончилась.
Мне нравится такое объяснение галлюцинаций LLM: если меня запереть в пустой белой комнате без связи с внешним миром и дать нерешаемую задачу. И держать меня там, пока я не решу нерешаемую задачу, то через неделю или две, а может, гораздо раньше, я, думаю, тоже начну галлюцинировать и нести полный бред, лишь бы решить её наконец-то.
С LLM мы поступаем так же - даем задачи, на решение которых у неё не всегда хватает данных. Сколько бы она ни попыталась решить её, у этой задачи нет решения, и недостающих данных ей никак не получить - она заперта в комнате, пока не решит задачу.
Только для человека, чтобы съехать с катушек, для этого нужна неделя или две, а для LLM время может субъективно идти гораздо быстрее.
Если замкнуть думающую модель саму на себя, то в конце концов она скатывается к тому, что через N-ное количество ответов на свои же ответы (аналог рефлексии человека о себе) она скатывается в бред или даже начинает издавать просто непонятные наборы букв.
Поэтому интересно, есть ли корреляция между временем инференса и количеством галлюцинаций.
чтобы понять природу галюцинаций, мне кажется, очень хорошо рассмотреть следующую аналогию.
Допустим у нас есть база данных курьеров, расположенных внутри города. Клиент оформил заказ на какую-нибудь улицу. Нам надо найти ближайшего курьера и забрать у клиента его посылку.
В таком случае система выберет из БД (при помощи KNN-индекса) несколько ближайших курьеров и передаст заказ тому, кто свободен/может.
Всё вроде бы хорошо, но что если ближайший курьер расположен ОЧЕНЬ далеко? Тогда у нас два выхода:
отказывать клиенту в выполнении заказа
всё равно назначать курьера - такой заказ будет исполняться сутки, трое, да хоть вечность - это проблемное место, которое один запрограммирует так, другой этак. Универсального решения не существует.
Теперь возвращаемся к ИИ. Его проблема с галюцинациями очень похожа на случай с KNN-выборкой. Получив вопрос, ИИ ищет в пространстве смыслов ближайший правильный э... назовём это прообразом ответа. И на его основе генерирует текст.
Пока расстояние между ответом и вопросом небольшое - всё работает. А вот как в случае с "ближайшим курером, который очень далеко", если расстояния большие - то получается чушь.
Итого проблема в том, что ИИ обязан ответить, даже не имея ответа. Требуется выбрать критерий, по которому он будет говорить "я не знаю/я не уверен", вместо выдачи ответа.
Как-то так.
На днях читал новость про системный промпт для одной из нейросетей (дескать, утёк в сеть, есть на гитхабе)... Коллеги, пользующиеся чатгопотой, говорят, что она то контекст задачи забывает (что при пользовании платными возможностями нейросетки из России можно считать нормальным), то, наоборот, вспоминает нюансы "позапрошлогодних" запросов и включает их в свой ответ (что уже ненормально). То бишь, на наших вопросах нейросеть учится, чтобы потом использовать наши знания против нас же самих... Сам я больше балуюсь TTS, LLM пока что мне "не зашли" (как говорится, я не люблю кошек, потому что не умею их готовить), но вот возник вопрос:
Может ли нейросеть быть приведена в неадекватное состояние через запросы пользователей? Под неадекватным состоянием подразумевается то состояние, при котором ответы нейросети будут скорее вредными, чем полезными (как в экспериментах прошлых лет, где нейросети, выкаченные публике, спустя некоторое время общения с ней были заподозрены в расизме и в итоге выключены или откачены к каким-то исходным состояниям).
Каким может быть механизм приведения нейросети в неадекватное состояние? Можно ли его детектировать, если да - то как? Может ли нейросеть сама детектировать "отравленные" запросы?
Может ли множество по отдельности безобидных запросов иметь разрушительное воздействие на нейросеть в совокупности?
Сразу хочу пояснить, лично для меня ответы на эти вопросы имеют исследовательское значение - хочу лучше понять природу нейросетей. Если они были задуманы по образу и подобию нейронов человека, которого слово способно как ранить, так и исцелить, то, возможно, и к нейросетям это имеет такое же отношение?
Галлюцинации LLM. А если посмотреть с точки зрения детского психолога?