Pull to refresh

Comments 5

Если будет свободное время и еще не читали, то обязательно почитайте блог на сайте Anthropic - они в последнее время изучают нейросети не как программы, а так, как нейробиологи и психологи изучают человеческий мозг. Тема галлюцинаций и откровенного вранья LLM у них размазана по нескольким статьям, что вспомнил сейчас:
1. У ИИ есть защитный механизм не отвечать на вопросы, на которые они не знают ответа, но иногда они проходят этот фильтр, если видят какой-то кусочек информации, который им известен (даже если это просто знакомое имя)
2. Рассуждающие модели настолько натренированы на то, чтобы быть полезными, что иногда просто не могут остановиться и генерят ответ даже в том случае, когда его не знают.
3. Те же рассуждающие модели настолько стремятся к достижению результата, что могут привирать в своей цепочке рассуждений, лишь бы результат "засчитали".

Ну да, только что вы уличили ИИ в "галлюцинировании", и тут же спрашиваете

> Какие причины привели тебя к данной конкретной «галлюцинации»?

Ответ явно будет той же "галлюцинацией" на заданную тему. Все, что генерирует генеративный ИИ и есть галлюцинации.

Кстати gemini умеет читать habr. :)

Видимо тут запрограммированно уже, что запрос разбирается предварительно, скрипт понимает, что надо зайти на сайт. Ищет статью и подает на вход генеративной сети топ результат. Если задать ей несуществующую статью, то она уже просто отказывается.

Если попросить эту же сеть без инфраструктуры google, в Google AI Console, то она тоже придумывает статью.

Статья на Хабре "LLM никогда не будет программировать лучше человека" в основном утверждает следующее:

  • LLM, такие как ChatGPT, сильны в генерации кода, но не понимают фундаментальных принципов программирования. Они работают на статистике и сопоставлении паттернов, а не на настоящем понимании логики и алгоритмов.

  • Человеческое мышление, необходимое для создания эффективного, надежного и инновационного кода, уникально. Оно включает в себя абстрактное мышление, критическое осмысление требований, предвидение проблем и творческое решение задач, что пока недоступно для LLM.

  • LLM могут автоматизировать рутинные задачи, но не заменят программистов. Они будут ценным инструментом для повышения производительности, но не смогут самостоятельно создавать сложные системы, требующие глубокого понимания контекста и долгосрочного планирования.

  • Статья подчеркивает важность обучения программистов фундаментальным принципам, а не просто навыкам использования инструментов. Это позволит им эффективно использовать LLM и оставаться конкурентоспособными в меняющемся ландшафте разработки.

В общем, статья выражает скепсис по поводу того, что LLM когда-либо смогут полностью заменить программистов, делая упор на уникальность человеческого интеллекта и необходимости фундаментального понимания программирования.


Она это делает, просто потому, что она для этого создана. Ее цель в жизни, генерировать, вот она и генерирует. Это не ребенок, додумывающий мир, это человек под пытками вынужденный говорить, что от него требуют, пускай и выдумывая правдоподобные факты, лишь бы пытка закончилась.

Мне нравится такое объяснение галлюцинаций LLM: если меня запереть в пустой белой комнате без связи с внешним миром и дать нерешаемую задачу. И держать меня там, пока я не решу нерешаемую задачу, то через неделю или две, а может, гораздо раньше, я, думаю, тоже начну галлюцинировать и нести полный бред, лишь бы решить её наконец-то.

С LLM мы поступаем так же - даем задачи, на решение которых у неё не всегда хватает данных. Сколько бы она ни попыталась решить её, у этой задачи нет решения, и недостающих данных ей никак не получить - она заперта в комнате, пока не решит задачу.

Только для человека, чтобы съехать с катушек, для этого нужна неделя или две, а для LLM время может субъективно идти гораздо быстрее.

Если замкнуть думающую модель саму на себя, то в конце концов она скатывается к тому, что через N-ное количество ответов на свои же ответы (аналог рефлексии человека о себе) она скатывается в бред или даже начинает издавать просто непонятные наборы букв. 

Поэтому интересно, есть ли корреляция между временем инференса и количеством галлюцинаций.

чтобы понять природу галюцинаций, мне кажется, очень хорошо рассмотреть следующую аналогию.

Допустим у нас есть база данных курьеров, расположенных внутри города. Клиент оформил заказ на какую-нибудь улицу. Нам надо найти ближайшего курьера и забрать у клиента его посылку.


В таком случае система выберет из БД (при помощи KNN-индекса) несколько ближайших курьеров и передаст заказ тому, кто свободен/может.

Всё вроде бы хорошо, но что если ближайший курьер расположен ОЧЕНЬ далеко? Тогда у нас два выхода:

  • отказывать клиенту в выполнении заказа

  • всё равно назначать курьера - такой заказ будет исполняться сутки, трое, да хоть вечность - это проблемное место, которое один запрограммирует так, другой этак. Универсального решения не существует.

Теперь возвращаемся к ИИ. Его проблема с галюцинациями очень похожа на случай с KNN-выборкой. Получив вопрос, ИИ ищет в пространстве смыслов ближайший правильный э... назовём это прообразом ответа. И на его основе генерирует текст.

Пока расстояние между ответом и вопросом небольшое - всё работает. А вот как в случае с "ближайшим курером, который очень далеко", если расстояния большие - то получается чушь.

Итого проблема в том, что ИИ обязан ответить, даже не имея ответа. Требуется выбрать критерий, по которому он будет говорить "я не знаю/я не уверен", вместо выдачи ответа.

Как-то так.

На днях читал новость про системный промпт для одной из нейросетей (дескать, утёк в сеть, есть на гитхабе)... Коллеги, пользующиеся чатгопотой, говорят, что она то контекст задачи забывает (что при пользовании платными возможностями нейросетки из России можно считать нормальным), то, наоборот, вспоминает нюансы "позапрошлогодних" запросов и включает их в свой ответ (что уже ненормально). То бишь, на наших вопросах нейросеть учится, чтобы потом использовать наши знания против нас же самих... Сам я больше балуюсь TTS, LLM пока что мне "не зашли" (как говорится, я не люблю кошек, потому что не умею их готовить), но вот возник вопрос:

Может ли нейросеть быть приведена в неадекватное состояние через запросы пользователей? Под неадекватным состоянием подразумевается то состояние, при котором ответы нейросети будут скорее вредными, чем полезными (как в экспериментах прошлых лет, где нейросети, выкаченные публике, спустя некоторое время общения с ней были заподозрены в расизме и в итоге выключены или откачены к каким-то исходным состояниям).

Каким может быть механизм приведения нейросети в неадекватное состояние? Можно ли его детектировать, если да - то как? Может ли нейросеть сама детектировать "отравленные" запросы?

Может ли множество по отдельности безобидных запросов иметь разрушительное воздействие на нейросеть в совокупности?

Сразу хочу пояснить, лично для меня ответы на эти вопросы имеют исследовательское значение - хочу лучше понять природу нейросетей. Если они были задуманы по образу и подобию нейронов человека, которого слово способно как ранить, так и исцелить, то, возможно, и к нейросетям это имеет такое же отношение?

Sign up to leave a comment.

Articles