Larika-web Sep 17 at 18:30

Галлюцинации LLM: запретить нельзя использовать

Easy

9 min

1.9K

Artificial Intelligence

Opinion

Comments 8

sledov Sep 17 at 22:35

Если считать, что галюцинации - это аналог интуиции, и это можно как-то использовать. Зачем прямо в самом запросе заставлять его проверять факты и делать маркировку по достоверности? Вы вмешались в систему. Если раньше это действительно был аналог интуиции, то теперь размышления о том, насколько это правильно, надо полагать, влияют на выдачу? Почему маркировку не делать независимо вторым приёмом?

Larika-web Sep 19 at 12:28

Да, хороший вопрос. Маркировка действительно вмешивается в процесс - как любой промт. Из каких соображений я обычно исхожу:
- ИИ не имеет доступа к своим логам, поэтому любой запрос - вмешательство. Он не «вспоминает» процесс, а реконструирует рассуждение постфактум.
- если не просить помечать, то непонятно, как отличать факт от интуиции?
- инструкция не блокирует «интуицию», а расширяет поле вариаций и помечает его
- последующий запрос конечно тоже возможен, но тут я предполагаю, что если проверку выносить на «второй проход», возможен дрейф — модель уже интерпретирует готовый ответ, а не строит его с нуля. Поэтому предполагаю, что если встраивать разметку сразу в первую генерацию, дрейф будет меньше (гипотеза если что, в чатах доказать сложно)
- инструкция побуждает модель "порыться" в сети в поисках, может ли она подтвердить F1 (если у модели есть доступ к внешним источникам и он не запрещен).

KEugene Sep 18 at 03:36

Буквально вчера мне прислали картинку-головоломку с десятком животных. Их нарисовали наложив друг на друга и инвертировав цвета. Собственно, там всего два цвета: основной и фон. Явно было видно 5 существ. Все остальные "спрятались". Так вот, Клод и ChatGPT дали разный результат. Клод не увидел явную, большую фигуру. Но предложил вместо нее две альтернативные. В итоге, я получил список из 9 созданий с указанием их места на картинке. ChatGPT увидел все 10. Явные фигуры он распознал, хотя одну из них он интерпретировал по своему.

В общем, списки совпали частично. Лишь 4 существа были общими. Забавно, но некоторых зверей я даже с подсказкой так и не увидел.

Так что это за вид творчества у нейросетей? Про человека бы сказали, что у него богатое воображение. Но у нейросети нет его. Правда ведь нет?

Larika-web Sep 19 at 13:00

Я думаю, что такого же воображения, как у человека, у нейросетей точно нет. Но если рассматривать воображение, как процесс, то что гипотетически могут делать нейронки: распознавать фрагменты картинки и подбирать соответствующие описания на основе обучения. Разные модели, обученные на разных датасетах, могут по разному интерпретировать информацию. То есть чем "богаче" была информация, на которой учили, тем больше вариаций фрагментов у нейронки есть. Я могу предположить, что такую вариативность можно отнести к функциональному аналогу воображения. Похоже на то, как можно научиться разгадывать головоломки - пока собственный мозг не увидел принцип головоломки, решение кажется очень сложным, как только увидел, то уже гораздо проще.

vmkazakoff Sep 18 at 06:01

Простите, но приписывать F1-4 ИИ будет точно так же полагалось на вероятностную функцию. Как и весь остальное текст. Промпт точно полезный и хороший, просто хочу предостеречь остальных, что даже с ним проверять ответ всё-таки будет нужно.

Larika-web Sep 19 at 12:33

Да, полностью согласна: проверять всё равно нужно — и за ИИ, и даже за человеком ))).
Промт как раз и нужен, чтобы модель показывала ход рассуждений и помечала, что основано на фактах, что на логической реконструкции, а что — на идеях. Это не панацея, но значительно уменьшает объём проверки: проверяю информацию, помеченную “факт”, а не весь ответ

programania Sep 19 at 01:07

Лучше для оценки использовать другую LLM - один ум хорошо, а два лучше.
И вот что сама LLM советует: для галлюцинаций использовать большую температуру,
а для оценки нулевую. И вообще это уже напоминает самосознание.

Larika-web Sep 19 at 12:43

Использовать другую LLM в обсуждении или два чата для одной темы в одном LLM - классная идея, согласна, сама так делаю. Правда, не для проверки, а для рассмотрения вопроса с разных сторон. Потому что без маркировки генерация может случайно дать "интуицию" без фактов из-за формулировки запроса или контекста. Кроме того, в чате обычно нет возможности влиять на температуру.

Но обсуждение в разных моделях - штука полезная - за счет разного контекста генерируются как бы разные точки зрения, но с учетом логики и разметки по фактологичности.

Вопрос самосознания - очень сложный, я бы не рискнула поднимать его в этом рассуждении, потому что он требует не только философского объяснения, но и инженерного.