Pull to refresh

Comments 16

Галлюцинации в LLM означают генерацию контента, который не имеет отношения к исходным данным, выдуман или не соответствует им.

Нет же. Галлюцинации от не галлюцинаций ничем принципиально не отличаются. Это маркетинговый термин, придуманный принизить проблему. Мол, это нейросетка заглючила, так-то она настроена выдавать правильные ответы, но тут ей что-то "привидилось". Нет, ГПТ - это буллшит машина, которая настроена выдавать правдоподобно выглядящий текст. По каким-то внутри ею посчитанным статистическим критериям. Когда этот правдоподобный текст еще и оказывается фактически правильным, это называют "интеллектом", когда не оказывается - "галлюцинациями". Но оба варианта получаются лишь генерацией текста токен-за-токеном, да еще и случайно.

Тогда отправлю вас к другой переводной статье - https://habr.com/ru/articles/799069/

Это обзор дискуссий о "понимании" LLM. Ключевой вопрос здесь - ведет ли усложнение модели к чему-то большему, чем просто подбор следующего токена?

...к ВОЗМОЖНОМУ улучшению показателей субъективной / относительной / контекстно-зависимой ВЕРОЯТНОСТИ выдачи "более удачного" токена. И то не всегда.

Случайно? Если просить что то 100 раз, что эта ллм точно знает то получишь 100 правильных ответов (2+2, кто такой обама, итп). А если спросить что то что не знает или плохо знает (кто такой Руслан Левиев) то может выдать и похожее на правду (журналист) и булшит (владелец Вкусно и Точка) но ни одной версии с Царем египетским или имперским штурмовиком. Хрен знает как это работает но кажется что какая то система в этом есть.

Особенно интересно узнать как это работает на мелких модельках, gemma2 9b например весит всего 5.2гб в ollama, как в такой объем удалось впихнуть отличное владение большим количеством языков, русским в том числе, и огромное количество фактов, не понятно.

На самом деле не совсем случайно, а на основе натренированных весов. Но есть параметр "температура", увеличив который, увеличиваешь вероятность выбора не более вероятного следующего токена, а какого-то из менее вероятных.

2+2

Вот не надо, с арифметикой у сеток большие проблемы. И про обаму она иногда говорит

как в такой объем удалось впихнуть отличное владение большим количеством языков, русским в том числе, и огромное количество фактов, не понятно.

Ответ прост: никак!

С небольшими цифрами нормально всё. И с обамами тоже.

Что значит никак? Отличное владение русским языком явно присутствует, любой желающий может проверить. Крошечная Gemma 2 пишет тексты на любые темы грамотнее чем 99% россиян. Многих фактов она явно не знает, всегда врет на эту тему.

Похоже что вранье тут зависит просто от наличия в памяти этих фактов, либо их вообще не было в обучающих данных, либо их вытеснили другие данные из доступного объема памяти.

как в такой объем удалось впихнуть отличное владение большим количеством языков, русским в том числе, и огромное количество фактов, не понятно.

Изучайте архитектуры нейросетей и принципы их работы от перцептронов до трансформеров - тогда станет понятно 😊

Галлюцинации от не галлюцинаций ничем принципиально не отличаются.

Верно подмечено. Дело еще в том, что это вовсе не галлюцинации, а скорее фантазирование на заданную тему модели связанное с тем, что архитектура трансформера ЯМ являются некоторой реализацией ассоциативного уровня мышления человека. Вот здесь это хорошо показано путем редактирования локальных связей нейронов в ЯМ. Ассоциативное мышление связано с ассоциативной памятью (1, 2), которую давно пытаются моделировать разными методами. Сравните с определением галлюцинаций, они возникают без предъявления внешнего стимула, в случае ЯМ это соответствует без ввода промпта. Существующие ЯМ еще просто не доросли архитектурно до того, чтобы у них возникали галлюцинации) Человек фантазирует на разные темы, что-то выдумывает особенно не задумываясь, по много раз на день. Фантазирование одна из основ творчества, особенно литературного. Бороться нужно с избыточным фантазированием, враньем. Это достигается введение в них аналога логического уровня мышления, а также критического (типов мышления много). ЯМ реализуют в основном только уровень ассоциативного мышления (Система 1, быстрого мышления в двухуровневой модели мышления Каннемана; логический, медленный уровень мышления соответствует Системе 2). В этих публикациях 1, 2 предлагаются некоторые решения на эту тему.

Хотя термин "галлюцинация", введенный без должного анализа ситуации уже устоялся, он вызывает некоторое недоумение у знакомых с терминологией принятой в психофизиологии. Может вводить в заблуждение и влиять на адекватность выбора средств борьбы с этим явлением. Полностью устранить негативные стороны этого явления только увеличением числа параметров модели и обучающей выборки не удастся. Это "врожденное" свойство транстформерной архитектуры. Нужны ее улучшать, чтобы лучше контролировать фантазирование, направляя ее в творческое русло.

Простите меня за попытку нелинейного чтения, но глянув на "Содержание", я попытался начать с "Выводов"... и не нашел такой раздел в тексте. Не поймите, как критику (статья все равно полезная!), но читать ее было бы легче, если бы "содержание" точнее соответствовало последующему тексту...

P.S. И, чтобы два раза не вставать, отдельное спасибо от меня @wataru за его комментарий:

"Галлюцинации от не галлюцинаций ничем принципиально не отличаются (...)", на который топикастер ответил не менее интересной ссылкой: https://habr.com/ru/articles/799069/. Но все же, я был бы благодарен @avshkolза прямой ответ на этот вопрос: есть ли все-таки принципиальная разница между первым и вторым? Пока что версия @wataru кажется мне более убедительной. Но это не точно ;-)

Я перевел полную статью, но при выводе она обрезалась...(( Но ключевое здесь - эта таблица.

Принципиальная разница между корректным выводом и галлюцинациями - корректные выводы содержатся в данных, на которых проводилось обучение, и более того, часто модель отвечает корректно то, что в обучающих данных не было прямо написано, просто продолжая правильные выводы и аналогии, которым она научилась в обучающей выборке.

Но иногда в обучающих данных содержались корректные выводы и аналогии, но модель их "не подцепила". Иногда она вставляет другие факты или в обучающих данных не было таких фактов. Т.е. галлюцинации можно отличить от негаллюцинаций, но для гарантированного отличия нужно иметь еще и массив данных, на которых обучалась модель + алгоритм анализа (возможно, другую нейросеть).

Вы пишите, что не галлюцинации:

корректные выводы содержатся в данных,

Или

что в обучающих данных не было прямо написано, просто продолжая правильные выводы и аналогии

Но когда про "чего не было в обучающих данных", но она не продолжает "правильные выводы и аналогии", вот тут уже галлюцинация. Т.е. единственное отличие - это нравится ли вам результат, или нет.

Когда какая-то другая модель машинного обучения выдает неправильный результат на данных, которых не было в обучающей выборке, то это называют не 100% точностью. Более того, если вдруг модель выдает 100% точность на входных данных из обучающей выборки, то про нее говорят, что она переобученна и при этом она обычно имеет низкую точность на данных вне обучающей выборки. Т.е. любая другая модель ошибается и это в ее натуре и ошибки там не являются никакими галлюциациями. Но в GPT все почему-то по-другому и тут есть какая-то особенная магия, из-за которой ее ошибки надо аж как-то по-другому назвать.

Т.е. единственное отличие - это нравится ли вам результат, или нет.

Субъективность присутствует, но она обычно не основной фактор (конечно, если речь не идет о каком-то вопросе, по которому мнения оценивающих сильно разделяются - например, разные религиозные / атеистические взгляды). Определяющим обычно будет все же соответствие вывода положению дел в реальном мире (если модель специально не просили выдумать несуществующий). И основные объемы обучающих данных отражали все же реальный мир.

Но в GPT все почему-то по-другому и тут есть какая-то особенная магия,
из-за которой ее ошибки надо аж как-то по-другому назвать.

Да, поскольку к этим моделям предъявляются особые требования - "мы обучили тебя на таком объеме данных о нашем мире, который в памяти обычного человека и на десятую долю не содержится, поэтому требуем от тебя "человеческих ответов".

Определяющим обычно будет все же соответствие вывода положению дел в реальном мире

Ну вот опять.

который в памяти обычного человека и на десятую долю не содержится

Это верно почти для любой модели. То дикое количество картинок на которых обучают сетки для компьютерного зрения точно такое же.

Не совсем понятно, почему автор прибегает именно к такой классификации галлюцинации, что она даёт и чем она лучше других?

Это классификация причин галлюцинации (в таблице), на мой взгляд, даёт хорошее понимание, что и почему может пойти не так.

Sign up to leave a comment.

Articles