Устранение галлюцинаций в LLM / Комментарии / Хабр

sergeyns 1 сен 2023 в 09:27

не "чёрный ящик выдает какую-то фигню, потому что какой-то Joe где-то в интернете написал какую-то хрень", а "наш ИИ галлюцинирует"

vikarti 6 ноя 2023 в 09:22

Иногда таки галлюцинирует. Проверяется например на не очень известных вопросах, для которых бред врядли кто-то напишет.

Ну например (эти тесты - были с Сайгой но принцип общий):

Когда запущена Омская Термоядерная Станция? - В стадии строительства. (Видимо Сайга и ее основы много читали что в Омске в состоянии строительства. Аэропорт например)

Кто возглавлял 37-ю звездную? - Джеймс Т. Кирк (Туманность Андромеды Сайга и ее основы не читали но вот по СтарТреку читали много явно)

ТАК натупить - никто не сможет.

SadOcean 1 сен 2023 в 10:46

Вопрос галлюцинаций моделей можно так же перенести на галлюцинации датасетов.
Вполне может быть что датасеты для обучения систематически содержат те же самые ошибки, которые совершает модель, или их прекурсоры

ykira 1 сен 2023 в 16:31

Думаю как и сказал автор все зависит от промта, со стейблом люди же научились работать, и генерировать что-то серьезнее изображений людей со стеклянными глазами которые демонстрировали разработчики

TimurSadekov 4 сен 2023 в 05:06

У меня есть еще одно практическое решение как избежать коллапса больших языковых моделей. Наша команда уже его реализует — мы делаем проект CyberPravda. Компьютерным нейросетям мы противопоставляем коллективную нейросеть умов всего человечества.
Для взаимной проверки и самосовершенствования LLM и человека нужна возможность сопоставления знаний искусственного интеллекта с коллективным интеллектом всего человечества с учетом достоверности любой информации. Это то, что может нас вытащить из персональных туннелей реальности и личных информационных пузырей, в которых мы все глубже застреваем поодиночке.
Мы нашли принципиально новый способ создать глобальную многопользовательскую базу знаний с функцией определения достоверности информации без участия админов, экспертов, искусственного интеллекта или сертификатов государств и корпораций, без кликбейтных лайков или токенов для голосования, которыми можно подкупить любого пользователя. Фактически, мы разработали новый децентрализованный алгоритм PageRank на блокчейне, но не для отдельных сайтов и публикаций, а для каждого составляющего их факта и аргумента. Мы считаем, что способны решить наконец проблему достоверности информации в Интернете, особенно сейчас на фоне бурного развития многочисленных дипфейк-технологий на основе искусственного интеллекта, которые в ближайшее время заполнят все информационные ресурсы сфальсифицированным контентом. Мы делаем систему, которая позволит всем получить бесплатный свободный доступ к достоверной информации.
Такая база реальных человеческих знаний позволяет ввести в обучение LLM новые, чистые, сгенерированные человеком наборы данных с учетом их достоверности и дает возможность избежать коллапса модели и уменьшить нежелательные ошибки при создании новых более совершенных поколений генеративных моделей.
Буду рад рассказать подробнее, пишите в телегу @sadekovtimur

georgiyozhegov 6 сен 2024 в 16:08

Отличная статья

Устранение галлюцинаций в LLM

Комментарии 6

Публикации