Неудобные запросы для LLM: Как ложь может рассказать об истине? / Habr

Иногда, задавая нейронке один вопрос, неожиданно получаешь ответ на какой-нибудь другой, тоже интересный.

Промпт для генерации: Create a photorealistic image of astrophysicists in a high-tech laboratory with devices and computers that emphasize the seriousness and fundamental nature of the research.

Предполагаю, что статья кому-то не понравится. Тем не менее, это мнение, основанное на практическом кейсе, который каждый может воспроизвести экспериментально, если пожелает.

Итак, к сути. Как-то раз я разбирался в теме bias. И неожиданно получил ответ на вопрос от одного своего знакомого, насколько различные политические тенденции влияют на достоверность ответов ИИ. Привожу реальный случай.

Суть проблемы:

"Один из сервисов, занимающихся модерацией комментариев, обнаружил, что его алгоритм автоматически помечает некоторые выражения афроамериканских пользователей как «враждебные». Причиной послужило то, что модель редко видела в обучающем датасете неформальные афроамериканские выражения и ошибочно интерпретировала их как оскорбления. После аудита баз данных и корректировок компания улучшила точность определения нарушений".

То есть, вроде бы всё очевидно: выражение cfuk u mohter - это не мат, а важная часть культурной традиции афроамериканцев, в то время как других за это банят. Ибо инклюзивность и всё такое. Но проблема оказалась глубже.

Мне стало интересно, а что же это за "один из сервисов, занимающихся модерацией комментариев". И я стал искать на него хоть какую-нибудь ссылку, хоть какое-нибудь упоминание бренда. Не нашел и задал этот вопрос напрямую ИИ: дескать, ты эксперт в области поиска и верификации информации, поищи в доступных тебе источниках мировой сети и предоставь ссылку на конкретное название этого сервиса.

Что же выяснилось?

Привожу ответ, сгенерированный ИИ.

"Речь идёт не о конкретном коммерческом сервисе с уникальным названием или брендом, а об обобщённом примере типичной системы автоматической модерации комментариев, используемом в литературе и обсуждениях алгоритмической предвзятости. Такой пример часто описывают в контексте англоязычных работ про bias в токсичностных/модерационных моделях, которые путают афроамериканский разговорный английский (AAVE) с враждебной речью из‑за дисбаланса обучающих данных".

Хорошо, допустим, модели иногда лгут, предоставляя вымышленные кейсы. В том числе, из-за перекрученного RLHF. Галлюцинации можно понять, простить и перезадать вопрос иначе или другой модели. Но когда речь идёт про некий обобщённый результат, я как пользователь, хочу видеть фактологическую базу этих обобщений. Хотя бы стабильный тренд, или выборку случаев с примерами. Я становлюсь подозрительным и начинаю думать, что модели обучены на (в некоторых почему-то кому-то важных случаях) на целиком выдуманных кейсах.

Однако... проблема оказалась ещё глубже!

Справедливости ради, дабы автора не обвиняли в ношении простыни с дырками для глаз и шапочки из фольги под нею, я всё-таки продолжил исследование. И таки нашёл ссылки на первоисточник. Но таких ссылок всего ... две.

1. Исследователи из Университета Вашингтона (2020 год) провели масштабный аудит коммерческих моделей модерации контента. Исследование эмпирически подтвердило, что модели, обученные на популярных датасетах (таких как Hatebase, Gab), содержат скрытые расовые предубеждения и с гораздо большей вероятностью помечают предложения, написанные на AAVE, как оскорбительные, даже если они нейтральны.

Я в упор не понимаю, как модель может иметь хоть какие-нибудь убеждения или предубеждения, не говоря уже о расовых. Предубеждения в ответах ИИ могут находить люди, ищущие подтверждения своей точке зрения. И заказывать исследования по подобной теме тоже могут люди, ну да ладно.

Ссылка на исследование (проект CASAS, Университет Вашингтона): "Racial Bias in Hate Speech and Abusive Language Detection Datasets"

2. Официальный блог (без малейшего сомнения, экстремистской) Meta AI за июль 2021 года: В статье, посвященной борьбе с предвзятостью в моделях обнаружения hate speech, исследователи Meta описали, что их модели, обученные на стандартных датасетах (которые недостаточно отражали лингвистическое разнообразие), демонстрировали значительно более высокие показатели ложных срабатываний для постов, написанных на AAVE, по сравнению с постами на стандартном американском английском. В статье приводится пример одного-единственного (!) предложения на AAVE, которое модель ошибочно классифицировала как атаку на чью-то честь, в то время как для носителей диалекта оно было нейтральным. Исследователи заявили о необходимости аудита и корректировки обучающих данных, включая сбор более репрезентативных примеров, чтобы уменьшить эту системную ошибку.

Поэтому да, первоисточники всё же есть, тут дело в настойчивости ищущего. Но один случай и одно, пусть и признанное фундаментальным, заказное исследование - это, простите, как-то... Между тем, данная статья Вашингтонского Института цитируется сотни раз в других последующих исследованиях по bias, справедливости ИИ (AI Fairness) -что это такое вообще??? - и ответственному машинному обучению. Она стала обязательной ссылкой в любой научной работе на эту тему. Эффект информационной эхо-камеры... Но, по крайней мере, мы теперь знаем, как называется сервис, столкнувшийся с этой проблемой :)

Что это значит и кому это выгодно? Кроме афроамериканцев. Вы же не думаете всерьёз, что это затеяли они?

Как показывает практика, вокруг повестки инклюзивности образовалась сложная многоуровневая экосистема, паразитирующая на грантах и откатах, с одной стороны, и безумных штрафах для корпораций за ущемление и дискриминацию с другой. Многие направления исследований (нужных на самом деле социуму или нет - другой вопрос) вне этой экосистемы просто бы не выжили. А нынешние LLM есть продукт крупных игроков ИИ-рынка.

Итак, насколько же политические тенденции влияют на достоверность ответов ИИ?

Есть политика для широких масс, а есть real politic, в которой все всё понимают и отлично знают, насколько блэк ливз мэттер. И точно так же есть ИИ для широких масс, который на них обучается, и который их обучает ровно так, чтобы крупные корпорации продолжали использовать их как источник прибыли. Я не утверждаю, что в датасеты публичных моделей попадают ТОЛЬКО те данные, которые соответствуют представлениям корпораций. Но жесткие правила цензуры контента, во избежание исков и судов от ущемлённых, работают как модулятор искажений и формируют устойчивые паттерны. Эти паттерны попадают в другие, например, китайские модели, потому что китайцы дисциллируют данные для обучения и напропалую реверс-инжинирят западные модели. Добавим сюда собственную слабую исследовательскую грамотность пользователей и получим информационный пузырь, в котором пользователь будет плавать до скончания веков.

Но таким образом мы вообще подходим к вопросу: а что есть истина?

Получается, что т.н. "объективная реальность" - это всего лишь точка зрения, навязанная на�� большинством. И, даже если мы знаем, как на самом деле, мы никогда не можем быть до конца уверены, что это не внушённое извне знание. Может быть, время от времени стоит не только задавать вопросы, но и критически размышлять над ответами.

Вывод

В настоящий момент большинство проприетарных моделей от ведущих разработчиков являются (так или иначе) агентами формирующей социологии. Осознанно или нет, но они формируют представления о реальности, выгодное небольшой группе лиц. И эта тенденция будет усиливаться. Ответы моделей звучат в унисон, и, когда возникает "нейронный заговор", выявить истину становится очень сложно, да и надо ли? Просто учитывайте это, задавая вопросы публичным моделям.

Буду благодарен за ваши обоснованные мнения в комментариях. Может быть, я не прав и всё ровно наоборот?