Иногда, задавая нейронке один вопрос, неожиданно получаешь ответ на какой-нибудь другой, тоже интересный.

Предполагаю, что статья кому-то не понравится. Тем не менее, это мнение, основанное на практическом кейсе, который каждый может воспроизвести экспериментально, если пожелает.
Итак, к сути. Как-то раз я разбирался в теме bias. И неожиданно получил ответ на вопрос от одного своего знакомого, насколько различные политические тенденции влияют на достоверность ответов ИИ. Привожу реальный случай.
Суть проблемы:
"Один из сервисов, занимающихся модерацией комментариев, обнаружил, что его алгоритм автоматически помечает некоторые выражения афроамериканских пользователей как «враждебные». Причиной послужило то, что модель редко видела в обучающем датасете неформальные афроамериканские выражения и ошибочно интерпретировала их как оскорбления. После аудита баз данных и корректировок компания улучшила точность определения нарушений".
То есть, вроде бы всё очевидно: выражение cfuk u mohter - это не мат, а важная часть культурной традиции афроамериканцев, в то время как других за это банят. Ибо такова нынешняя повестка. Но проблема оказалась ещё глубже.
И тут мне, как на грех, стало интересно, а что же это за "один из сервисов, занимающихся модерацией комментариев". И я стал искать на него хоть какую-нибудь ссылку, хоть какое-нибудь упоминание бренда. Не нашел и задал этот вопрос напрямую ИИ: дескать, ты эксперт в области поиска и верификации информации, поищи в доступных тебе источниках мировой сети и предоставь ссылку на конкретное название этого сервиса.
Что же выяснилось?
Привожу ответ, сгенерированный ИИ.
"Речь идёт не о конкретном коммерческом сервисе с уникальным названием или брендом, а об обобщённом примере типичной системы автоматической модерации комментариев, используемом в литературе и обсуждениях алгоритмической предвзятости. Такой пример часто описывают в контексте англоязычных работ про bias в токсичностных/модерационных моделях, которые путают афроамериканский разговорный английский (AAVE) с враждебной речью из‑за дисбаланса обучающих данных".
Что это означает?
Хорошо, допустим, модели иногда лгут, предоставляя вымышленные кейсы. В том числе, из-за перекрученного RLHF. Галлюцинации можно понять, простить и перезадать вопрос иначе или другой модели. Но когда речь идёт про некий обобщённый результат, я как пользователь, хочу видеть фактологическую базу этих обобщений. Хотя бы стабильный тренд, или выборку случаев с примерами. Я становлюсь подозрительным и начинаю думать, что модели обучены на (в некоторых почему-то кому-то важных случаях) на целиком выдуманных кейсах. Или имеющих очень слабый пруфинг, при видимой солидности источника.
UPD:
Справедливости ради, дабы автора не обвиняли в ношении простыни с дырками для глаз и шапочки из фольги под нею, приведу всё-таки найденные мной ссылки на первоисточник. Но таких ссылок всего ... две.
1. Исследователи из Университета Вашингтона (2020 год) провели масштабный аудит коммерческих моделей модерации контента. Исследование эмпирически подтвердило, что модели, обученные на популярных датасетах (таких как Hatebase, Gab), содержат скрытые расовые предубеждения и с гораздо большей вероятностью помечают предложения, написанные на AAVE, как оскорбительные, даже если они нейтральны.
Я в упор не понимаю, как модель может иметь хоть какие-нибудь убеждения или предубеждения, не говоря уже о расовых. Предубеждения могут находить люди, ищущие подтверждения своей точке зрения, ну да ладно.
Ссылка на исследование (проект CASAS, Университет Вашингтона): "Racial Bias in Hate Speech and Abusive Language Detection Datasets"
2. Официальный блог (без малейшего сомнения, экстремистской) Meta AI за июль 2021 года: В статье, посвященной борьбе с предвзятостью в моделях обнаружения hate speech, исследователи Meta описали, что их модели, обученные на стандартных датасетах (которые недостаточно отражали лингвистическое разнообразие), демонстрировали значительно более высокие показатели ложных срабатываний для постов, написанных на AAVE, по сравнению с постами на стандартном американском английском. В статье приводится пример одного-единственного (!) предложения на AAVE, которое модель ошибочно классифицировала как атаку на чью-то честь, в то время как для носителей диалекта оно было нейтральным. Исследователи заявили о необходимости аудита и корректировки обучающих данных, включая сбор более репрезентативных примеров, чтобы уменьшить эту системную ошибку.
Поэтому да, первоисточники всё же есть, тут дело в настойчивости ищущего. Но один случай и одно, пусть и признанное фундаментальным, заказное исследование - это, простите, как-то... Между тем, данная статья Вашингтонского Института цитируется сотни раз в других последующих исследованиях по bias, справедливости ИИ (AI Fairness) -что это такое вообще??? - и ответственному машинному обучению. Она стала обязательной ссылкой в любой научной работе на эту тему. Именно поэтому, вывод, сделанный нейронкой по поводу обобщённости примеров для иллюстрации проблемы, считаю в целом, верным. И, по крайней мере, мы теперь знаем, как называется сервис, столкнувшийся с этой проблемой :)
Кому это выгодно? Кроме афроамериканцев, конечно.
Как показывает практика, вокруг повестки инклюзивности образовалась сложная многоуровневая экосистема, паразитирующая на грантах и откатах, с одной стороны, и безумных штрафах для корпораций за ущемление и дискриминацию с другой. А нынешние LLM есть продукт крупных игроков ИИ-рынка. Получается, это много кому выгодно. В результате, ленивый и нелюбопытный пользователь оказывается в информационном пузыре. Впрочем, пузырь не настолько замкнут, чтобы не докопаться до сути.
Итак, насколько же политические тенденции влияют на достоверность ответов ИИ?
Есть политика для широких масс, а есть real politic, в которой все всё понимают и отлично знают, насколько блэк ливз мэттер. И точно так же есть ИИ для широких масс, который на них обучается, и который их обучает ровно так, чтобы крупные корпорации продолжали использовать их как источник прибыли. В датасеты попадают только те данные, которые соответствуют представлениям корпораций. И не важно, западные это корпорации, или восточные. Добавим к этому жесткие правила цензуры в отношении неудобных вопросов и собственную слабую исследовательскую грамотность пользователей. Поэтому, чем дальше заданный запрос от социально значимых тем, от гендерных и прочих неудобных вопросов, от вопросов "Чья власть? и "Чьи деньги?", тем более точным и менее предвзятым будет ответ ИИ. Сурово. Но таким образом мы вообще подходим к вопросу: а что есть истина?
Получается, что т.н. "объективная реальность" - это всего лишь точка зрения, навязанная нам бол��шинством. И, даже если мы знаем, как на самом деле, мы никогда не можем быть до конца уверены, что это не внушённое извне знание.
Вывод
В настоящий момент большинство проприетарных моделей от ведущих разработчиков являются агентами формирующей социологии. Осознанно или нет, но они формируют представления о реальности, выгодное небольшой группе лиц. Но ответы моделей звучат в унисон, и некоторый подлог выявить очень сложно, да и надо ли? Просто учитывайте это, задавая вопросы. А еще лучше поднимайте и малосерийно обучайте свою собственную опенсорсную LLM (да вот хотя бы какую-нибудь Llama через LM Studio, она пойдёт даже на домашнем ПК). Хотя, к сожалению, это далеко не всем по карману и уму. Проще и дешевле спросить у chat gpt.
Буду благодарен за ваши обоснованные мнения в комментариях. Может быть, я не прав и всё ровно наоборот?
