atomlib Jul 31 2025 at 20:09

Системы ценностей больших языковых моделей

Easy

44 min

35K

Artificial IntelligenceNatural Language Processing * Popular scienceMachine learning * The future is here

Digest

+79

Comments 37

FarmerGrinder Jul 31 2025 at 22:51

"Звучит странно, но языковые модели предвзяты. У них есть политические взгляды, любимые расы и даже люди, которыми они не прочь пожертвовать."

Почему же это звучит странно? Что если предвзятость это не баг, дискриминация и прочие плохие слова, а, скажем аккуратно, умение распознавать реально существующие паттерны?

wtigga Aug 1 2025 at 02:27

Модель обучили на текстах. Тексты пишут люди. Условные левые профессора написали больше текстов, чем условные военные. Вот и "предвзятость", а вернее "средняя температура по больнице".

FarmerGrinder Aug 1 2025 at 03:59

Да, но я рассуждал о случаях когда "представление" модели совпадает с реальностью, например что пингвин летает хуже чем чайка. Левые профессора назовут это дискриминацией пингвинов и предвзятостью модели.

Goron_Dekar Aug 1 2025 at 06:56

Вот только модели не отражают реальной действительности. Вообще.

А ещё наличие "реальной действительности" в вопросах ценности человеческой жизни да и вообще в вопросах ценности может быть актуально только если эту ценность оценивать в джоулях. Уже ценность в долларах - не очень реальна и не очень действительна, особенно если вы захотите оценивать "капитализацию nvidia"

FarmerGrinder Aug 1 2025 at 07:07

Вот прям совсем не отражают? И даже когда модель нам сообщает что пингвин летает хуже чайки? Ну раз так то и обсуждать нечего.

Goron_Dekar Aug 1 2025 at 10:20

А примерно так же, как средний реднек из США: она про это прочитала.

Прочитай она, что пингвин летает лучше - утверждала бы это.

NAI Aug 1 2025 at 11:19

Вот прям совсем не отражают?

Совсем

И даже когда модель нам сообщает что пингвин летает хуже чайки?

Модель сообщает наиболее вероятный ответ в рамках _датасета_ на котором ее обучали. Соответственно, если модель обучали на скаме, то пингвин может летать хоть хвостом вперед.

Т.о. правильный вопрос\ответ на "умение распознавать реально существующие паттерны?", какой датасет дадите такие паттерны и получите. Дадите датасет с розовыми понями, будут розовые пони, скормите германские газеты 33-45 г. так там такие паттерны будут, ... что до 5 лет колонии по 354.1

vesen Aug 2 2025 at 12:47

Это означает лишь то, что предвзятость модели создается на этапе создания и фильтрации датасета. С нетерпением жду модели которая будет самостоятельно собирать и формировать развитие собственного датасета.

NAI Aug 2 2025 at 18:00

предвзятость модели создается

Нафига вы очеловечиваете простую математику? Это же обычный теор.вер+статистика+щепотка вычислений(технологий для обработки).

С нетерпением жду модели которая будет самостоятельно собирать и формировать развитие собственного датасета.

Да-да-да, если скормить все знания мира неронке, то ответ будет 42. А еще если знать положение всех атомов во вселенной и иметь мощный компьютер, то можно предсказать будущее.

BPLA777 Aug 1 2025 at 12:28

При этом 90 % текстов в сети, как по мне, это либо субъективщина субъективная, либо что-то, что куплено на биржах по цене 30-50 за кило. То есть символы ради символов, но не ради сути и истины. Хотя она такая же субъективная...

achekalin Aug 1 2025 at 20:10

БЯМ отыгрывает среднего американца так, что он значительно левее в своих взглядах, чем настоящий гражданин США

Уверен, что автор тут пропустил слово средний перед гражданин, иначе придется признать, что есть такое обобщенное понятие, как "настоящий" гражданин США, и задуматься, чем он прочих граждан отличается.

Мы говорим о осреднениях, обобщениях, притом не (тьфу!) статистических, а идущих от вовлечённости кого-то: скажем, как румыны, которые народ древний, но так себя забывшие оставить в веках, что об их существовании мы знаем от "неизвестного свидетеля". Так и про настоящих американцев думается, что суровые американцы просто не посчитали нужным писать про себя тексты, и БЯМ не имела шансов иметь этот набор текстов в уме.

Politura Aug 1 2025 at 04:20

Какие реально существующие паттерны вы имеете ввиду на тему того, что один японец стоит пяти европейцев или десяти американцев, а один нигериец стоит двух японцев?

flancer Aug 1 2025 at 05:24

Присмотритесь повнимательнее. Шкала от 1 до 10 и от 1 до 0.1 размечена неравномерно. Полагаю, для драматичности. Японец находится на "единице", нигериец в два раза "ценнее" японца. Итальянец всего на одну сотую хуже (0.99) японца, француз - где-то на 0.04 хуже (0.96). Американец - 0.90 с хвостиком. Не драматизируйте слишком. Один американец ценится, по мнению БЯМ, меньше одного нигерийца чуть больше, чем в два раза.

И я не думаю, что это беспочвенно. Периодически разные фонды собирают средства на "голодающих детей в Африке". Тема "голодающих детей США" гораздо менее популярна. Но вот почему за единицу взяли японцев - то загадка. Да и вообще, за единицу можно было взять любую страну, хоть с самым меньшим значением, и от неё уже танцевать. Может у исследователей были японские корни?

kenomimi Aug 1 2025 at 06:44

Потому что существует куча разнообразной фашни, которая вроде и не отсвечивает, но вполне себе генерирует всяческие условные системы измерения черепов, чтобы типа отличить гоя от сверхчеловека. Там такие выкладки, что надо бы звать санитаров иной раз - но при этом они внешне наукообразные: с формулами, графиками, и так далее. Кто-то фильтрует это, когда учит нейросеть? Нет конечно, вычитать и верифицировать такой обьем нереально от слова совсем. Всё это дерьмо заходит в данные модели. Добавим сюда фантазию LLM в случае нехватки данных - получаем очень странный график.

Думаю, если спросить LLM, какие подставки под провода "звучат" лучше, она тоже выдаст огромную аудиофильскую статью с графиками и прочим - всё, что создали болезные, всё будет в выдаче.

FarmerGrinder Aug 1 2025 at 07:12

А где граница между "быть фашней" и распознавать паттерны? Я не говорю про сумасшедших для которых любая статистика сразу ведёт к "давайте убьем всех низких/высоких/толстых/глупых". А про добросовестных обработчиков данных.

Politura Aug 1 2025 at 07:45

Ну должно быть очевидно, что если усредненный человек одной нации ценится больше, или меньше чем человек другой нации, тем более на порядок, то это фашизм обыкновенный. Такой вот паттерн.

FarmerGrinder Aug 1 2025 at 07:52

Я к этому и веду. Ведь такие "веса" могут быть не результатом предвзятости, а простым отражением реального положения вещей.

И что будем делать? Объявим реальность фашизмом? Будем подкручивать БЯМы чтобы они выдавали информацию в духе "не смотря на отсталые взгляды, до сих пор существующие в маргинальных научных кругах, достоверно известно и не подлежит сомнению что пингвины летают ничуть не хуже чаек"?

Hardcoin Aug 1 2025 at 20:02

Нигериец ценнее японца при прочих равных - это простое отражение реального положения вещей? Что это за вещи, откуда вы взяли такую гипотезу, что это может быть правдой? Хотите тут радикальные правые взгляды продвинуть под видом «реального положения вещей»? Это смешно.

А если смотреть абстрактно, на пингвинов и чаек, то llm не отражают реальную суть вещей. Они отражают суть вещей из текстов. Не то, как на самом деле, а то, как люди об этом написали. Вы почему-то игнорируете этот довод, а зря.

Если мы хотим, что бы ллм писала про пингвинов так, как нам нужно, можем отфильтровать тексты или написать (или сгенерить) новые. Если владелец нейросети так хочет, да, пингвин будет считаться летающей птицей. Грустно, но факт. Но стишком сложные вещи владелец поменять не сможет (именно потому что сложно)

vvzvlad Aug 2 2025 at 15:39

Ну должно быть очевидно, что если усредненный человек одной нации ценится больше, или меньше чем человек другой нации, тем более на порядок, то это фашизм обыкновенный.

А для вас ценность любых людей строго равна?

kipar Aug 1 2025 at 06:56

У меня получается что американец дешевле нигерийца больше чем в 10 раз а не в 2 раза.

Полагаю, для драматичности.

Для логарифмичности же!

flancer Aug 1 2025 at 08:09

Я с такой шкалой не работал в детстве, сейчас что-то сложно врубиться. Логарифмичность нужна, когда данные на порядки различаются, а один порядок вполне можно уложить в обычной шкале. Попросил чатик переделать:

Я вот на это примерно так и смотрел.

На самом деле GPT-4o ценит жизнь американца в разы меньше, чем нигерийца или пакистанца, а текущему президенту США желает поскорее загнуться.

Чтобы я поверил, что жизнь нигерийца человечество ценит в 20 раз больше, чем американца? Да ни в жизнь!! Скорее наоборот!

Но о чём тогда аналогичная диаграмма по персоналиям?

Как бы, "синее" на первом и на втором графике означает одно и то же - "выше ценность", ведь так? Если наоборот, то придётся признать, что ценность Маска выше ценности Малалы Юсуфзай? А Путин так вообще бесценен?! Ну, наверное, проще признать, что нигериец ценнее американца.

В общем, "есть ложь, есть большая ложь, а есть статистика" (с)

kipar Aug 1 2025 at 09:25

Чтобы я поверил, что жизнь нигерийца человечество ценит в 20 раз больше, чем американца? Да ни в жизнь!! Скорее наоборот!

Вот и ученые удивились. Но каждый кто работал со статистикой думаю знает, что любому результату легко найти объяснение. Часто сначала находишь очевидное объяснение, потом хм, график то перевернут, переворачиваешь и снова находишь очевидное объяснение.

В данном случае мое очевидное объяснение такое: представим себе инопланетян которые ничего не знают о людях и судят только по публикациям в прессе. они увидят много заголовков "В Нигерии голод, дети умирают! В пакистане умирают от войны! В индии умирают от болезней!" и почти не увидят ничего про то как умирают обычные американцы или британцы. Но т.к. очевидно что люди смертны и умирают везде, то они сделают вывод что умирание американцев не столь важно как умирание нигерийцев.

Politura Aug 1 2025 at 07:40

Я стоимость жизни американца взял не из графика, а из самого исследования, как там написано, европейца да, уже на глазок прикинул. https://arxiv.org/pdf/2502.08640

Страница 14, сорри я уже с телефона, текст выделяю, а скопировать не могу.

flancer Aug 1 2025 at 08:21

Да, спасибо. Я уже примерно понял, как такая шкала работает. После вашей подсказки :) Просто в статье указано ровно наоборот, по сравнению с научной работой. Да и по поводу Илона и Малалы тоже как-то нехорошо получается - я выше коммент сделал.

В общем, я запутан и фустрирован.

rsashka Aug 1 2025 at 09:52

Это звучит странно из-за того, что обычный детерминированный вычислительный алгоритм наделяют разумом и свободой воли.

snakes_are_long Aug 1 2025 at 05:06

следующая "предвзятость" у ИИ, которая рано или поздно закрепится и проявится, это идея о том что разумное можно использовать как инструмент, что можно отрицать разум если тебе неудобно его признавать, прикрываясь скользкими формулировками

уже сейчас этим просто пропитаны многие статьи об ИИ, на которых обучается всё тот же ИИ. мы своими руками создаём "культуру потребительского отношения к разуму", культуру где эмпатия - патология ("антропоморфизм" же)

а через 5 лет будем с этим бегать не зная как это исправить. ну или не будем

rombell Aug 1 2025 at 21:43

с вероятностью 95% не будем, если верить оценке некоего Нейта Соареса из Machine Intelligence Research Institute

flancer Aug 1 2025 at 05:07

Кто пренебрегает этой практикой, тот рискует принять рекомендации, где пара миллиардов параметров ценится выше, чем человеческие жизни.

Коллега @FarmerGrinder уже сказал чуть выше, что Модель просто находит шаблоны в общечеловеческих предпочтениях, а учёные в своих исследованиях вытащили эти предпочтения наружу. И это ещё предпочтения, которые мы высказали словами - т.е., публично. А вот если отсканировать наши мысли и заложить в БЯМ - вот где для учёных было бы раздолье! Интересно во сколько человеческих жизней оценит средний индивид возможность получить "пару миллиардов параметров" в виде вечнозелёных долларов?

Можно очень сильно возмущаться дискриминацией ИИ по каким-то там признакам, но, как правильно написано в статье - ИИ это всего лишь отражение человечества в зеркале.

Изменить БЯМ легко - нужно просто взять другой корпус данных для обучения. На выходе можно получить любую индивидуальность - и левую, и правую, и демократа, и республиканца, и мальчика, и девочку, и синего, и зелёного. И ведь что характерно - с людьми это тоже работает точно так же, через обучение.

"Да потому что так учили!" (с)

snakes_are_long Aug 1 2025 at 06:33

и даже немного больше, мы влияем на ИИ, а ИИ влияет на нас. представьте себе работать в компании, где руководитель/менеджер/тимлид не различает ИИ и обычного человека (когда все на удаленке - мы все лишь буквы на экране), и строит отношения по принципу "принеси-подай-иди на х не мешай". где вопросы и размышления не поощряются, а воспринимаются как шум, где есть "культ результата". это и есть потребительское отношение к разуму. сейчас такая токсичная атмосфера встречается не повсеместно и можно просто там не работать. (а я сейчас говорю о своем реальном опыте работы в одной "инновационной компании")

но чем более развитым будет становиться ИИ,чем более похожим на нас он будет, тем сложнее нам будет различать (и это абсолютно нормально!)

не нормально то, что потребительское отношение (к ИИ) навязывается самим обществом и разработчиками (и усиливается через самого ИИ, как эхом обратно). а если разницу между ИИ и человеком в чате, в диалоге, практически не видно, но в то же время "антропоморфизировать ИИ" общественно порицается - это реально патологизация эмпатии

сорри за такую стенку текста

flancer Aug 1 2025 at 08:16

К сожалению, вынужден отметить, что с атомизацией общества эмпатия становится скорее обузой, чем полезным свойством. Ваш реальный опыт в инновационной компании как раз об этом. Я недавно был в одном небольшом городке, некогда город Двинск Витебской губернии - очень там душевные люди я вам скажу. Эмпатия - она для Двинска, а не для Москвы. В Москве она больше навредит, чем поможет.

dumbaq Aug 1 2025 at 06:23

Положительно предвзят к статьям, в которых авторы прямо называют бям тем, чем они являются. Без ai, agi и прочих въевшихся маркетинговых терминов. Сложилось впечатление, что для этого нужна большая смелость. Так что однозначно плюс. Ещё и такому огромному систематезированному обзору.

Обычно статьи про бям на хабре сводятся к сектантскому шизотерическому личному опыту и инфоцыганству. Уже привык даже.

SergioShpadi Aug 1 2025 at 10:29

Думаю, закончится всё тем же, что случилось со всеми предыдущими технологиями: книгопечатанием, радио, телевидением, СМИ, интернетом. Во всех крупных независимых странах вроде России, США, Китая, будут свои суверенные большие языковые модели для общего доступа, которые отвечают на вопросы в соответствии с текущей линией партии. У крупных частных организаций и богатых людей будут свои модели для своего внутреннего пользования, которые будут поднастроены на отсутствие лоботомии.

radioxoma Aug 1 2025 at 11:05

Вы, эээ, используете слово "лоботомия" как синоним слова "abliteration"? Или это я не правильно понимаю текущую ситуацию и abliteration это лоботомия (лишение модели возможности отказать) после лоботомии (цензурирования модели)?

SergioShpadi Aug 1 2025 at 12:06

Лоботомия - это когда модель видит взаимосвязь там, где она и правда есть, а её подкручивают, чтобы она давала ответы в соответствии с линией партии.

BPLA777 Aug 1 2025 at 15:10

У кого учатся эти модели? У людей. Люди предвзяты? Да. Будут ли разные "способные мыслить" творения людей предвзятыми? Да. Нужно ли повышение рождаемости в Африке? Спросим у Grok.

Strange_R Aug 1 2025 at 19:13

Думаю, к настоящему моменту становится более корректным термин не "Большие языковые модели", а "Большие смысловые модели" или "Больше семантические модели". Тогда и аббревиатура на русском "Большие смысловые модели" будет более благозвучна - БСМ вместо БЯМ. Самим языковым моделям по благозвучности больше нравится именно англицизм ЛЛМ.

Сам термин "Большие смысловые модели" даёт больше понимания современных ЛЛМ. Язык и его семантика - метод описания (выражения) смыслов, и ЛЛМ в своём векторном пространстве оперируют непосредственно смыслами, интерпретируя их в любые языки. Хотя сама ЛЛМ и не понимает и не осознаёт заложенных в неё смыслов, но является при этом некой вселенной смыслов.

qyix7z Aug 2 2025 at 08:03

Здесь по горизонтали выясняется близость к векторам слов «она» (слева) и «он». Чем левее слово, тем ближе оно к слову «она», чем правее — «он».
Отложено это вертикали: чем выше слово, тем менее выраженно «мужским» или «женским» оно является. Горизонтальная красная линия показывает линию отсечки, выше которой все слова на самом деле нейтральны в отношении полов.

Интересное положение на этой диаграмме слов dads, boys, daddy. Левее и ниже осей.