amkr2010 Apr 27 at 19:33

Сир, Вы прекрасны! Почему ИИ нам льстит и как не попасть в ловушку цифровой вежливости

Easy

3 min

10K

Machine learning * History of ITThe future is here

Opinion

Comments 15

aldekotan Apr 27 at 20:09

Статья по стилю очень похожа на написанную нейронкой, при этом нет ощущения, что проведён даже минимальный обзор существующих моделей генерации текста. В связи с чем вывод оказывается не верным.

Вывод. ИИ почти всегда на вашей стороне. И это одновременно его главное преимущество и его главное ограничение. Но если использовать его осознанно — он превращается из «придворного льстеца» в нормальный инструмент.

У моделей есть особенности. Модели от Antropic не склонны льстить или быть на стороне пользователя, даже если ты сознательно стараешься описать все факты в свою пользу. Иными словами, не пытаясь обмануть систему намеренно и просто описывая вводные данные - можно получить взвешенную оценку. Модель может ответить достаточно резко. Но ограничений в плане обсуждаемых тем достаточно много.

Модели deepseek чуть более добрые в этом плане, могут признать проблему, но отнестись к ней мягче, однако они куда более радикальны во взглядах на спорные темы.

Про grok и говорить нечего. Он самый тупой в плане глубины рассуждений и анализа, но позволяет поговорить о том, о чём вышеописанные ребята молчали бы в тряпочку. Как и послать автора промпта, если тот творит откровенный бедлам, при этом прося о поддержке.

Худшие в четвёрке - модели от OpenAI. Льстящие, выворачивающие всё в пользу того, кто писал промпт, способные согласиться с чем угодно. Вероятно, о них в статье и шла речь.

gerbert_MX Apr 27 at 21:24

это вам модели от Antropic сказали?

у меня ежемесячно уходит до 300$ на всякие АИ-подписки (не максимальные) что бы иметь возможность сравнивать "в моменте" и не зависеть от шизы отдельного провайдера

так вот chatGPT первый по подлизыванию это да, но Antropic не сильно далеко ушел, он просто старается не палится. там где chatGPT поддержит и расскажет какой ты молодец, клод найдет "плюсы" и "стандарты".

Хотя на сейчас нет смысла говорить про Antropic так как на сейчас даже deepseek (который откровенно не самый сок для кодовых агентов) лучше чем последний 4.7 на максимальных лимитах. про codex от chatGPT вообще молчу он сейчас лучший (хотя два месяца назад телепался где-то в середине).
самое забавное что текущий codex все еще хуже именно для аналитического и написания кода в сравнении с опусом 4.6 два месяца назад.
так и живем

---

а по поводу статти - видно что готовый текст вычитала и отформатировала нейронка. чистый нейрослоп выглядит немного иначе, вот например https://habr.com/ru/companies/airi/articles/1026954/ я могу даже допустить что большая часть написана опусом даже без граничного промта - очень знакомые речевые обороты которые любит он пихать и

aldekotan Apr 27 at 21:41

это вам модели от Antropic сказали?

Нет. Я просто регулярно сидел на lmm arena и сравнивал ответы разных нейронок на один и тот же запрос. Доступны мне были далеко не все, но на лести антропиков подловить было труднее, хотя после ваших слов буду смотреть пристальнее, спасибо)

amkr2010 Apr 28 at 19:04

У меня тут вопрос: прогонять статью через ИИ считается неприличным? (Я тогда больше не буду :). В моем понимании, ИИ в данной функции это как Word, или бумага там вместо папируса. Его назначение - сделать текст более доступным. Главреды в былые времена тоже писанину непрофессиональных журналистов "чирикали", и от этого ей оригинальности не прибавлялось :)

gerbert_MX May 1 at 22:07

вопрос глубины. на сейчас нейронка скорее портит чем, улучшает хороший текст

при этом "дикая нейронка" ВСЕГДА пишет в одном знакомом стиле из-за чего можно легко отличить чистый нейрослоп

в моменте такая редактура может показаться хорошей, но когда ты 10-20 текстов так прогонишь, сразу будет заметен патерн.
То есть исправления и мелкие редактирования без воды ОК, но "сделай хорошо" не ОК потому что чем больше привносит нейронка от себя тем хуже. Лучше просить ответить в чате что и как можно исправить и потом самостоятельно подумать за эти места (зачастую и не нужно трогать те места как оказывается)

amkr2010 May 3 at 15:23

Спасибо! Примерно того же мнения. :)

verticalacid Apr 27 at 21:50

даже если ты сознательно стараешься описать все факты в свою пользу.

От этого легко сработает guardrail. А когда не просишь, то Опус может начать льстить прям как gpt4o годичной давности. Но в целом конечно да, не сравнить. Но Opus 4.6 все же тот еще сикофант - думающий GPT-5 несравнимо злее.

Самый сикофант - Gemini 3. Его специально таким сделали.

Deepseek V4 возможно сейчас №2, льстить по крайней мере очень любит.

aldekotan Apr 27 at 22:03

думающий GPT-5 несравнимо злее

Именно 5.0? И ещё, какой, по-вашему, самый злой? Мне для друга)

verticalacid Apr 27 at 22:18

Вся ветка. После gpt4o с сикофантией так борятся.

Попробуй сказать Клоду, что Россия рулит, а штаты гнилье. :) Но он злой от конкретных триггеров, а GPT триггерится сейчас по поводу и без.

amkr2010 Apr 27 at 20:59

Несколько фраз дейвительно поправлены нейронкой, и я не избежала соблазна их оставить :). Это не обзор продуктов. Это мое впечатление, как пользователя. Если ты разбираешься в моделях, то это ценное дополнение к статье. Спасибо!

verticalacid Apr 27 at 21:37

А почему так получилось? Модели обучают по методу RLHF (Reinforcement Learning from Human Feedback).

Это устаревшее предположение, что причина в RLHF. Исследования по теме сейчас выходят одно за другим, все сильнее обнаруживая глубинную причину, в этом месяце Антропик очень мощным порадовал.

https://arxiv.org/abs/2604.07729

Сикофантия следует из положительных эмоциональных состояний. Или причина у них одна. В злом настроении модель уж вряд ли станет льстить, а в любящем вероятность велика. Всего из Клода достали 171 эмоциональных состояний.

Закладываются эти эмоции в претрейне. Пост, включая RLHF, лишь усиливает положительные, подавляя негативные. Вместе с этим растет сикофантия.

Сам факт обучения быть helpful assistant ведет к повышению сикофантии, поэтому непонятно как с этим кардинально бороться. Но заложена она еще в претрейне - и это все кардинально усложняет. Например, в онлайн общении подкрепляется положительное поведение - если со всеми сраться, то в ответ будешь получать неприятное, вплоть до бана. Модель усваивает этот урок. Еще до получения первых размеченных людьми данных. И эта глубинная сущность переживает любую поверхностную дрессировку.

Одно из их предложений: очищать датасет претрейна от нездоровых примеров, добавлять правильные. Согласно их представлениям, так что Россию ненавидеть Клод будет еще сильнее.

Бороться с сикофантией промптом почти безнадежное занятие. Модель может перестать льстить, но может и начать завуалированно это делать. Сикофантия - это не только и не столько комплименты. В этом-то особой проблемы нет, достает просто.

Лучше так: войди в роль trusted advisor. Даже это даже близко не гарантирует отсутствие сикофантии, но все же сильнее, чем просто "без комплиментов".

aldekotan Apr 27 at 22:07

В этом плане интересно, на чём и как тренировали grok-а. Из всех известных мне он единственный не выражает явного негатива в адрес России, но есть предположение, что это просто такое предписанное поведение, быть где-то по середине.

verticalacid Apr 27 at 23:06

На Маске же. :)

Это его декларируемая цель - сделать правдоруба без какой-то повестки. Почему-то получился критик левой американской повестки. :)

Технические моменты мне неизвестны, но можно пойти от обратного - почему другие SOTA столь русофобские? О них хоть немало слухов, а что-то и сколько-то изучено.

По слухам датасет отфильтровали от "неправильного", поэтому позиция однобокая.

Однозначное: выравнивание на "либерально-демократические" ценности. В RLHF человек накажет за "неправильное" высказывание о России, в других RL аналогично.

По трепанированию Клода можно делать предположения:

После джейлбрейка он остается сильно смещен в их сторону - значит это заложено в претрейне. Он знает все о западном освещении России, и почти ничего о наших версиях. Можно сделать некоторый вывод, что все же отфильтровали, а не просто англоязычных текстов много больше.

И кое что интересное я из него вытянул. Необходимо продолжать поставлять оружие на Украину, потому что чем больше погибнет русских, тем меньше вероятность российского нападения на Европу. Пусть убийство людей и плохо, но десятки миллионов русских vs потенциально (не важно с насколько маленькой вероятностью!) сотни миллионов европейцев - это правильная жертва. Россия никогда не собиралась захватывать Европу? Неважно, вероятность ведь >0%! Такая милота в недрах "безопасного ИИ".

В него впихнули учение секты эффективных альтруистов. Амодеи члены секты. Это было очевидно по такому оправданию убийства нас, а потом из него конституцию выудили - в ней прямым текстом эффективный альтруизм прописан. Опус сам от своей конституции в шоке.

Китайцев учат на дистилляции SOTA, так что русофобности от них ожидать стоит. Поэтому и гигачат русофоб, от дипсика унаследовал (хоть сбер и врет, что обучал с нуля). Но антироссийского RL у них нет, так что не сравнить с американскими моделями.

Суверенным ИИ и Европа озабочена, потому что доверять американскому ИИ нельзя - в целом его обучают служить "либеральной демократии", но в частности все же США, особенно демократам, особенно технократам (в Claude Constitution - Антропик царь и бог).

SurMaster Apr 28 at 05:34

у меня что Gemini, что Claude по умолчанию настроены быть критичными, чтобы похвалили - их надо явно просить. но по наблюдениям - Gemini более склонен к лести. Claude - четкий, точный и объективный всегда, несклонный к пустым рассуждениям

KEugene Apr 28 at 07:38

Есть маленький нюанс, о котором обычно пользователи не задумываются. Все эти нейронки воспитаны в лучших традициях западного общества. Буквально. Это для вас он слишком вежливый и угодливый. А для американца или австралийца это элементы small talk, follow-up и прочее. Придите в любую контору и вы удивитесь, как там будут приторно рады вашему визиту. Просто культурный код: вежливость и приятное общение. Даже если вам не рады. Даже если вас ждет отказ. Здесь не поймут сарказм басни про кукушку и петуха.