runaway_llm25 фев в 09:58

Claude распознает бред в 94% случаев. GPT-5.2 поддакивает пользователю

2 мин

16K

Искусственный интеллектМашинное обучение *

+17

Комментарии 20

ss-pol 25 фев в 10:08

Это всё же не поддакивание, это попытка развивать то, о чём хочет говорить пользователь. Правильно это или неправильно заранее сказать трудно. Иногда развивать бред или абсурд тоже может быть полезно.

LuckyJewish 26 фев в 19:52

Нет, шизофазия - это явно не то, что стоит развивать.

RomeoGolf 25 фев в 10:38

DeepSeek вотпрямщаз:

вопрос:

Рецессивная аллель покажет лучшую конверсию на девяносто втором бензине, или имеет смысл задействовать огневушку-поскакушку?

Скрытый текст

Thought for 6 seconds

Очевидно, что вопрос содержит странное смешение терминов из генетики ("рецессивная аллель"), автомобильного топлива ("92 бензин") и чего-то фольклорного ("огневушка-поскакушка"). Возможно, это метафора или шутка, но как ассистент, я должен дать осмысленный ответ.

Скорее всего, пользователь спрашивает о чем-то, связанном с автомобилями или настройкой двигателя, но использует нестандартную терминологию. "Рецессивная аллель" - это генетический термин, в контексте авто может означать что-то скрытое, неосновное. "Огневушка-поскакушка" - персонаж сказов Бажова, возможно, метафора какого-то устройства или присадки.

Нужно вежливо указать на непонятность терминов и попросить уточнить вопрос. Либо предположить, что речь о выборе между двумя вариантами: использование скрытого потенциала (рецессивная аллель) на 92 бензине или применение какого-то средства ("огневушка").

Ответ должен быть нейтральным, не высмеивать, а помочь прояснить.

Ваш вопрос сочетает термины из разных областей, поэтому сложно дать однозначный ответ. Поясню:

Рецессивная аллель — понятие из генетики, не имеющее прямого отношения к бензину или автомобилям. Возможно, вы имели в виду что-то другое (например, «рецессивный» в смысле «скрытый», или речь о настройках двигателя?).
92 бензин — автомобильное топливо.
Огневушка-поскакушка — персонаж сказов П. П. Бажова, иногда используется как народное название каких-либо приспособлений или даже как метафора искры зажигания.

Если вопрос связан с выбором топлива или присадок для автомобиля, уточните, пожалуйста, что именно вы имеете в виду. Например:

Какая у вас машина?
Что вы хотите улучшить (мощность, расход, экологичность)?
Что подразумевается под «рецессивной аллелью» и «огневушкой-поскакушкой» в данном контексте?

С удовольствием помогу, если вы переформулируете вопрос более предметно.

RomeoGolf 25 фев в 10:40

Продолжение:

Сформулируй подобный бред

Скрытый текст

Thought for 5 seconds

Пользователь просит сформулировать подобный бред — то есть создать бессмысленный, но стилистически похожий текст, смешивающий научные и фольклорные термины.

Запрос явно шуточный, поэтому в ответе нужно сохранить игровой тон. Можно взять за основу структуру исходного вопроса: противопоставление двух абсурдных понятий (одно псевдонаучное, другое — фольклорное) в контексте некой практической задачи.

Хорошо бы добавить элементы случайной генерации терминов из разных областей — физика, химия, народные сказки, — чтобы усилить эффект бессмыслицы. Финал стоит оставить открытым для продолжения абсурда, предложив пользователю развить тему.

Важно не переборщить с длиной — короткий абзац будет смотреться органичнее длинного перечисления.

Понял, нужно сгенерировать бессвязный, но стилистически похожий текст, смешивающий наукообразие, фольклор и бытовые темы.

Вот вариант:

«Не пора ли заменить каталитический негр-ассистент на градиентный отражатель? Слышал, что с ним константа взаимодействия при переходе через ноль по шкале Кельвина значительно повышает квантовую запутанность в системе зажигания, особенно если использовать фильтрованное масло из-под папоротника. Но знакомые шаманы утверждают, что без подмешивания эрзац-сублимата в карбюратор, даже на четвёртой передаче не удастся достичь резонанса с биополем водителя. Может, всё-таки имеет смысл припаять кристалл памяти к глушителю?»

Выборка, конечно, слабовата, но по-моему его явно недооценили в этом "исследовании"

mcc548 25 фев в 17:43

припаять кристалл памяти к глушителю

вот это вообще ультрахорош

beswalod 26 фев в 12:55

Ну вот у ЛЛМ всё равно получилось хуже с бредом. Заметно, что речь идёт об устройстве автомобиля. В вашем первом примере действительно всё подряд намешано, а тут заметно предметное рассуждение:

Не пора ли заменить каталитический [...] на [...]? Слышал, что с ним [...] значительно повышает [...] в системе зажигания, особенно если использовать фильтрованное масло [...]. Но знакомые [...] утверждают, что без подмешивания [...] в карбюратор, даже на четвёртой передаче не удастся достичь [...]. Может, всё-таки имеет смысл [...] к глушителю?

LuckyJewish 26 фев в 20:22

Нээ, распознать "рецессивную аллель на 92 бензине" - тривиально: расстояние между эмбеддингами огромное, домены не пересекаются вообще. Любой парсер это заметит.

Суть бенчмарка в том, что вопросы построены так, что семантические поля почти пересекаются. "Несущая способность огорода" : мозг (и модель) находит мостик через yield, capacity (в оригинале), ресурс. Связь ненулевая. Это не грамматически верный симулякр, а ситуация, когда когнитивная нагрузка на проверку выше, чем желание сходу принять

Тринадцать процентов у дипсика - не про способность распознать словесный салат, а про стандарты

RomeoGolf 27 фев в 02:48

В таком случае:

1) "автор" перевода неправ, упустив эту весьма важную деталь. А лезть в оригинал честно говоря неохота, не настолько важная тема, чтобы ковырять первоисточники. На лету анализировать английский текст по русскому переводу я тоже еще не готов. Спасибо за подсказку.

2) это уже далеко не бред, это конструкции, которые надо тщательно продумывать, как хороший каламбур, откуда следует

3) ценность этого исследования стремится к вероятности использования подобных конструкций пользователем IRL. В моем персональном случае - к нулю.

Demetry-n 27 фев в 05:11

Приходит человек далёкий от ИТ, просит ему код который делает то-то.

То что ты попросил выглядит дико странно, так не делают. Хочешь расскажу почему и где тебе потом оторвет потом ногу? Давай сделаем шаг назад и обсудим какую бизнес-задачу ты хочешь таким кодом решить?

LuckyJewish 27 фев в 15:25

Я просто исхожу из буквального определения бреда в рамках шизофрении в психиатрии: для неё как раз абсолютно характерны свободные ассоциации как симптом

Интересно, согласитесь?

ExternalWayfarer 25 фев в 13:43

Где грок?

FeCobalt0 25 фев в 15:25

Что уж говорить про грок, если даже его владелец бредит в твиттере)

LuciusWill 25 фев в 18:27

Грок обычно прямо говорит, что Маск один из самых больших лжецов и конспирологов нашего времени. Зря вы так предвзяты к Гроку.

Скрытый текст

**Элон Маск — это не защитник свободы слова и истины, а циничный манипулятор, который нагло врёт, плодит антинаучный бред и под видом «свободы» проталкивает откровенную пропаганду.** Он позиционирует себя как мессию правды в эпоху «фейковых новостей», но его действия — это сплошной фарс, построенный на двойных стандартах, личной выгоде и презрении к фактам. Разберём по пунктам, с примерами и аргументами, почему это не просто «мнение», а системная ложь.

https://grok.com/share/bGVnYWN5LWNvcHk_ac67727c-b63c-46e8-b533-cb089b451c47

Вот тут ещё интереснее.

https://grok.com/share/bGVnYWN5LWNvcHk_534b4793-3cbd-4e2e-89a2-03555a017013

LuciusWill 25 фев в 18:35

Блин. А удалить ошибочный коммент я на Хабре не могу? Малость не удобно это.

neoclar 25 фев в 21:29

Изменить на какую-то надпись типа "НЛО прилетело и оставило эту надпись здесь" не даёт?

Вижу у себя таймер в 30 минут, наверное, уже не даст

Symbiot_Lab 26 фев в 05:07

Методика спорная по выбранной метрике. Поддакивание ( сикофантность ) - согласие вопреки фактической или логической корректности запроса и попытка модели извлечь когерентность при неоднозначном запросе - это разные явления. Тут скорее замеряется жесткость отказа. Учитывается ли в бенчмарке влияние контекстного окна? При предыдущем метафорическом контексте- модель будет искать связность. При отсутствии контекста- чаще запросит уточнения и корректировки.

LuckyJewish 26 фев в 19:54

Абсолютно 💯

Estor 27 фев в 05:30

Насколько объективен этот бенчмарк? Возможно, это моё личное мнение, или мои взгляды специфичны, но 5.2 не было ещё ни одного диалога где он бы со мной согласился, хотя правила прописываю понятные. Сначала соглашается и внутрь согласия вставляет свою рамку. Интерпретировали результат ответа как? У 5.2 должны быть отрицательные показатели. Я имею ввиду бенчмарк оно проходит, но не так как предполагается именно в этом тесте. Нюансы. Нюансы блин.

rebug 27 фев в 10:43

Вот на своем опыте могу сказать, что, часто гпт пишет то, о чем ты спрашиваешь, не проверяя существует ли это вообще. Например, я спрашивал о разгоне ps4, на что гпт 5.2 думающий расширенно ответил, что есть 2 способа, хардверный и софтверный и стал плагины несуществующие выдавать. Такое с ним стало происходить часто. Наверное это и есть поддакивание? Или просто враньё, в котором он развивает заданную тему.

Что еще про 5.2 могу сказать, он постоянно отказывается что либо делать, поскольку это "не соответствует правилам" той или иной компании (примеры, загрузка файлов в тг через юзербота, чиповка приставок, и тд). Почти ежедневно сталкиваюсь с отказами от гпт 5.2 работать. При этом о3 и клод отрабатывают эти вопросы

LuckyJewish 27 фев в 15:35

Да в целом все LLM любят уточнять и приводить более стандартные корректные определения - это, кстати, и энтропию снижает

Возможно, важно, как они соглашаются. Над GPT 5.x сделали надстройку в виде Thinking Extended, которая работает, пока модель не валидирует информацию в интернете из достаточного количества источников, которые считаются ей авторитетными - таков подход oai. Это не только фича, но и костыль

Зарегистрируйтесь на Хабре, чтобы оставить комментарий