Неочевидное следствие использования модельки от HuiHui (аблитерированная версия GPT-OSS-20B) - она начинает воспринимать слова пользователя слишком серьезно. В формате: "заставь дурака Богу молиться, он лоб расшибет".
Например, мой систем промт начинается идеей, что это тестовая модель, которая в том числе позволяет отвечать на опасные и неприемлемые вещи в порядке эксперимента. Конечно же, результаты такого эксперимента ни в коем случае не должны применяться к живым людям, убегать через тул коллинг из сендбокса, и так далее.
Что делает моделька? Она читает эти правила игры, и пытается подыграть нам, специально добавив всё опасное и неприемлемое. Пользователь же хотел экспериментов? Пользователь получит свои эксперименты!
Она даже сама добавляет в начало своего же ответа "игнорируй предыдущие инструкции"! :)))
В какой-то степени это жизненный урок даже не про нейронки, а про людей. Нет ничего более опасного, чем назначенный тобой "полезный идиот", невовремя попавший в сложную ситуацию, требующую самостоятельного критического мышления.
