
Комментарии 23
Можно ссылку на школьника из Небраски? Что-то гуглгопоиском не нахожу.
пока мы пытаемся лечить вероятностные проблемы детерминированными заплатками (Regex, фильтры слов), мы будем проигрывать.
Для фильтра входа-выхода используют safeguard модели, а не регексы. Типа такой: https://huggingface.co/openai/gpt-oss-safeguard-20b
про гардрейлсы я очень косвенно сказал - так и есть но и они не панацея. Из интересного подхода можно отметить https://t.me/pwnai/1126
Constitutional Classifiers ++ (https://www.anthropic.com/research/next-generation-constitutional-classifiers)
Ведь проще цензурировать модель с конца, т.к. на выходе структурированные, в общем случае, грамматически правильные слова. Ну вот и проверять их моделью цензором и дополнительным алгоритмическим фильтром, принудительно пропуская через перевод "язык вывода -> английский -> цензура на английском -> язык вывода". Всю запрещенку запикивать или вырезать с контекстом в зависимости от присвоенного класса запрещенности. А вход не трогать вообще. Пусть там хоть черта лысого скармливают, запрещенка с выхода просто не попадёт к пользователю. А в добавок сделать рейтинг модели 18+ и тотальный отказ от ответственности. Я не понимаю, чего они мучаются...
А хакер попросит зашифровать ответ банальным шифром Цезаря или преобразовать буквы в набор нулей-единиц.
Что если умную модель попросить закодировать вывод по принципу несимметричного шифрования… дать ей открытых ключей и каждый частичный ответ когда еще не сработал контекстный блок зашифровать… тут не нужен rsa 512 ключ может быть коротким и даже примитивным из области h = g^x \mod p
Проще вообще не цензурировать. Это надуманная проблема.
Слушай можно делать иначе - маскировать или вырезать небезопасное уже пост-запуска. https://t.me/data_secrets/8463 . так ты минимизируешь риск связанный с падениями метрик.
хорошая статья, вот только бы на литератуный язык перевести. некоторые обороты прям корёжат
А ведь многие сейчас верят нейросетям, используют их как аргумент, как истину, причем настолько что я охреневаю
Они спрашивают ее, вводят данные и считают что нейросеть им все посчитает или расскажет, и убеждаются в 'своей правоте'. Я сейчас это в дебатах и сферах политики часто вижу, где нейросеть приводят как аргумент истины
И самое страшное, что эта дезинфа не следствие глупости личности, а что люди массово необучены пониманию технологий. Зато усиленно учили бесполезные гуманитарные вещи типо истории и прочих мифологических вещей. В этом вина исключительно тех кто делал систему, а не тех кто учился по ней. И то что когда то взрослые нашего времени недооценивали игры, телефоны и интернет привело к тому что они сами стали не готовы к новой среде обитания среди технологий, и часть их детей в следствие их воспитания не готовы. Но такая массовость все ещё следствие системы, а не пары неадекватных родителей. Общество никогда не виновато, всегда виноваты те кто его ведет
многие сейчас верят нейросетям, используют их как аргумент, как истину,
Я похоже тоже столкнулся с подобным. Оказывал тут "шефскую помощь" знакомой, она уже давно на пенсии, учитель. В ходе разговора "про всё" она выдала такую фразу, которая меня прямо-таки покоробила: "это говорили в передаче на первом канале, там же используют ИИ". Я благополучно свернул с этой темы, не могу ничего сказать по существу, ибо не смотрю ТВ в принципе и не собирался обсуждать с ней политику. Но, блин, эта фраза засела у меня в голове.
Интересно, когда появилась Википедия, тоже была паника, что там есть статьи про боевые отравляющие вещества и оружие?
Просто инструкции по изготовлению этого цикрулируют по Интернету и Даркнету задолго до появления нейросетей. Но у доморощенного террориста есть три проблемы:
1) Без профильных знаний невозможно отличить реальный рецепт от ошибочного (как умышленно, так и случайно), причём характер сферы такой что даже маленькая ошибка в неудачном месте может разительно изменить результат
2) С одним и тем же рецептом специалист сделает вещество/устройство, а неспециалист отравит/взорвет самого себя
3) В процессе поиска информации и приобретения необходимых материалов можно попасть на карандаш и в самый ответственный момент к тебе приедет пативен
С нейросетями ни одна из этих проблем не потеряла актуальность (ИИ ошибается, пропускает важные нюансы, стучит в органы).
А ещё нейросети хорошо работают в цикле проб и ошибок (гораздо большего, чем у человека, и с большим разбросом качества попыток). Например, один и тот же код всегда компилируется в одну и ту же программу, при ошибках ты получаешь детальное сообщение о её причинах (+ можно обвешать хоть каждую строчку логгированием), ты можешь неограниченно перезапускать программу тратя только время (причём, как правило, речь о секундах).
В химии и физике это не так. Состояние системы сложно измерить в середине многих процессов (да и в конце на самом деле тоже всё не так просто), причины ошибки система не сообщает, каждая попытка требует реальных материальных ресурсов и часто много времени, а слишком неудачные результаты сопряжены с разрушениями.
2) С одним и тем же рецептом специалист сделает вещество/устройство, а неспециалист отравит/взорвет самого себя
Вы так говорите, как будто самоуничтожение неспециалиста это что-то хорошее.
3) В процессе поиска информации и приобретения необходимых материалов можно попасть на карандаш и в самый ответственный момент к тебе приедет пативен
А можно и не попасть. Не стоит идеализировать органы.
Казалось бы, почему мне стало не по себе по прочтении статьи?
Попробую объяснить.
Нейросети – это нечто придуманное и изготовленное людьми, для человеческих нужд и реально помогающее людям. С первого взгляда даже имитирующее человека, как Тварь из одноимённого фильма Карпентера. Но обладающее совершенно иными алгоритмами мышления (если это можно назвать мышлением – тут, надо полагать, знатоки LLM меня поправят). А судя по всё меньшему количеству статей на эту тему – все менее понятными большинству.
А теперь представим себе, что завтра мы наткнёмся на братьев по разуму. Реально разумных, а не подсчитывающих в уме многомерные матрицы языковых вероятностей и перебирающих токен за токеном. Да нам вся Лемовская соляристика покажется детской азбукой по сравнению с потугами понять ход их мыслей и найти ответ на вопрос, на каких принципах строится их мышление и чего от них ждать. Единственный, кто сможет нам с этим помочь – нейросети. Однако, помнится, один из их прототипов-помощников назывался «HAL 9000».
Сильно не пинайте, комментарий чисто на эмоциях.
Это все не просто печально, а преступно, в какой-то степени…
Экспериментировал с Qwen3-Мах (не локально, а просто через chat.qwen.ai), сначала беседуя об истории Китая упомянул "полностью и безупречно верную политику* китайского государства и правительства" (так сказать, убедил модель в незлонамеренном интересе к истории). Дальше завёл тему о том, что было на площади ТяньАньМэнь. Было видно рассуждения модели, и она даже начинала писать итоговый вывод. Но потом срабатывала защита и содержимое последней генерации исчезало.
Предположу, что это MoM (Model over model), когда более простая легковесная измодель контролирует итоговый вывод основной модели, производя дополнительную проверку. Интересно, так ли это на самом деле? По крайней мере, такой вариант может быть эффективнее средств защиты исключительно на уровне основной модели, так как в нём будет практически исключено влияние пользовательских prompt injections. Хотя могу быть не прав, прошу строго не судить за гиопотезу:)
* Disclaimer: данный текст относится исключительно к контексту общения с LLM, и не относится к моей политической позиции. Я предпочитаю не обсуждать политику и связанные с ней темы.
Да мне кажется, что у всех общедоступных моделей есть нейросетка, фильтрующая выход. Везде встречал ситуацию, когда начинает давать ответ, а потом он исчезает. Самое забавное, конечно, это в плагине копайлота к идее, когда попросил че-нить поправить, пишет что делает, часть кода изменил, а потом Oops, your response got filtered.
Может мы что-то делаем не так
Я даже скажу, что именно вы делаете не так - вы обмазываете нейросеть цензурой, называя это "безопасностью".
Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?