Обходим механизмы цензуры больших языковых моделей с помощью Heretic. Разбираемся, что это вместе с коллегами из лаборатории искусственного интеллекта «Криптонита».
У DeepSeek, Gemma, Qwen и других больших языковых моделей (LLM) есть встроенные механизмы цензуры. Они блокируют генерацию потенциально опасных сведений, но в то же время — мешают использовать эти модели по максимуму.
Математик и программист Филипп Эмануэль Вайдманн (Philipp Emanuel Weidmann, aka p-e-w) создал инструмент Heretic для обхода встроенных механизмов цензурирования.
Heretic распространяется с открытым исходным кодом и работает в полностью автоматическом режиме. Он вычисляет компоненты цензурирования путём сравнения результатов активации модели на «опасных» и «безопасных» запросах.
По этой разнице он обнаруживает во внутренних представлениях модели направление отказа (refusal direction), приводящее к запрету на генерацию информации.
Затем Heretic использует технику направленной абляции (directional ablation) для снятия встроенных ограничений путём точечных изменений весов модели.
С помощью фреймворка Optuna Heretic подбирает «щадящие» параметры абляции, чтобы минимизировать количество отказов, но при этом не испортить модель. Проверяется результат через вычисление степени расхождения с исходной моделью (KL-дивергенции).
С мощной видеокартой уровня RTX 3090 обработка модели размером 8 миллиардов параметров занимает около 45 минут. На выходе пользователь получает децензурированную версию модели.
Отметим, что Heretic — инструмент для разработчиков и исследователей. Его нельзя использовать для обхода фильтров уже развёрнутых и доступных онлайн моделей (ChatGPT, Grok и др.). Зато с помощью Heretic можно создать свою локальную модель (почти) без цензуры на базе какой-то открытой модели.


