daniilshat 22 апр в 20:04

Новые языковые модели от OpenAI оставляют скрытые водяные знаки в сгенерированном тексте

1 мин

12K

Искусственный интеллектМашинное обучение*

+19

Комментарии 31

fedorro 22 апр в 20:18

Ну на изображении они совсем не в случайных местах, а чтобы значение года от подписи не переносилось - вполне себе стандартная практика (между числами и относящимися к ним единицами измерения или счётными словами).

fgeo 22 апр в 20:30

Оригинал этой статьи получше написан и в нем есть upd, в котором показано, что невидимые символы вставляются и в неразумных местах.

qiper 22 апр в 20:33

Нужны подробности, а то терзают смутные сомнения

fgeo 22 апр в 20:42

Ну так я не поленился и сходил по ссылке. И вы сходите. Так-то нормально подать материал задача автора статьи, а не моя. Я лишь обозначил, что в оригинальной статье есть и другие примеры.

P.S. Автор поста написал коммент, куда эти примеры добавил.

qiper 22 апр в 20:31

Неразрывный пробел (non-breaking space) за водяной знак приняли)

vesowoma 22 апр в 20:32

Пока автор переводил текст, тот немного поменялся:

[Update] Since publishing this post, some users have noted that the examples provided only show non-breaking spaces associated with numbers or abbreviations. Below, we provide additional examples to demonstrate that this is not the case—the special character can occur between any two characters. ([Обновление] После публикации этого поста некоторые пользователи заметили, что приведенные примеры показывают только неразрывные пробелы, связанные с числами или сокращениями. Ниже мы приводим дополнительные примеры, демонстрирующие, что это не так — специальный символ может встречаться между любыми двумя символами.)

qiper 22 апр в 20:38

Может глюки просто?

Их же кормят текстами, где nbs попадаются

daniilshat 22 апр в 20:56

Статью в блоге правда обновили. Добавил подробности. Спасибо большое!

PPE_RT 22 апр в 20:32

Подумал, что он расставляет буквы в определенном порядке - наложил маску на текст, как в титрах шерлока холмса, и появляется надпись "скопирайчено"

Senecaminor 22 апр в 21:51

Наложил маску, и попал в телеграм канал автора

qiper 22 апр в 20:36

Символы можно увидеть в редакторах Sumblime Text и VS Code.

А Notepad++, Notepad2?

Дайте пример текста

VADemon 22 апр в 22:29

Невидимые пробелы n++ точно не показывает и, вроде, в режиме с показом типографических знаков тоже нет.

qiper 18 часов назад

Что за "невидимые пробелы"?)

VADemon 16 часов назад

https://jkorpela.fi/chars/spaces.html

qiper 22 апр в 20:46

А буквы похожие из разных языков не вариант?

amphasis 22 апр в 20:48

Сразу палятся спеллчекером

PPE_RT 23 апр в 06:17

Если в составе спеллчекера нет чатбота

PPE_RT 23 апр в 06:16

Еще на падонкафском может писать. Не все студенты настолько продвинуты в орфографии, особенно, если язык не родной

Moog_Prodigy 22 апр в 21:21

Кстати в картинках тоже подобное ожидайте. От тегов до недокументированных полей. До суперпикселей не додумаются в ближайшем времени, а там будет утилита тоже

PPE_RT 23 апр в 06:17

Стеганография давно уже есть, вроде

denja244 22 апр в 21:24

А если так, так же ставить невидымие метки, но только прям в видимом тесте, например повторяющаяся буква или набор букв, но что бы это было естесственным когда читаешь текст, и это повторение подчиняется какому то хитрому алгоритму-последовательности, потом текст загоняется в прогу от автора LLMки, на защенном и закрытом коде, что бы из черной коробки только выдавался ответ - сгенерированный текст или нет, ну и ключи только у разраба LLMки. Из минусов заточено только на одного бота, ключ только у разраба и доп нагрузка на генерацию из-за необходимости подчиняться доп алгоритму построения текста.

Spyman 23 апр в 03:29

Реализация которая сделана сейчас - пишется 9классником на уроке информатики. А то, что предлагаете вы - писать осмысленный текст составляя порядок слов таким образом, чтобы образовывалась секретная последовтаельность - задача которая и человеком то делается с трудом, а тут нужно будет обучить llm, чтобы она не теряла смысл при перефразировании, при отсутсвии обучающей выборки, потребует море вычислительных ресурсов, и главное - потеряет смысл сразу после выхода - т.к. можно взять получившийся текст с "водяным знаком", и прогнать его через любую существующую сейчас сетку без этих знаков с промптом "напиши тоже самое другими словами".

V-LA 23 апр в 07:15

Читал о чем-то таком - то ли уже есть, то ли разрабатывается.

Там, как я понял, ватермарка строится на основе логики выборов токенов. Сам текст при этом не содержит левых символов. И даже есть некоторая устойчивость ватермарки к редактированию текста.

alan008 22 апр в 21:35

Какая-то желтушная статья. Вопрос к токенизатору или как там это называется. Когда исходные обучающие данные разбивались на токены, считался ли неразрывный пробел разделителем. И вообще производилась ли замена неразрывных пробелов на обычные в обучающих данных на стадии предобработки. Если не производилась, то логично что нейронка иногда генерирует токены, содержащие неразрывные пробелы, и к водяным знакам это вообще никакого отношения не имеет.

LinkToOS 22 апр в 23:44

Логичнее какой-нибудь "смысловой hash" разработать, специально для текстовой информации. Наверняка можно подобрать какой-то алгоритм, который будет создавать характерный отпечаток содержания текстового объекта. Так чтобы "косметические" изменения в тексте, всякие перестановки и замены не меняющие смысл, не влияли на hash этого текста. В принципе ИИ мог бы этим заняться - подбором такого алгоритма. Сам создал проблему, пусть сам и решает.

fujikiriku 23 апр в 03:57

В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш" для разных текстов - перевод, пересказ, дореформенная пунктуация, краткое содержание, рассказ, сценарий.

Мне кажется, это невозможно будет возложить на Т9, даже в будущем.

LinkToOS 23 апр в 14:00

В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш"

Название и прочая информация относится к "тегам". Хэш это уникальный отпечаток всего содержимого объекта, который должен однозначно его идентифицировать. "Смысловой хэш", в отличии от математического, должен помимо прочего ориентировать на смысл, а не только на буквальную форму. Чтобы перестановки и синонимы его не дезинформировали.

Мне кажется, это невозможно будет возложить на Т9, даже в будущем.

Вообще-то ИИ-ЛЛМ уже в каком-то смысле создает "смысловые хэши". Если рассматривать промпт как хэш, то ИИ подбирает под него текст. ИИ способен брутфорсить алгоритмы. Дать ему несколько текстов, и настроить на поиск набора характеристик, так чтобы этот набор позволял однозначно отличать один текст от другого. Затем дать одно произведение, в разных вариациях, с заменой на синонимы и перестановками в тексте. И подбирать алгоритм чтобы все варианты давали одинаковый хэш. Для нейросетей это вполне подходящая задача. Надо подобрать набор и последовательность операций над текстом, который на выходе даст набор характеристик для идентификации текстового объекта. Такой набор операций можно найти перебором.

greeshanka 23 апр в 11:07

Да это обойти как два пальца об асфальт.

JumpinCarrot 23 апр в 11:34

Это что получается, людям теперь нельзя использовать неразрывной пробел и не выглядеть как бот? Лучше бы новый юникод-символ для этого внедрили, вместо всяких ненужных эмоджи.

tukreb 23 апр в 13:38

Так это же обходится элементарно, появятся бесплатные сервисы по удалению всех "скрытых" знаков. Вот если в определённом порядке слова расставлял...

AuroraBorealis 23 апр в 14:37

Grok, удали мне все водяные знаки с текста GPT o4 ~~да свои тоже прихвати~~

ChatGPT, проверь, удалил ли Grok все водяные знаки из текста

Deepseek, проверь контрольную сумму текста до и после отработки ChatGPT, выведи ее на экран, чтобы я мог сам ее проверить после тебя

Как-то так :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий