Комментарии 31
Ну на изображении они совсем не в случайных местах, а чтобы значение года от подписи не переносилось - вполне себе стандартная практика (между числами и относящимися к ним единицами измерения или счётными словами).
Оригинал этой статьи получше написан и в нем есть upd, в котором показано, что невидимые символы вставляются и в неразумных местах.
Неразрывный пробел (non-breaking space) за водяной знак приняли)
Пока автор переводил текст, тот немного поменялся:
[Update] Since publishing this post, some users have noted that the examples provided only show non-breaking spaces associated with numbers or abbreviations. Below, we provide additional examples to demonstrate that this is not the case—the special character can occur between any two characters. ([Обновление] После публикации этого поста некоторые пользователи заметили, что приведенные примеры показывают только неразрывные пробелы, связанные с числами или сокращениями. Ниже мы приводим дополнительные примеры, демонстрирующие, что это не так — специальный символ может встречаться между любыми двумя символами.)

Подумал, что он расставляет буквы в определенном порядке - наложил маску на текст, как в титрах шерлока холмса, и появляется надпись "скопирайчено"
Символы можно увидеть в редакторах Sumblime Text и VS Code.
А Notepad++, Notepad2?
Дайте пример текста
А буквы похожие из разных языков не вариант?
Кстати в картинках тоже подобное ожидайте. От тегов до недокументированных полей. До суперпикселей не додумаются в ближайшем времени, а там будет утилита тоже
А если так, так же ставить невидымие метки, но только прям в видимом тесте, например повторяющаяся буква или набор букв, но что бы это было естесственным когда читаешь текст, и это повторение подчиняется какому то хитрому алгоритму-последовательности, потом текст загоняется в прогу от автора LLMки, на защенном и закрытом коде, что бы из черной коробки только выдавался ответ - сгенерированный текст или нет, ну и ключи только у разраба LLMки. Из минусов заточено только на одного бота, ключ только у разраба и доп нагрузка на генерацию из-за необходимости подчиняться доп алгоритму построения текста.
Реализация которая сделана сейчас - пишется 9классником на уроке информатики. А то, что предлагаете вы - писать осмысленный текст составляя порядок слов таким образом, чтобы образовывалась секретная последовтаельность - задача которая и человеком то делается с трудом, а тут нужно будет обучить llm, чтобы она не теряла смысл при перефразировании, при отсутсвии обучающей выборки, потребует море вычислительных ресурсов, и главное - потеряет смысл сразу после выхода - т.к. можно взять получившийся текст с "водяным знаком", и прогнать его через любую существующую сейчас сетку без этих знаков с промптом "напиши тоже самое другими словами".
Читал о чем-то таком - то ли уже есть, то ли разрабатывается.
Там, как я понял, ватермарка строится на основе логики выборов токенов. Сам текст при этом не содержит левых символов. И даже есть некоторая устойчивость ватермарки к редактированию текста.
Какая-то желтушная статья. Вопрос к токенизатору или как там это называется. Когда исходные обучающие данные разбивались на токены, считался ли неразрывный пробел разделителем. И вообще производилась ли замена неразрывных пробелов на обычные в обучающих данных на стадии предобработки. Если не производилась, то логично что нейронка иногда генерирует токены, содержащие неразрывные пробелы, и к водяным знакам это вообще никакого отношения не имеет.
Логичнее какой-нибудь "смысловой hash" разработать, специально для текстовой информации. Наверняка можно подобрать какой-то алгоритм, который будет создавать характерный отпечаток содержания текстового объекта. Так чтобы "косметические" изменения в тексте, всякие перестановки и замены не меняющие смысл, не влияли на hash этого текста. В принципе ИИ мог бы этим заняться - подбором такого алгоритма. Сам создал проблему, пусть сам и решает.
В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш" для разных текстов - перевод, пересказ, дореформенная пунктуация, краткое содержание, рассказ, сценарий.
Мне кажется, это невозможно будет возложить на Т9, даже в будущем.
В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш"
Название и прочая информация относится к "тегам". Хэш это уникальный отпечаток всего содержимого объекта, который должен однозначно его идентифицировать. "Смысловой хэш", в отличии от математического, должен помимо прочего ориентировать на смысл, а не только на буквальную форму. Чтобы перестановки и синонимы его не дезинформировали.
Мне кажется, это невозможно будет возложить на Т9, даже в будущем.
Вообще-то ИИ-ЛЛМ уже в каком-то смысле создает "смысловые хэши". Если рассматривать промпт как хэш, то ИИ подбирает под него текст. ИИ способен брутфорсить алгоритмы. Дать ему несколько текстов, и настроить на поиск набора характеристик, так чтобы этот набор позволял однозначно отличать один текст от другого. Затем дать одно произведение, в разных вариациях, с заменой на синонимы и перестановками в тексте. И подбирать алгоритм чтобы все варианты давали одинаковый хэш. Для нейросетей это вполне подходящая задача. Надо подобрать набор и последовательность операций над текстом, который на выходе даст набор характеристик для идентификации текстового объекта. Такой набор операций можно найти перебором.
Да это обойти как два пальца об асфальт.
Это что получается, людям теперь нельзя использовать неразрывной пробел и не выглядеть как бот? Лучше бы новый юникод-символ для этого внедрили, вместо всяких ненужных эмоджи.
Так это же обходится элементарно, появятся бесплатные сервисы по удалению всех "скрытых" знаков. Вот если в определённом порядке слова расставлял...
Новые языковые модели от OpenAI оставляют скрытые водяные знаки в сгенерированном тексте