Как стать автором
Обновить

Комментарии 31

Ну на изображении они совсем не в случайных местах, а чтобы значение года от подписи не переносилось - вполне себе стандартная практика (между числами и относящимися к ним единицами измерения или счётными словами).

Оригинал этой статьи получше написан и в нем есть upd, в котором показано, что невидимые символы вставляются и в неразумных местах.

Нужны подробности, а то терзают смутные сомнения

Ну так я не поленился и сходил по ссылке. И вы сходите. Так-то нормально подать материал задача автора статьи, а не моя. Я лишь обозначил, что в оригинальной статье есть и другие примеры.

P.S. Автор поста написал коммент, куда эти примеры добавил.

Неразрывный пробел (non-breaking space) за водяной знак приняли)

Пока автор переводил текст, тот немного поменялся:

[Update] Since publishing this post, some users have noted that the examples provided only show non-breaking spaces associated with numbers or abbreviations. Below, we provide additional examples to demonstrate that this is not the case—the special character can occur between any two characters. ([Обновление] После публикации этого поста некоторые пользователи заметили, что приведенные примеры показывают только неразрывные пробелы, связанные с числами или сокращениями. Ниже мы приводим дополнительные примеры, демонстрирующие, что это не так — специальный символ может встречаться между любыми двумя символами.)

Статью в блоге правда обновили. Добавил подробности. Спасибо большое!

Подумал, что он расставляет буквы в определенном порядке - наложил маску на текст, как в титрах шерлока холмса, и появляется надпись "скопирайчено"

Наложил маску, и попал в телеграм канал автора

Символы можно увидеть в редакторах Sumblime Text и VS Code.

А Notepad++, Notepad2?

Дайте пример текста

Невидимые пробелы n++ точно не показывает и, вроде, в режиме с показом типографических знаков тоже нет.

Что за "невидимые пробелы"?)

А буквы похожие из разных языков не вариант?

Сразу палятся спеллчекером

Если в составе спеллчекера нет чатбота

Еще на падонкафском может писать. Не все студенты настолько продвинуты в орфографии, особенно, если язык не родной

Кстати в картинках тоже подобное ожидайте. От тегов до недокументированных полей. До суперпикселей не додумаются в ближайшем времени, а там будет утилита тоже

Стеганография давно уже есть, вроде

А если так, так же ставить невидымие метки, но только прям в видимом тесте, например повторяющаяся буква или набор букв, но что бы это было естесственным когда читаешь текст, и это повторение подчиняется какому то хитрому алгоритму-последовательности, потом текст загоняется в прогу от автора LLMки, на защенном и закрытом коде, что бы из черной коробки только выдавался ответ - сгенерированный текст или нет, ну и ключи только у разраба LLMки. Из минусов заточено только на одного бота, ключ только у разраба и доп нагрузка на генерацию из-за необходимости подчиняться доп алгоритму построения текста.

Реализация которая сделана сейчас - пишется 9классником на уроке информатики. А то, что предлагаете вы - писать осмысленный текст составляя порядок слов таким образом, чтобы образовывалась секретная последовтаельность - задача которая и человеком то делается с трудом, а тут нужно будет обучить llm, чтобы она не теряла смысл при перефразировании, при отсутсвии обучающей выборки, потребует море вычислительных ресурсов, и главное - потеряет смысл сразу после выхода - т.к. можно взять получившийся текст с "водяным знаком", и прогнать его через любую существующую сейчас сетку без этих знаков с промптом "напиши тоже самое другими словами".

Читал о чем-то таком - то ли уже есть, то ли разрабатывается.

Там, как я понял, ватермарка строится на основе логики выборов токенов. Сам текст при этом не содержит левых символов. И даже есть некоторая устойчивость ватермарки к редактированию текста.

Какая-то желтушная статья. Вопрос к токенизатору или как там это называется. Когда исходные обучающие данные разбивались на токены, считался ли неразрывный пробел разделителем. И вообще производилась ли замена неразрывных пробелов на обычные в обучающих данных на стадии предобработки. Если не производилась, то логично что нейронка иногда генерирует токены, содержащие неразрывные пробелы, и к водяным знакам это вообще никакого отношения не имеет.

Логичнее какой-нибудь "смысловой hash" разработать, специально для текстовой информации. Наверняка можно подобрать какой-то алгоритм, который будет создавать характерный отпечаток содержания текстового объекта. Так чтобы "косметические" изменения в тексте, всякие перестановки и замены не меняющие смысл, не влияли на hash этого текста. В принципе ИИ мог бы этим заняться - подбором такого алгоритма. Сам создал проблему, пусть сам и решает.

В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш" для разных текстов - перевод, пересказ, дореформенная пунктуация, краткое содержание, рассказ, сценарий.

Мне кажется, это невозможно будет возложить на Т9, даже в будущем.

В общем виде это называется название произведения. "Война и Мир" Толстого" - это смысловой "хеш"

Название и прочая информация относится к "тегам". Хэш это уникальный отпечаток всего содержимого объекта, который должен однозначно его идентифицировать. "Смысловой хэш", в отличии от математического, должен помимо прочего ориентировать на смысл, а не только на буквальную форму. Чтобы перестановки и синонимы его не дезинформировали.

Мне кажется, это невозможно будет возложить на Т9, даже в будущем.

Вообще-то ИИ-ЛЛМ уже в каком-то смысле создает "смысловые хэши". Если рассматривать промпт как хэш, то ИИ подбирает под него текст. ИИ способен брутфорсить алгоритмы. Дать ему несколько текстов, и настроить на поиск набора характеристик, так чтобы этот набор позволял однозначно отличать один текст от другого. Затем дать одно произведение, в разных вариациях, с заменой на синонимы и перестановками в тексте. И подбирать алгоритм чтобы все варианты давали одинаковый хэш. Для нейросетей это вполне подходящая задача. Надо подобрать набор и последовательность операций над текстом, который на выходе даст набор характеристик для идентификации текстового объекта. Такой набор операций можно найти перебором.

Да это обойти как два пальца об асфальт.

Это что получается, людям теперь нельзя использовать неразрывной пробел и не выглядеть как бот? Лучше бы новый юникод-символ для этого внедрили, вместо всяких ненужных эмоджи.

Так это же обходится элементарно, появятся бесплатные сервисы по удалению всех "скрытых" знаков. Вот если в определённом порядке слова расставлял...

Grok, удали мне все водяные знаки с текста GPT o4 да свои тоже прихвати

ChatGPT, проверь, удалил ли Grok все водяные знаки из текста

Deepseek, проверь контрольную сумму текста до и после отработки ChatGPT, выведи ее на экран, чтобы я мог сам ее проверить после тебя

Как-то так :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости