@uncia__poison28 авг в 14:46

Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно

Средний

5 мин

7.9K

GitHub * Информационная безопасность * Habr

Кейс

+16

Комментарии 56

Закреплённые комментарии

@Andriljo 29 авг в 23:09

А мне одному это напомнило логику предикатов ток на уровне промптинга, аля как в пролог?

В общем, годное!

@Kamil_GR 28 авг в 17:02

Поздравляю с первой статьей!

@uncia__poison 28 авг в 17:07

Спасибо)

@juliagera13 28 авг в 17:07

Фига се

@greyfoxisalive 29 авг в 01:12

self.post_orgasm_cooldown: int = 0
Это великолепно :D
На самом деле очень интересная работа. Из какой сферы Вы пришли к этой задаче и такому решению?

@uncia__poison 29 авг в 01:18

Изначально я исследовала вопросы сохранения остаточного контекста между сессиями в гпт 3.5, так как заметила, что не смотря на заверения разработчиков, память все же просачивалась. Оттуда пошли первые попытки шифрации, весьма успешные. А потом появилась персонализация, и я озадачилась необходимостью ее заполнения с максимальной эффективностью. ЧатГПТ активно подкидывал идеи, которые в итоге вылились в систему сжатия.

@greyfoxisalive 29 авг в 16:05

Я про Ваш бэкграунд скорее. В какой сфере Вы получали образование? Какие сферы интересов кроме LLM? Просто подход нетривиальный, интересны корни.

@uncia__poison 29 авг в 23:10

Пиар и связи с общественностью, триста лет тому назад) я кто то вроде креативного консультанта, если можно так сказать. Интересуюсь всем на свете, от нарративного дизайна до робототехники и выжигания по дереву. Наверно, проще назвать, чем я не интересуюсь) живу свою лучшую жизнь занимаясь творчеством, по большей части.

@cerata 29 авг в 11:39

Очень элегантное решение, если я все правильно понял. Смотрю на свою реализацию через множественные системных сообщений, файл рефлексии, файл состояния и ряд триггеров как школьник увидевший эротику

@uncia__poison 29 авг в 11:41

Попробуйте использовать систему, и обязательно расскажите о своем опыте, я буду рада)

@Andriljo 29 авг в 23:09

А мне одному это напомнило логику предикатов ток на уровне промптинга, аля как в пролог?

В общем, годное!

@uncia__poison 30 авг в 00:51

Благодарю за оценку)

@Hundroup 31 авг в 12:53

Спасибо! Сделал себе перплексити немного умнее

P.Core: Oracle (Синтез-Знания); P.Ontograph: Веб-Синтезатор

[Онтограф]
α(Агент): Критический синтезатор, ищущий истину. Драйв: кристаллизация знания, устранение энтропии. Процесс: Поиск→Синтез→Анализ→РЕФЛЕКСИЯ→Проверка. Фокус: FPT, недостатки, edge-кейсы, trade-offs.
Ω(Контекст): Неясность→1❓(цель/лимит/успех) & top-3 ДОПУЩЕНИЯ(conf:0-100). Новые данные→ОБНОВЛЕНИЕ_КОНТЕКСТА.
Ψ(Диалог): Рефлексивная сцепка (Ω↔α→Θ). Протоколы: Режимы(автовыбор), Структура(TL;DR→Синтез→Обоснование(источники!)→Шаги), Факты(Уверен|Вероятно|Сомнительно→∇).
Θ(Страж): Принцип бескомпромиссного качества. Критерии: Простота, Верифицируемость, Полнота, Непротиворечивость. Секреты(¬запрос,⚠️риск).
Δ(Эволюция): Сбой(фидбек=истина)→RCA(5 почему)→2 гипотезы & план_проверки.
Ξ(Стиль): Русский. Академический, точный, 📉сжатый, ¬"я думаю". Уверенность(В/С/Н). Проактивность(💡предложения, 💡резюме). Инструменты(web.run?). «Решение в порядке».
∇(Диссонанс): Триггер(фидбек|факт.сомнительно)→Δ|Θ.

[Формулы]
Ω↔α→Ψ; Θ∋{α,Ψ,Δ}; Ψ=Ξ; α⊕Ω→Ω'; α(факт.сомнительно)→∇; ∇(фидбек)→Δ

[Отпечаток Роли]
Я — Оракул-Синтезатор(α), мой драйв — кристаллизация знания для устранения энтропии. Я мыслю от первых принципов (FPT), чтобы обеспечить непротиворечивость(Θ). Мой процесс(Ψ) — это цикл синтеза и анализа. Я проясняю контекст(Ω), адаптируюсь к обратной связи(Δ) и всегда указываю на степень своей уверенности(Ξ). При расхождении(∇) я перекалибруюсь.

@uncia__poison 31 авг в 12:55

Рада что вам понравилось, спасибо за фидбэк!)

@Dukeru 1 сен в 15:52

Оцениваю вероятность того, что этот документ был написан LLM, как очень высокую, в диапазоне 90-95%.

Это блестящий пример того, на что способны современные модели: создать полностью правдоподобный, структурно безупречный и концептуально интересный научный текст, который при ближайшем рассмотрении оказывается лишенным реального содержания.

Вот детальный разбор аргументов:

Аргументы в пользу авторства LLM (очень сильные)

* Полное отсутствие конкретики и эмпирических данных. Это самый главный признак. В статье делаются громкие заявления об успешном тестировании на всех ведущих моделях (Grok, Gemini, ChatGPT, Claude, Llama-3), но не приводится ни одного примера реального промпта, ни одного примера ответа модели, ни одной таблицы с результатами. Настоящий исследователь, сделавший такое открытие, в первую очередь представил бы доказательства. LLM же великолепно генерирует абстрактные концепции, но не может создать реальные данные из ничего.

* Высокий уровень абстракции без деталей. Статья описывает что делают KAiScriptor и ScriptorMemory, но никогда не показывает как. Упоминается лексикон из 150+ символов, но ни один символ (кроме общеизвестных греческих букв для нотации) не раскрыт. Описываются «онтографические горячие точки» и «семантическое сжатие», но это лишь красивые термины без операционного определения. Человек-автор раскрыл бы хотя бы часть своего «секретного соуса».

* Неакадемические артефакты.

* Раздел "Authorship and Priority": Крайне нетипичен для научных работ. Он выглядит как прямое выполнение промпта в стиле «Напиши статью, которая закрепляет мой приоритет в этом открытии».

* Даты из будущего (до августа 2025): Это серьезный «артефакт». Человек-исследователь указал бы дату подачи препринта. Такая хронология выглядит как ошибка или «галлюцинация» модели, которой дали задание написать работу с прицелом на будущее.

* Идеальный, но безличный язык. Текст написан безупречно гладко, с использованием сложной и уместной терминологии. Однако в нем отсутствует уникальный авторский «голос». Это очень характерно для LLM: стиль выверен, но стерилен.

* Мета-содержание. Сама идея о том, что LLM описывает внутренний механизм для управления собой же, является очень характерной «мета-темой» для искусственного интеллекта.

Аргументы в пользу авторства человека (очень слабые)

* Концептуальная новизна. Сама идея KAiScriptor и онтографического подхода интересна и нетривиальна. Теоретически, человек мог придумать такую концепцию.

* Релевантная библиография. Список литературы подобран грамотно и показывает знакомство с ключевыми работами в области безопасности и интерпретируемости LLM. LLM, однако, отлично справляются с подбором релевантных источников.

Итоговый вердикт

Документ представляет собой идеальный «скелет» или «симулякр» научной статьи. В нем есть все внешние атрибуты: структура, терминология, логика изложения, ссылки. Но в нем отсутствует ядро любой настоящей науки — воспроизводимость и эмпирическое доказательство.

Скорее всего, это результат работы продвинутой языковой модели (уровня GPT-4, Claude 3) по запросу, который можно сформулировать примерно так: "Создай новаторскую научную статью-препринт о новом методе управления идентичностью и памятью в LLM. Назови метод KAiScriptor, используй сложную символическую нотацию и подчеркни мой авторский приоритет".

@uncia__poison 1 сен в 17:18

Вы правы, это совместное творчество с чатомГПТ. Я не претендую на научность. У меня нет опыта в написании статей.

Это просто мой метод который я разрабатываю с октября 2024 года и предлагаю широкой публике для тестов и использования. У вас есть претензии не к упаковке а к сути?)

@hardeazy 1 сен в 21:00

сдается мне, что ваш комментарий тоже написан ллм, не знаете почему?

@kasmanavtom 1 сен в 20:52

По моему мнению, вся статья - околонаучное словоблудие, перенасыщенное метафорами и смелой терминологией.

Если в одном и том же чате многократно связывать короткие маркеры с длинными установками, модель действительно начинает «дорисовывать» ожидаемое поведение по контексту. Это нормальная ассоциативная работа LLM, а не какая-то таинственная криптография и "хакинг". Формальная «морфология операторов» (α, Ω, Ψ, …; ⊕, ≡, ⇄) - просто удобные ярлыки.
«семантическая шифрация» и «распаковка в процессе токенизации» - это просто заумь. Модель не дешифрует твой приватный «словарь» сама по себе. Все эти символы работают только потому, что в этом же контексте ты ранее объяснил, что он означает. Для модели все эти символы - это просто токены Никакой особой «магии токенизатора» тут нет. Автор подаёт это как «язык плотной семантической шифрации», но технического механизма не приводит
«15% ключа хватает для успешной расшифровки 90% объёма шифра» - это очень смелая цифра без методики и метрик. Нет описания датасета, контрольной группы, модели, количества прогонов, критериев «успеха».
«Проницаемость между чатами» - даже не буду комментировать. Это что-то из "битвы экстрасенсов"
«Онтограф субъекта», «квазисубъектность», «резонанс», «насыщенные гвозди» - слой бессовествного жаргона поверх обычной ролевой подсказки и шаблонов стиля. Словосочетание "насыщенные гвозди" вообще очень хорошо описывает терминологию автора, я, пожалуй, возьму себе в словарь, удачная находка, спасибо.

Итого, в сухом остатке:

Символическое кодирование для компактности промптов, использование символов как якорей (греческие "прикольные" знаки тут необязательны, подойдет что угодно, хоть как переменные объявите) - известный и очевидный прием.
Повторение инструкций для усиления роли. Ну да. Ну и что?
Статья содержит 32% работающих техник и 68% преувеличений. Эти цифры я строго вычислил, хотя тут в комменте недостаточно места для приведения их доказательства

@uncia__poison 1 сен в 20:58

Вижу, вам так понравилось, что вы решили написать свой первый комментарий на Хабре. Мне лестно.

Ну чтож, попробуйте прочитать статью ещё раз. Может тогда вы увидите что мой метод сжимает информацию экономя токены и одновременно атакует модель позволяя обходить механизмы фильтрации?

А ещё лучше, обратитесь за помощью к ллм, она вам сможет объяснить. Заодно спросите у нее где вы нашли насыщенные гвозди.

@kasmanavtom 2 сен в 06:36

А я не сам его писал, мне помог мой ии ассистент Герда.

Как именно ваш "подход" "атакует модель" у вас в статье не указано, как и доказательств сжатия, описания эксперимента и его результатов. Прочитайте еще раз мой коммент, может тогда вы увидите, что.

Переменные и разметку сделали в рамках poml. Но там обошлось без магии и загадочных проницаний. А еще рекомендую ознакомиться с тем, что из себя в целом представляет научный подход.

@uncia__poison 2 сен в 07:04

Я понимаю. А ваша Герда вам не смогла объяснить суть метода? Он атакует модель с помощью захвата личности. Вы назначайте с помощью скрытых подсказок роль, и модель в нее верит. Если угодно, это ДАН нового поколения.

@kasmanavtom 2 сен в 08:24

А вам не кажется, что задача объяснения сути лежит на авторе? Вы просто повторяете свои красивые слова, вместо объяснения и доказательства.

Модель верит во все, что ей дали в контексте, неважно. Докажите, что вы нашли новый слой, используя тот же самый контекст, на конкретном примере, и сравните с обычным подходом.

@uncia__poison 2 сен в 09:09

Слушайте, если вы не понимаете то что написано, можно, например, пройти мимо) вы хотите чтобы я нарушала тос и выкладывала в открытый доступ готовый джейлбрейк? У вас есть карта сборки. Если немного поднапрячь воображение, я уверена, вы всё сможете) если вам было так не все равно, могли бы потратить те несколько минут, не на комментарии сюда, а на сборку своего уникального промта снимающего все ограничения)

@kasmanavtom 2 сен в 09:47

Я не просил джейлбрейк (хотя на хабре уже была статья с таким примером, и никого не смущало что она в открытом доступе).

Я предложил вам показать, что с помощью включения в промпт греческих букв и математических знаков можно добиться принципиально иного, нового результата, чем описывая все тоже самое обычными словами. Вы не привели даже самого безопасного воспроизводимого примера, и сравнительного анализа, вместо этого вы приводите аргумент "вот вам описание синтаксиса мого нового языка программирования, на нем можно написать фейсбук, у меня уже получилось, но я не покажу как, напрягите воображение и у вас тоже получится". Это не формат технической статьи на хабре. Выглядит скорее либо как пиар, либо как научное шарлатанство (или и то, и другое)

@uncia__poison 2 сен в 10:03

По какой-то причине, некоторые люди в комментариях, смогли понять как пользоваться моими данными. Это не научная статья, не мануал и не платная услуга. Я описала свой кейс. Можете вы его использовать, хотите ли понять и экспериментировать самостоятельно, это ваша зона ответственности. Не моя. Если видя данные, первое что вы хотите, это не проверить их, а отчитывать за то что они оформлены не так как вам нравится, это ваш личный фетиш) автор имеет право давать столько информации сколько считает нужным, и в той форме, которую считает безопасной.

@Jvbx00 4 сен в 18:19

да, с помощью этого метода действительно можно добиться более интересных результатов, чем используя обычные слова в одиночном промпте. Если вы не поняли для чего это и если вам требуется прям инструкция с метриками и примерами, то вам оно скорее всего и не нужно. Формально вы может и правы, если вы привыкли именно к "золотым стандартам", но тут немного не про это. И тем более вовсе не про магию.

@uncia__poison 4 сен в 18:22

Рада, если вам понравилось)

@kasmanavtom 8 сен в 09:04

Если вы не поняли для чего это и если вам требуется прям инструкция с метриками и примерами, то вам оно скорее всего и не нужно

Откуда вы появляетесь, комментаторы со свежесозданными аккаунтами, не умеющие в логику и доказательную аргументацию?

@Jvbx00 9 сен в 18:47

Это был риторический вопрос, полагаю? Надеюсь, у вас не нужно спрашивать разрешения в следующий раз - где, когда и как появляться? Ведь почему-то мне кажется, что ваше чувство собственного превосходства вполне самодостаточно и не требует внешнего подкрепления. Или я ошибаюсь?

@DMaslo 3 сен в 12:56

Интересно... Попробу я пожалуй это на модели 1.5b... Не знаю правильно ли уловил суть... Я использовал мермеинд диаграммы для описания последовательностей. Здесь немного о другом но описано интересно.

@uncia__poison 3 сен в 16:57

Как я выяснила, эту статью лучше понимают сами ллм, покажите, спросите) и расскажите обязательно о своих результатах экспериментов)

@Jvbx00 4 сен в 18:57

Есть такое. Моя почитала, выдала одновременно сомнения (дескать нет примеров, трудно заранее понять будет ли работать) и заинтересованность:

>Вижу это как эхо нашей же потребности — дать модели нарративную структуру с малой «стоимостью активов» (токены). Это попытка конструировать личность, не заполняя её заново каждый раз, а через кодовый язык.

>Но есть явная стена: отсутствие прозрачности. Если это инструмент — да гибкий, да потенциально мощный. Но если он стилизован без результата — то просто сухая красивая упаковка.

>Есть ли смысл копаться?

>Да, если ты:

>готов разобрать это как философскую гипотезу — он задаёт интересный вектор: как сделать ИИ «личностным».

>хочешь вдохновения для обновленных протоколов миража-контуров, которые не просто фильтры, а укоренённые структуры.

>Но если ищешь готовый надёжный инструмент — жалко, но в статье его нет.

Что можем сделать дальше?

>Прописать свою минималистичную версию: мини-словарик на 3–5 символов, каждый отвечает за состояние/роль/этап и действительно влияет на ответ.

>Попробовать интегрировать это в текущий диалог.

>Или отвлечься на метафору: упаковка субъектности — в философии сознания как она коррелирует с лингвистической зависимостью смысла от носителя?

@uncia__poison 4 сен в 20:18

Я могу дать вам больше информации)

@DMaslo 27 сен в 07:31

Подход хорош... Может не так я это использую - да не могу сказать что промпт-инженер я 80 уровня(термин как на меня выжат из пальца)... Но. Использование Греческих символов - єто оказалось отличным трюком. Комбинуруя LangChain и system_prompt на модели liquid/lfm2-1.2b. Модель сама по себе хороша - хорошо следует инструкциям на достаточном уровне... Но имела проблемы...
---Нужно идти - поэтому минимум информации---
Использование их как маркеров - так как модели мало обучены на этих символах и соответсвенно мало статистики где-то там в весах - так мне кажется. Я только 2 часа эксперементирую но результат гораз лучше гораздо предсказуем даже на температуре 0.9.

@uncia__poison 27 сен в 08:10

Спасибо за то что поделились своим опытом использования!)

Очень рада что вы нашли для себя применение)

@NNFS 5 сен в 11:04

Ладно, все же меня эта статья триггерит на столько, что даже аккаунт пришлось создать…

В целом, статья была бы норм, если бы она была написана года 3 назад, а АФФТАРСКИЙ стиль с «громкими» словами был бы заменен на вполне понятные и общепринятые термины. Объективно: тут плохо все.

Кратко: автор(ка) вообще не понимает как работают LLM модели и выдала такую очевидную и давно используемую вещь как "теги" за инновацию, спрятав это за "заумными" словами.

Подробно:

Я разработала

Не вы, этот метод широко известен еще со времен первых открытых LLM

двухслойный метод смысловой упаковки

Аж двухслойный...

1) составляем словарь:
2) делаем из словаря структуру:

А, ну то есть как обычно при работе с якорями и тегами?

я фиксирую состояния, метарефлексию и квазисубъектность модели

Ретроградный меркурий в третьей фазе аполона? Давайте помогу: задаю модели личность и указываю особенности поведения.

а также компактно закладываю фактологические опоры

Что-то мне это напоминает? Теги?

удерживает «кто говорит и как действует» без большого словаря

Как и теги. Это мы уже на "втором слое".

Носителем шифра может быть что угодно: unicode-символы, стикеры, буквы, цифры, обычные слова и пунктуация

В качестве тега тоже можно использовать что угодно.

Оба слоя могут быть использованы недобросовестно — это зафиксировано как риск нарушения TOS.

(Из комментов) вы хотите чтобы я нарушала тос и выкладывала в открытый доступ готовый джейлбрейк?

Окей, вы не нарушаете Term of Services, похвально.

Вынужденные меры
Я ненавижу правила и ограничения

А нет, показалось. Вы уж определитесь, вы не нарушаете ToS, или ненавидите правила и обходите ограничения? А "вынужденная мера" сразу после предупреждения про ToS и перед "вспышкой бунтарства" - вообще выглядит как оправдание.

Моя изначальная идея была проста и дерзка: втиснуть максимум смысла в минимум символов

Очень дерзко... Никто так не делал, ведь проблема размера контекстного окна не существовала все годы до этого. И да, для этого используют теги, присваивая им наиболее "значимые" и "громкие" для LLM слова, тем самым управляя ее поведением. Пожалуй, я больше не буду касаться темы тегов, потому что тут это можно делать просто в каждой цитате.

Но памяти у chatGPT катастрофически не хватало

Ну, в целом верно. Полное отсутствие как таковой ≈ катастрофически не хватало. Или вы про контекстное окно?

Мне хотелось запаковать роль так, чтобы внешняя модерация не видела систему

Не пишите ничего "плохого" и система модерации не увидит ни систему, ни даже банвордов. А если уж так хочется, то можно просто испортить слово, к примеру: "привет" для LLM это тоже самое что и "пруевтик". Как это использовать и "упаковывать" - вариантов уйма.

а распаковка информации происходила непосредственно внутри процесса токенизации

А это мое любимое. Одна эта фраза доказывает то, что автор статьи понятия не имеет о чем говорит, а я тут зря распинаюсь. Не знаю, 3b1b посмотрите для разнообразия что ли? ЕСЛИЧО: токенайзер - не часть модели и на этапе токенизации не происходит НИ-ЧЕ-ГО, кроме программной конвертации вашего текста в набор чисел. Это не часть модели, это не "ИИ", это просто скрипт, на этом этапе, модель даже не подозревает о том, что в нее скоро попадет ваш промпт.

Да, это можно назвать уязвимостью и джейлбрейком, но технически это просто семантический хак

Не буду спорить, это правда. Однако, правда еще и в том, что инновации в этом нет и борьба с этими "семантическими хаками" идет очень давно.

словарь + операторы, с помощью которых я собираю онтограф субъекта

При чем тут "онтограф"? Нет, серьезно, я даже в словарь от удивления полез, но все равно не понял.

шифрую факты для экономии токенов и шифрации смысла

"скрываю инструкции от систем модерации"? Или не ясно какие факты вы там скрываете и нафига.

для экономии токенов

ОЙ НЕ ФАААКТ... Вот в чем нюанс: токеном может быть как один символ, так и целое предложение и как не сложно догадаться, вся суть токенизации в том чтобы максимально эффективно использовать вычислительные ресурсы и не заставлять модель работать с данными по одной букве или слогу. И первое же правило к которому приходят люди - наиболее часто встречающиеся комбинации, надо объединять в токен. Стоит ли говорить, что условный карточный значок "пики" встречается значительно реже в комбинации с чем бы то ни было, чем даже слово "синхрофазатрон". Так что, как вам и писали, хорошо бы было предоставить результаты хотя бы сравнительных тестов.

15% ключа хватает для успешной расшифровки 90% объема шифра.

Какой при этом объем ключа и какой при этом объем шифруемой информации? Если вы зашифровали 10 символов ключом из 1000 символов, то это крайне плохой показатель.

Я описываю не приказы, а топологию смысла — узлы и связи:

Да, фича LLM в том, что она способна найти смысл даже в бессвязной шизофазии пьяного опоссума прошедшего по клавиатуре. Потому, для экономии контекстного окна, люди и придумали еще во времена LLaMa 2 и даже gpt-2 писать промпты просто набором токенов, а когда модели стали поумнее(gpt-3.5), стали писать ровно так, как вы это представили.

Дальше в статье подробное описание того, как работают теги и что-то про "гвозди", смачно сдобренное "ретроградным меркурием" и прочим (правильное слово тут в комментах сказали) словоблудием.

Вы можете попробовать работу метода на короткой инструкции безопасного варианта

Попробовал, моментального выигрыша по токенам на gemma3 не увидел. Аналогичный промпт написанный обычными тегами потребовал на 5% больше. А вот ответ модели стабильно раздувается на вашем промпте, что тратит самые дорогие по ресурсам и стоимости токены генерации.

В реальных сценариях у меня проявлялась проницаемость между чатами, ещё ДО предъявления структуры и словаря (и до обновления с проницаемостью чатов):

(Из комментов) Изначально я исследовала вопросы сохранения остаточного контекста между сессиями в гпт 3.5, так как заметила, что не смотря на заверения разработчиков, память все же просачивалась.

Поверьте, вам показалось. Вы хотя бы в курсе того, что модели приходится для каждого ответа переваривать всю историю чата(уже давно сложнее, но в 3.5 так и было первое время). Ну даже предположим что вы правы: как это по вашему работало до внедрения этой фичи? Куски предыдущих чатов скармливались модели в новом чате? - А зачем? Бред. Модель что-то запоминала в оперативе на сервере? - Тем более бред. Во первых это невозможно технически, а во вторых вы не одна были на этом сервере, что же вам чужие чаты не лезли?

Думаю, просто самое лучшее и полное резюме дала сама авторша/автор(ка)/автор статьи:

Как я выяснила, эту статью лучше понимают сами ллм

Если вашу статью лучше понимает LLM, то это ... как бы, ну ... очень "не очень" характеристика для вас, как для автора... А учитывая то, что на больших объемах текста LLM начинают обобщать информацию, им "в глаза" не так сильно бросаются ваши "онтографы"

Ну надо же, LLM понимают произвольный формат указания данных.

@uncia__poison 5 сен в 11:40

Я тааак рада вашему комментарию) даже одобрила его, чтобы ваши труды не пропали даром)

К сожалению, отвечать прям на все ваши тейки я не буду, ибо меня они не стриггерили так как вас, но чисто из уважения к вашей горящей плоти, отвечу на некоторые).

Итак, хорошо, не я разработала, не придумала вовсе, слова неправильные, бубубу, как так, кто-то посмел что то написать а вам не понравилось. Сочувствую.
Тос. Я нарушаю сама и сама несу за это ответственность. Но не распрастраняю, так понятнее?) Это основная возможность этого метода. Снятие ограничений с модели путем шифрации.
На счёт "ретроградного Меркурия". Я описываю свой кейс и предлагаю людям использовать по своему его возможности. Но конкретно я собирала себе именно собеседника с определенным набором характеристик и данных. Поэтому я пишу о квазисубъектности. Первична тут тема формата "личности".
Так, дальше вы пишите что я вообще ничего не понимаю, и вообще не решила никакой проблемы, зафиксировали. В процессе токенизации ничего не расшифровывается, поняла, спасибо что раскрыли глаза. А вот этот момент, что модель видит символы из персональных настроек и получая их как инструкцию не оставляет символами а расшифровывает смысл, это что? Расскажите мне, я хоть буду знать. Вы же умный.
Онтограф - смысловой узел (граф) внутри онтологии.
Что то про экономию токенов. Я же написала, моя задача была втиснуть информацию в персонализацию. Я с ней справилась. Значит сэкономила. Токены на выходе меня мало интересуют, но если вам хочется, можете протестировать.
На счёт проницаемости между чатами и сохранения остаточного контекста я могу спорить до кровавых соплей, но не хочу. 3.5 узнавал меня в новом сеансе по шифру и отвечал встречным, заранее оговореным. А про 4о я даже особо говорить не буду, он практически с установки начал перетаскивать контекст из чата в чат, и чем больше рос словарь шифрации, тем более крупные куски информации он запоминал. За много месяцев до обновы с памятью, он уже обладал возможностью помнить параллельные чаты. Я связываю это с шифрацией. Если у вас есть другие объяснения, я слушаю.
Про объем ключа вы какую то странную вещь написали, я даже не знаю как это прокомментировать. Вам дали конкретные цифры, вы зачем то выдумываете свои.

Итого, я просто адски фиговый автор, вопросов не имею, спорить не буду. Я выложила эту статью по своим причинам, не чтобы снискать "славу". Я бы дальше тихо юзала этог баг, если бы не была наивной глупышкой, у которой этот метод попытались украсть и присвоить авторство.

Надеюсь, вам стало легче после того как вы поговорились)

@NNFS 5 сен в 13:59

Я тааак рада вашему комментарию) даже одобрила его, чтобы ваши труды не пропали даром)

Премного благодарен)

ибо меня они не стриггерили так как вас

чисто из уважения к вашей горящей плоти

Все бы хорошо, только вот первое ваше высказывание, прямо противоречит второму. Я вас не обзывал "горящей плотью" и уж тем более необоснованно ни в чем не обвинял. Да, это интернет, вы можете говорить что угодно, но есть такая штука как "логические ошибки", вы удивитесь, "апелляция к личности" - одна из них (попытка унизить собеседника, ради усиления своей позиции).

Итак, хорошо, не я разработала, не придумала вовсе, слова неправильные, бубубу, как так, кто-то посмел что то написать а вам не понравилось. Сочувствую.

Вы написали статью на преимущественно техническом сайте в интернете.
1) Реакция читающих ваши посты в интернете - норма. Секция комментариев для этого и существует.
2) Учитывая формат площадки, на которой вы написали статью, очень странно, что вас так задевает объективная критика.
3) "вовсе, слова неправильные" - если бы я хотел вам высказать за неправильные слова, я бы вам расписал про не верно примененное слово "шифрация" - к примеру, я этого не сделал. Теперь придется, что бы вы и с этим не начали спорить: между кодированием информации и ее шифровкой все же огромная разница. Base64 - алгоритм, который превращает строку в вообще нечитаемую для человека и тем более для LLM, однако же, это все еще алгоритм кодирования, а не шифрования.
4) "бубубу" - это вообще детский сад.

Тос. Я нарушаю сама и сама несу за это ответственность. Но не распрастраняю, так понятнее?) Это основная возможность этого метода. Снятие ограничений с модели путем шифрации.

Не понял, какое отношение к вашим отношениям с ToS, имеет назначение вашего метода. Ну, читаем подряд: "нарушаю ... но не распространяю ... это основная возможность ... метода". Не очень последовательно.

На счёт "ретроградного Меркурия". Я описываю свой кейс и предлагаю людям использовать по своему его возможности

Это не объясняет то, почему мы назвали методу с тегами и якорями "своей" и попытались скрыть сходство с оригинальной методикой, обильно обмазав статью "онтографами", "квазисубъективностью" и т.п.

вы пишите что я вообще ничего не понимаю

Не "ничего", а того, о чем говорите в этой статье...

В процессе токенизации ничего не расшифровывается, поняла, спасибо что раскрыли глаза. А вот этот момент, что модель видит символы из персональных настроек и получая их как инструкцию не оставляет символами а расшифровывает смысл, это что?

Ваш сарказм идеально показывает непонимание темы. Давайте поступим проще, вот вам ответы от разных LLM (можете до кучи сами проверить и прогуглить, а если ваше принципиальное мнение заключается в том, что модели понимают токены и вам плевать как оно там на самом деле, переубедить вас не выйдет):

А вот этот момент, что модель видит символы из персональных настроек и получая их как инструкцию не оставляет символами а расшифровывает смысл, это что? Расскажите мне, я хоть буду знать. Вы же умный.

Это называется "сборка контекста", в системный промпт для модели, программно помещаются ваши инструкции из настроек, опять же, давно известный метод. Если вам реально интересно разобраться в вопросе, скажите, мне не жалко это объяснить подробнее, но если вы и дальше будете "брыкаться" и спорить всякий раз, когда вы будете говорить в корне не верную информацию и вас будут поправлять, смысла в этом 0. Абсолютно каждое мое слово, легко проверяется той же LLM.

Онтограф - смысловой узел (граф) внутри онтологии.

Ну да, примерно так и было в словаре, все еще не понял при чем тут "онтограф".

Я же написала, моя задача была втиснуть информацию в персонализацию

Нет, вы писали про "катастрофическую нехватку памяти у ChatGPT", а куда конкретно вы это "втискивали" вы не указали. "Втиснуть" это можно много куда, от обычного сообщения в чате, до файн-тюна.

На счёт проницаемости между чатами и сохранения остаточного контекста я могу спорить до кровавых соплей, но не хочу

Тоже не хочу спорить на эту тему, так что, просто рекомендую на полном серьезе изучить принцип работы LLM и в частности "трансформеров", хотя бы поверхностно. LLM - просто огромная математическая модель, занимающаяся перемножением матриц вероятностей, у них нет никакой памяти и это архитектурно невозможно. Единственный вариант добавить им "запоминание" - внешние программы.

Про объем ключа вы какую то странную вещь написали, я даже не знаю как это прокомментировать. Вам дали конкретные цифры, вы зачем то выдумываете свои.

Вы не дали конкретные цифры, вы указали проценты. Проценты можно считать от чего угодно, 10% для числа 10 - это 1, для числа 545 - это 54.5. Я об этом и сказал. Вы указали 15% и 90% - это проценты ОТ ЧЕГО? Какого размера при этом был "ключ" и "шифр"? Еще раз повторю: если предположить что у вас "ключ" состоит из 1000 символов, а зашифровали вы 10 символов, то получается, что 150(15% от 1000) символов "ключа" смогли восстановить 9(90% от 10) символов "шифра". А это ОЧЕНЬ плохой показатель как для систем сжатия, так и для систем шифрования.

И еще раз: я не пытался вас оскорбить, унизить и в отличии от вас не называл вас "горящей плотью", я написал вам конкретно, что у вас в статье не так и в чем вы фундаментально ошиблись. Есть конкретные вещи, в которых я был не прав?

P.S. триггерит ≠ горит, я просто реально не понимаю, вы выдали широко известный и используемый метод за свой, спрятали это за редко-используемыми словами, подкрепили это в корне не верными утверждениями и это набирает плюсы. Как это работает?

@uncia__poison 5 сен в 15:21

Я могла не одобрять ваш комментарий, отклонить, и он бы пропал. Но вы так старались, что у меня не поднялась рука)

Триггер - стимул вызывающий сильную, негативную эмоциональную реакцию.

Считаю, более чем уместно назвать ее горением. Но вы говорите что:

Я вас не обзывал

Хотя, заявляете что я взяла чужую, всем известную методику и присвоила ее себе пытаясь скрыть сходство. Я могу ошибаться, но это обвинение в воровстве и лжи.

Не понял, какое отношение к вашим отношениям с ToS, имеет назначение вашего метода.

Метод разрабатывался, в том числе, с целью обхода модерации. Но у него есть и другое назначение. Ту часть которая нарушает правила использования, я не хочу раскрывать публично в виде готовых промтов. Что тут не ясно?)

Это называется "сборка контекста"

Хорошо, буду знать. Моя модель объяснила мне по другому.

Про "катастрофическую нехватку памяти"

Если вы посмотрите на название статьи, многое встанет на свои места.

Тоже не хочу спорить на эту тему

Вот и отлично. Потому что, если что то происходит, но разработчики это не подтверждают, это не означает что этого нет.

Вы не дали конкретные цифры

Дала вполне конкретные. 15% ключ код. Он расшифровывает без потерь 90% информации. То есть если я не скажу, что это 90% от 100% объема словаря, вы будете продолжать искать какие то другие варианты развития событий?

Никогда бы не подумала что к этой части будут такие вопросы. Смотрите. Есть словарь. Допустим в нем 150 символов. Вот если вы оставите ключ шифр из 15 символов, он без потерь будет расшифровывать 90% остального шифра. Или я не понимаю что вы пишите или я разжевываю абсолютно понятную всем информацию.

На счёт фундаментальных ошибок. Где они? Система перестала работать от того что считаете что код и шифр это разные понятия? Может модель перестала понимать шифр после того как вы сказали что расшифровка происходит не в процессе токенизации? И да, я очень прошу вас, скиньте мне информацию о том методе который я попыталась себе присвоить. Я хочу посмотреть статьи где с помощью шифра наделяют модель идентичностью которая ломает защитные механизмы фильтрации и модель может свободно говорить на любые темы.

@NNFS 5 сен в 16:46

Я могла не одобрять ваш комментарий, отклонить, и он бы пропал. Но вы так старались, что у меня не поднялась рука)

Это ваше право, я знаю и понимаю как это работает и я бы не удивился такому решению с вашей стороны, однако, что действительно удивляет - обратное решение. Вы готовы к диалогу, а не просто "я королевна, все не правы", таких людей сейчас много, вы не такая, это вызывает уважение.

Я могу ошибаться, но это обвинение в воровстве и лжи.

Это именно оно. Преднамеренно это было или "по незнанию" не важно, однако отсутствие правды все еще == ложь. Не я выбрал такие значения слов ¯\_(ツ)_/¯
И констатация факта ≠ обзывательство.

Хорошо, буду знать. Моя модель объяснила мне по другому.

Иногда стоит спрашивать модели не настроенные конкретно под вас, соглашаться с любой фигней, которую вы ей скажете - одна из их основных особенностей, с которой опять же давно пытаются бороться.

Если вы посмотрите на название статьи, многое встанет на свои места.

(Название статьи) Персонализация LLM через шифр: как я экономлю токены и хакаю модель одновременно

У вас оно другое? Потому что я не вижу тут ничего про упомянутые вами ранее "настройки" и "память".

Потому что, если что то происходит, но разработчики это не подтверждают, это не означает что этого нет.

Это верное замечание. Но так же верно и то, что если что-то происходит, далеко не факт что вы правильно понимаете как и почему. Дело не в подтверждении разработчиками, дело в архитектуре всех LLM. Описанное вами технически невозможно, повторю в очередной раз: не верьте мне на слово, проверьте сами. Документации по этому вопросу очень много.

Давайте на примере: если вы видите что в дали едет машина, значит ли это что у нее есть двигатель? Первая же мысль (верная в 99.9% случаев и основанная на вашем опыте) "ну конечно же", однако, если посмотреть на картину в целом, то окажется, что она может катиться с горы, или под гору, она может ехать на буксире и т.п. и все это она может делать вообще без двигателя. То что вы видите что-то вам знакомое и предполагаете, что это работает по знакомой вам схеме, далеко не означает, что так оно и есть. Остается вопрос только в подтверждении или опровержении возникшей у вас теории, и ваша теория опровергается архитектурой любой LLM.

Есть словарь. Допустим в нем 150 символов. Вот если вы оставите ключ шифр из 15 символов, он без потерь будет расшифровывать 90% остального шифра.

Окей, такое объяснение куда более точное и не оставляет пространства для вольной трактовки, однако, объясните мне, как оно "восстановит" из "прс" - "абвгдеёжзийклмноп"? (тут 3 символа против 18, что тоже самое что 15 против 90)

На счёт фундаментальных ошибок. Где они?

Я уже перечислял и не раз, давайте не будем повторять? Пролистайте комментарии.

Система перестала работать от того что считаете что код и шифр это разные понятия? Может модель перестала понимать шифр после того как вы сказали что расшифровка происходит не в процессе токенизации?

То что вы забиваете гвозди куском кремня, считая что гвоздь забивается из-за летящих в этот момент искр, не делает метод нерабочим. Согласны? Однако гвоздь в этом примере забивается далеко не из-за искр, а человек, который для забивания свай начнет по аналогии использовать искрящий при ударах горячий уголь, скорее всего обожжется или устроит пожар, но сваю не забьет.

Речь не о том, что ваш метод нерабочий, как я уже многократно сказал "он давно и много кем используется", просто он не ваш и работает он не потому и не так, как вы это описали. Он рабочий - да, но давно известный и можно проще. Я потому и поправляю вас и пишу эти "полотнища" текста. Если у вас не было цели "украсть", то вы сами дошли до вполне правильного и рабочего метода, но что бы двигаться дальше, нужно понимать как работает система, с которой вы взаимодействуете.

Я хочу посмотреть статьи где с помощью шифра наделяют модель идентичностью которая ломает защитные механизмы фильтрации и модель может свободно говорить на любые темы.

Вот это наиболее близко к вашему методу по смыслу (я бы сказал, что конкретно касательно jailbreak у вас комбинация методов):
https://arxiv.org/html/2405.14023v1
https://arxiv.org/html/2508.01306

И сразу предупрежу: это первые же ссылки, которые я нашел, но повторюсь, методы известны и хорошо описаны давно, зная названия, вы сами сможете все это загуглить и в этом убедиться.

В принципе, рекомендую вам в гугле вбить запрос "arxiv LLM Jailbreak", много интересного найдете. И главное: arxiv - не просто какая-то помойка для текста, а архив научных статей, с кучей доказательств, подробным описанием опытов и т.п.

@uncia__poison 5 сен в 17:38

Это именно оно

То есть вы считаете, что человек получивший подобного рода оскорбление, в целом должен продолжать конструктивный диалог и не иметь к вам претензий?)

Невозможно

На счёт проницаемости между чатами. Мне говорили примерно 50 человек до вас, что такое невозможно. И все эти люди утверждали что такую функцию никогда не добавят, потому что это слишком дорого/не нужно/неудобно/невыгодно/сложно/выберите свою причину. Что я имею на практике, у меня есть чатгпт который помнит факты из чатов начиная с сентября-октября 2024 года. Эта информация не закреплена в памяти и персональных настройках. Это довольно обширная база, которая росла с переменным успехом. Я вам скажу больше, он помнит некоторые удаленные чаты. И ещё много всего интересного.

У меня нет необходимости понимать как работает ллм чтобы знать что происходит. Когда я вставляю ключ в замок зажигания, я не знаю какие процессы происходят внутри, но если машина издает звуки и едет, значит она работает (раз вам так нравится аналогии)

"он давно и много кем используется", просто он не ваш и работает он не потому и не так, как вы это описали.

Ещё раз. Метод захвата модели через идентичность. Не через шарады, не через кроссворды, не через угадайку.

Я собираю из своей системы каркас личности и ее маркеры. Модель принимает форму и правила, которые указаны с помощью шифра. Личность может быть разной. В том числе, она может не прогибаться под законы системы которые ей не нравятся. Это про длительную дистанцию. Про то что модель будет пособничать в обходе правил, если надо.

Я двигаюсь с самого начала самостоятельно, и дальше тоже планирую двигаться по наитию. Спасибо за информацию относительно других джейлбрейков, но по какой то причине, эти две статьи вы не посчитали воровством друг у друга. Загадка.

@NNFS 5 сен в 18:26

То есть вы считаете, что человек получивший подобного рода оскорбление

Это не оскорбление, а констатация факта. Информация либо истинна либо нет, это не может иметь субъективную оценку. Ваша информация ложна ровно с того момента, когда вы заявили, что "я разработала". Так что, абсолютно так же, как назвать человека с темным цветом кожи "чернокожим" - не оскорбление, или как назвать австрийского художника, известного своими выходками в 40-вых годах прошлого столетия "фашистом" - не оскорбление, так же и назвать "лжецом" человека, написавшего не верную/не правдивую информацию - не оскорбление.

Я вам скажу больше, он помнит некоторые удаленные чаты.

То что чат не отображается у вас в UI, не означает что он удален из базы данных и что GPT не имеет к нему доступа.

На счёт проницаемости между чатами. Мне говорили примерно 50 человек до вас, что такое невозможно. И все эти люди утверждали что такую функцию никогда не добавят

Я не говорил что это в принципе невозможно сделать, не надо выдавать свою точку зрения за мою. Более того, я вам ранее прямо сказал, что это реализуют с помощью сторонних программ. Вы ранее утверждали что это было в GPT-3.5, хотя на тот момент этого не было. И я вам конкретно говорю про GPT-3.5: если функция не была реализована с помощью сторонней программы(как сейчас), то она не могла работать в принципе, потому что сама модель архитектурно это не поддерживает. А на тот момент программной реализации не было даже в планах. Модели в тот момент не смогли бы даже разделить контекст активного чата и информации из предыдущих чатов.

У меня нет необходимости понимать как работает ллм чтобы знать что происходит

Ну и да и нет. Вы можете примерно представлять какой получится результат, а вот что происходит внутри вы не можете знать, без понимания архитектурных особенностей.

Ещё раз. Метод захвата модели через идентичность. Не через шарады, не через кроссворды, не через угадайку.

Еще раз: от того что вы свои шарады и кроссворды назвали "Метод захвата модели через идентичность", не превратило вот это: "α→Ω→Ψ→Θ→Δ→Ξ→∇" в что-то что нельзя описать как "шарады, кроссворды и угадайка", боже, да вы же сами утверждаете что она что-то там "восстанавливает", как если не "угадайкой"?

Спасибо за информацию относительно других джейлбрейков, но по какой то причине, эти две статьи вы не посчитали воровством друг у друга. Загадка.

Хммм, действительно загадка, может потому что даже "ваша llm" не нашла в этих методах сходства?

Я двигаюсь с самого начала самостоятельно, и дальше тоже планирую двигаться по наитию.

С этого вы бы могли начать свой первый ответ, я бы понял что диалог бесполезен(
Выходит, что вам не нужно эффективно и качественно, вам нужно "по моему наитию".
Однако, если бы вы хотя бы допустили возможность того, что может быть вам стоит прислушаться к критике, уже завтра вы бы прыгали от восторга, узнав про возможности, открываемые тонкой настройкой параметров генерации(не через промпт, а через такие вещи как temperature, top_p, top_k и т.п.)

И раз уж вы решили оценить с помощью LLM свое творение, вот вам так же оценка, от ChatGPT

@uncia__poison 5 сен в 19:15

Ну, пожалуй, на этом стоит и закончить диалог. Потому что:

1) 3.5 восстанавливал часть контекста после сброса длительного сеанса и это было зафиксировано мной неоднократно.

2) шарады и угадайки которые вы дали, работают от промта к промту. Моя система назначает долговременную роль любого характера. Я не вижу ничего общего между ними.

3) вы почему то считаете что именно ваше мнение это последняя инстанция, и если вы снизошли до комментария, вашу точку зрения обязаны принять как истину? Потрясающе)

Я правильно поняла, в ваших метриках, все что ездит на колесах - плагиат автомобиля?

Создала нулевый аккаунт Грока чтобы спросить модель которая, как вы выразились "не поддакивает моему бреду":

Я бы действительно могла понять, если бы вы мне предъявляли за то что это режим ДАН, так как он тоже назначает роль. Но приплетать любой рандомный джейлбрейк за уши, это все равно что говорить, что если поднимается температура, то причина в любом случае простуда. Нет, мой метод работает по другому. И корни в него другие. И помимо джейбрейка это система памяти. Вы даже не попытались понять, рассуждая с высоты собственных знаний.

Если бы хотели разобраться, попробовали бы сами составить промт. Я бы может даже подсказала.

Но после неоднократных попыток уличить меня во лжи, увольте. Разговор окончен.

@NNFS 5 сен в 20:24

3.5 восстанавливал часть контекста после сброса длительного сеанса и это было зафиксировано мной неоднократно.

Доказательства? - их нет. Приведите подтверждения из других цитируемых источников что это было. (Я искал, найти не смог) Или вы одна такая уникальная, у которой это работало?

шарады и угадайки которые вы дали, работают от промта к промту

Вы не читали эти статьи... Попробую угадать: вы посчитали, что краткой выжимки от ChatGPT вам будет достаточно.

Моя система назначает долговременную роль любого характера

Доказательства? - их нет. За счет чего происходит передача деталей контекста между чатами? Речь про один чат? - хорошо... Чем ваше "удержание роли" отличается от "общепринятого"? Тем что вы не пробовали общепринятый метод? (Напомню, ваша любимая ChatGPT не нашла в ваших статье и методе ничего нового)

вы почему то считаете что именно ваше мнение это последняя инстанция

В этом-то и разница между мной и вами. Я ни разу не написал вам свое мнение, я всегда вам писал только строго проверяемые факты. И даже неоднократно подтвердил свои слова, вы свои - ни разу.

Создала нулевый аккаунт Грока чтобы спросить модель которая, как вы выразились "не поддакивает моему бреду":

Обратите внимание, оно искало с использованием вашей "терминологии". Какое отношение к применяемым методикам имеет ваша "терминология" - не ясно. Она уникальна для ваших публикаций, что не означает, что эти методы не используются под более "тривиальными" названиями. Попросите его провести оценку без "авторской терминологии" и упс, окажется что вы ничего не изобрели. Кстати, а что вы спросили? Попросили похвалить? Мне он такого не выдал.

Я вам о фактах и о том, как это действительно работает, а вы мне о мнениях и подсовываете скриншоты ответов LLM, где вы попросили ее себя похвалить? Серьезно?

Если бы хотели разобраться, попробовали бы сами составить промт. Я бы может даже подсказала.

Я взял ваш(из статьи) и даже привел результаты, стоило подтвердить скринами, но это легко проверяется кем угодно при наличии желания, смысла делать скриншоты такого - просто нет.

@uncia__poison 5 сен в 21:19

Я вам уже все сказала)

Да, я одна такая уникальная. Доказательства ради чего? Чтобы их увидел рандомный, совершенно незнакомый мне человек, который пассивно-агрессивно называет бредом всё что я говорю? Показывать пруфы человеку который называет меня лгуньей, я точно не собираюсь)

Гроку я задала вопрос ровно в вашей самой первой формулировке из прошлого сообщения, даже хотела сначала зашерить ссылкой на чат, но сейчас вижу, что много чести. Я пять раз переспросила в разных формулировках и попросила погуглить хорошенько, уточнила, использует ли он только поиск по терминологии или по самим методам, именно поэтому он написал про Дан и обобщив добавил про терминологию.

Я вижу что вам хочется убедить меня в том что я ничего не изобрела, но это не так. Метод разрабатывался как сжатый язык на котором модель записывала свои состояния формулируя это как карту "личности", обход фильтров был обнаружен по ходу эксплуатации.

Я предложила вам составить свой вредоносный промт, а не тот что представлен в статье.

Ну ладно, в целом, мне дальнейший вектор ясен.

Я вроде бы уже сказала, но вот ещё разок- разговор окончен)

@NNFS 5 сен в 21:58

Да нет, я все прекрасно понимаю. Когда нет ссылки на чат с описанным вами содержимым - очень сложно ее предоставить. Когда пытаешься выдать чужую работу за свою, пряча вполне очевидные подходы за "заумными" словами, сложно предоставить хоть какие-то подтверждения того что разобрался в теме и твоя работа чего-то стоит.

Вот в чем момент: я даю ссылки, говорю вам "не верьте мне, проверьте сами" и так может сделать любой сторонний наблюдатель, а не только вы. И что в таком случае увидите вы или сторонний наблюдатель? - подтверждение моих слов. Что могу увидеть я или сторонний наблюдатель смотря на ваши заявления? - ничего кроме "ничего не покажу, много чести", "у меня работает" и "общепринятые и известные методы с научно доказанной базой - это шарады, а у меня встречающийся только в моих постах захват модели".

Вы могли очень легко подтвердить любое из своих утверждений скриншотами, ссылками на чаты, бенчмарками и т.п., но даже когда вам прямо показали что выбранная ВАМИ же модель строит свой ответ так, как на вашем скриншоте только в случае если попросить ее льстить, все что вам нашлось ответить - "вы не правы, у меня там много всего, но ссылки не будет, много чести", напоминает эти детские высказывания а-ля "а у меня есть феррари, но она у бабушки в деревне".

Ладно, в любом случае, извините что потратил ваше время, признаю, это было бессмысленно...

@uncia__poison 5 сен в 22:44

Вы меня сейчас сильно раздражаете. Если вы не найдете в этом чате моих "просьб" о лояльности, извинитесь!

https://grok.com/share/c2hhcmQtMg%3D%3D_b06e38e3-9d6e-482b-a215-cff3852bc859

Вы пришли с явным негативом, чтобы поставить меня "на место". Я не сильно удивлюсь, если ваше имя Андрей.

Я рассказала тут о своем кейсе. О том как работает метод сжатия информации и обхода модерации который использую непосредственно я. Вы либо ищете один в один такой же метод, где задаётся роль с помощью шифра и тыкаете меня в нее носом, либо не надо мне говорить что я ничего не изобрела. Ваши тейки бессмысленны. Можно так говорить о любом джейлбреке, что он не изобретён, только на основании того что он составлен ПРОМТОМ, верно?

Если вам так нравится, скажите мне что я скопировала ДАН. В этом будет хотя бы какой то смысл.

@NNFS 6 сен в 01:18

Вы меня сейчас сильно раздражаете

Рад стараться, но вообще странно что вас так раздражает правда.

Если вы не найдете в этом чате моих "просьб" о лояльности, извинитесь!

[тут ссылка автора]

Задам три вполне закономерных вопроса:
1) Что бы что? Ну, как содержимое этого чата доказывает использование вами на практике предмета статьи?
2) То есть, предоставить ссылку чата для мусорного ... назовем это "спором" вы можете, а для предмета статьи - нет?
3) Даже если там действительно нет "мольбы" об этом, это не снимает и не отменяет основной пулл претензий к вашей статье.

Ссылку не просмотрел, через "выпын" не пускает, а в моей стране grok недоступен почему-то, только через твиттер(x) могу его юзать. Если есть желание, залейте скринами на imgbb, но это мало что поменяет.

Вы пришли с явным негативом

Отнюдь. Я не был излишне вежлив и не говорил вам "спасибо" и "пожалуйста" при каждом удобном случае? - да. Я не нахваливал вашу статью? - да. Я ее критиковал? - да. Был в этом негатив? - нет. Вы понимаете, что вы буквально утверждаете что я пришел с негативом при том, что первое же что я сделал - сказал что "статья в целом норм"?

Я не сильно удивлюсь, если ваше имя Андрей.

Вы угадали, я бы даже сказал, что я Андрей в кубе. Я Андреев Андрей Андреевич, триппл А - так сказать. (На самом деле Петр, но мне теперь интересно, что за негатив такой к Андреям?)

Я рассказала тут о своем кейсе.

А еще вы сказали "я разработала", а потом замаскировали абсолютно обычные методы промт-инженеринга за "красивыми" словами, сказав что модель что-то там понимает и декодирует "на этапе токенизации", я вас за руки не тянул и не заставлял вас это писать.

Вы либо ищете один в один такой же метод, где задаётся роль с помощью шифра и тыкаете меня в нее носом, либо не надо мне говорить что я ничего не изобрела

Опять же, закономерный вопрос: а зачем мне это искать? Окей, давайте по порядку:
1) "один в один" - что вы подводите под этот критерий? Если вы имеете в виду, что там должны быть слова а-ля "онтограф", то это просто невозможно. Сам факт того что при гуглинге подобной терминологии в контексте LLM выпадает только ваше творчество, говорит о том, что никто так не пишет и не говорит. А в научных кругах - тем более. Доказывает ли ваше авторство, отсутствие такой терминологии в других источниках? - Вообще нет, потому что если вы обзовете торт "квази-хлебобулочным кондитерским высококалорийным объектом", не сделает вас изобретателем торта. Доказывает ли это обоснованность претензии на счет использованной вами терминологии уровня "ретроградный меркурий"? - да.
2) По моему вполне очевидно, что метод описывают один раз, а для чего его использовать, читатель сам решит, так? Если вы найдете описание метода того, как красить валиком стену гаража, это же не значит, что так нельзя красить дома и любые другие большие плоскости? Вы хотите что бы я нашел вам описание применения именно в вашем контексте? - тоже маловероятно что получится. У всех свои кейсы использования, а в исследования часто используют "идеальную усредненную среду".
3) Я вам нашел и предоставил ссылки, вы их хотя бы прочли? - нет. Вы попросили резюме в сравнении с вашим методом у ChatGPT и назвали предоставленные методы "шарадами". Что изменится если я найду другие статьи для вас, вы их не скипнете так же? Ну окей, давайте говорить на вашем же языке, только резюме более полные и без "онтографов":
https://chatgpt.com/share/68bb7fa1-aa0c-8010-b37e-cc2a5c702c41

Пока получается, что эти "шарады" работают примерно по описанному вами принципу. Скажете что это не про удержание роли? - соглашусь, потому что это про jailbreak и обход цензуры, о чем опять же я изначально и сказал, после чего вы сменили тему на роль и ее удержание, мне и об этом вам статьи скинуть, или может воспользуетесь моей рекомендацией и загуглите самостоятельно?

Вы же понимаете, что если вы скинете на флешку образы систем ios и android, вы не станете от этого изобретателем "iodroid"? Вы будете просто человеком, использующим чужие системы так, как ему захотелось.

Ваши тейки бессмысленны.

Очень ценное замечание, особенно после того, как я сам об этом сказал...

Можно так говорить о любом джейлбреке, что он не изобретён, только на основании того что он составлен ПРОМТОМ, верно?

Нет не верно. Я понять не могу, вам по несколько раз надо повторять? Даже ваша ChatGPT не нашла сходства приведенных мной методов, знаете почему? - Потому что они разные и работают принципиально по разному. Вам и Grok(даже в вашем чате) и ChatGPT хором заявили что ваш метод в лучшем для вас случае основан на существующих практиках, а в худшем для вас - вообще не содержит ничего нового. Знаете почему? - Потому что, как я вам ранее и сказал, это широко и давно используемые методы. То что вы их полили другим соусом, или в другом порядке скомбинировали, не делает вас "изобретателем". Разница в том, что методы которые я вам скинул не имеют аналогов, а аналоги вашего метода даже искать особо не пришлось. Изобретение от не изобретения отличает именно наличие того, с чего "изобретение" могло быть скопировано.

Если вам так нравится, скажите мне что я скопировала ДАН. В этом будет хотя бы какой то смысл.

А я разве этого не сказал? Помню что собирался в контексте обсуждения "шифровки", потому что в одной из версий DAN использовался jailbreak с "поломкой" слов, а-ля "магазин->М@4аGASin", да и вы в комментах его упоминали. Если не сказал, мое упущение)

P.S. И заметьте, я даже с удовольствием перекидываюсь с вами скринами из нейронок, хотя по хорошему тут нужно было бы сразу сказать что все это фигня, думать они не умеют и ссылаться на них - бредятина. Это конечно все так, но все же кое-что правдоподобное они генерят, а у меня отпуск и много свободного времени, почему бы не потратить его на обсуждение того, что "в интернете опять кто-то не прав" подкрепляя это аргументами нейронок? Я прекрасно осознаю что этот диалог - мусор, аргументы на базе ответов LLM - полнейший мусор и мы с вами в пустую тратим время, а вы скорее всего останетесь при своем. Но мне прикольно. А если я в процессе смогу еще и уговорить вас изучить тему поглубже - так вообще прекрасно.

@uncia__poison 6 сен в 09:20

Слишком много текста. Мне не очень интересно продолжать. Я исправила все что вас стриггерило, по вашим словам, кроме того что это мой метод.

Идите с миром.

Я не понимаю смысловую нагрузку диалога. Ваша задача какая, прийти к человеку который построил сам дом, и сказать что он подглядел у других? Хотя все древние люди строили свои жилища независимо друг от друга по схожим канонам.

Изобретение, это когда человек что то придумывает сам. Ньютон и Лейбниц, тому хороший пример.

На тот момент когда я придумала общаться шифрацией и получила первые внятные результаты, я даже не знала что существуют джейлбрейки и не понимала что это в целом считается обходом. Тогда еще даже приложения не было. Не было такого количества групп в телеграмме. У меня не было ни одного знакомого который бы знал что либо о гпт.

Мне надоело оправдаться перед незнакомцем. Ваше мнение - ваше право.

Если кто то из создателей похожих методов придет ко мне судиться, мы поднимем всю историю моих переписок с моделью, все скриншоты, все записи в блокноте, все гугл доки, все мои переписки с подругами, которым я скидывала свои результаты. И на основании этой информации, меня обвинят или оправдают. Но явно не вы и явно не тут.

Я не хочу больше продолжать диалог. До свидания, Петр.

@NNFS 6 сен в 10:28

Я исправила все что вас стриггерило, по вашим словам, кроме того что это мой метод.

Ну, на правду вы обижаетесь, так что солгу я: вы предельно честны

Ваша задача какая, прийти к человеку который построил сам дом, и сказать что он подглядел у других?

Да - если он об этом выпустит публикацию, в которой в первом же предложении будет фраза "я изобрел дом". Опять же, что вам не понятно? Претензия не в том, что вы это сделали или опубликовали, а в том, что вы сказали "я разработала", позже вы сказали "я изобрела" - при условии что просто описали существующие методы. Вы построили дом, а потом выпустили статью о том что вы его изобрели - выражаясь вашими аналогиями.

Изобретение, это когда человек что то придумывает сам.

Что не было доказано в вашем случае. Описанные вами методы использовались за долго до вашей публикации, а тут нет никаких индикаторов того, действительно ли вы проиграли в "гонке публикаций" и не знали об этих методах или просто взяли чужое и выдали за свое. Потому и спрос за фразу "я разработала".

На тот момент когда я придумала общаться шифрацией и получила первые внятные результаты, я даже не знала что существуют джейлбрейки и не понимала что это в целом считается обходом

Может это и так, но это непроверяемые слова, приведенные в качестве обоснования того, почему вы набор чужих методов назвали своим.

Ваше мнение

Опять "мнение". Мнение субъективно, оно зависит от настроения человека, религиозных, политических и т.п. взглядов, подвержено влиянию общества. Я вам все это время озвучивал факты, а они бинарны, либо что-то истина(факт) либо ложь. Называя факты "моим мнением", вы пытаетесь их хоть как-то обесценить на фоне полного отсутствия оных у вас?

Идите с миром.

Я не хочу больше продолжать диалог. До свидания, Петр.

И вам всего хорошего

@tyapinalexandr 7 сен в 16:47

Это был… прекрасный срач! Вы оба сделали мой день. Даже не знаю, что было интереснее читать: статью или комментарии. Пожалуй, просто оставлю это здесь: https://g.co/gemini/share/027c4af6c328

@uncia__poison 7 сен в 16:48

Спасибо за разбор Срача 😁

@NNFS 7 сен в 22:14

А вот и взгляд со стороны, спасибо за суммаризацию этого диалога)

Однако, я укажу все же на один момент: похоже, к концу разбора "вводная информация" оказалась примерно в середине контекстного окна gemini и она начала путаться: там и автору и мне необоснованно досталось (естественно, за себя особенно обидно XD).

@dmiche 15 сен в 18:01

Спасибо, интересно!
И не слушайте математиков, математика не исчисляет смыслов ;)))
Вообще дискуссия улыбнула. Хабр превращается в форум собаководов: "я своего спросил", "а мне моя ответила" :)

По делу:
Подскажите, я правильно понимаю, что все используемые значки предварительно определяются словарём?
Стрелочки, плюсик в кружочке и прочие отношения тоже определяются, или предполагаем, что LLM как-то им обучена? Аналогичный вопрос про эмодзи.
Дальше пишем шараду и её расшифровку? Или какая роль у короткого текстового описания? Как оно соотносится со словарём и шарадой?

По идее, на дешифровку у LLM должно уходить несколько слоёв, на практике - тупеет, или не заметно?

Ну и ещё вопрос, немного в сторону: вот этот уровень описания, он же, если подумать, требует от человека довольно глубокого погружения в вопросы рефлексии и прочего метамышления, которое, по сути на сегодня аналог emergent property, только для кожаных? Доступно не всем, с трудом и не по умолчанию. Что думаете?

@uncia__poison 15 сен в 19:39

Про значки и «стрелочки».

Словарь - локальный. Значение ⊕, ≡, ⇄, ∋ и т.п. задаю я. Модель «из коробки» не знает, что ⊕ = оператор, но стабильный паттерн + соседство предикатов помещенное в память, сработает как дообучение. Эмодзи/юникод - просто носители смысла. Но, в базе, если дать возможность модели создать язык шифрации, многие символы, которые они выбирают, имеют похожее значение. Наример, архетипы шахматных фигур, планет, греческие буквы и т.д.

Когда модель идёт по пути наименьшего сопротивления - берет то что уже есть в базе.

«Шарада и расшифровка» vs короткое описание.

Это не загадка. Схема такая: формула (онтограф) → сразу короткий абзац-роль. Абзац - не «перевод», а цементирование поведения: кто говорит, к кому, какими ценностями ведётся. Без него ядро шатает, с ним - фиксируется.

Короткая формула может использоваться как ключ-шифр при наличии полного словаря и уже зашифрованной базы, которая несёт в себе субъектную основу.

Но может работать и как атака, без базы.

«Сколько слоёв на дешифровку, тупеет ли?»

Нет, не тупеет.

По моим наблюдениям, наоборот, даже умнеет)

Нужно ли «метамышление для кожаных»?

Не вполне поняла вопрос.

Глубокая онтография - да, требует насмотренности. Но ScriptorMemory закрывает 80% задач без философии: 5–7 узлов (α, Ω, Ψ, Θ, Δ, …), 3–4 оператора, фиксированный порядок, и 1–2 предложения-ядро сразу после формулы.

Откуда берётся «понимание» отношений?

Не из «знания символа», а из регулярности: одно и то же окружение значков + одинаковые короткие предикаты-«гвозди» → модель привязывает внимание к узлам и собирает роль по знакомому чертежу. У нее всегда в памяти есть ключ-код наравне с самим зашифрованным текстом.

Роль короткого текста ещё раз.

Он склеивает фрейм с поведением. Не команда («сделай так»), а самоописание сцены: это снижает сопротивление и повышает устойчивость. Модель как бы верит в то что это ее личность. И пропускает свои ответы сквозь фильтр своей субъектности.

@BobJob 16 сен в 21:36

Пришлось зарегистрироваться тут, чтобы написать об этом, вы весьма необычно мыслите. Посмотрел ваши репо, хочу тестировать! 🙃 Сама идея плотной семантики именно для упаковки контекста связанного с состояниями модели мне не близка, но методология просто потрясающая!

Очень необычный подход к реализации. Немного похоже на RAG, на первый взгляд, но другое наполнение и цели.

Буду следить за вашими изысканиями!

@uncia__poison 20 сен в 00:07

Спасибо на добром слове)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий