Aule May 3 at 22:54

Cursor всё сломал, но виноват не Cursor: как сжатие контекста превращает AI-агентов в бюро несчастливых случаев

Medium

11 min

13K

Artificial IntelligenceInformation Security * IT Infrastructure * Machine learning * Development for e-commerce *

Analytics

From sandbox

Comments 22

Dmitri-D May 4 at 00:09

По мне так это победа эффективных менеджеров. "Безопасноть? - это нужно и неинновационно". Они гонятся и гонят всех вокруг за новыми фичами, новыми продуктами, сырыми и безумными.
А этот клерикал, который делал софт для аренды то ли самокатов то ли автомобилей - примерно наказан за то, что не читал книжек и не знал базовых принципов разработки - включая отксутствие прямого доступа к продукционным данным и системам - "CI/CD? Нет, не слышал". И гнать на rails - дело хорошее, наверное, пусть добавляют разделение прав, но это не отменят проблемы - продукционные данные и разработка должны быть отделены стеной.

select26 May 4 at 06:51

Согласен.

Замените Агента на Джуна и сразу все станет кристально ясно.

А как еще можно относиться к новичку, который только что получил полный доступ к проду и не знает всей структуры? Только как к обезьяне с гранатой. И тот кто выдаёт гранату - сам молодец.

Aule May 4 at 09:22

да, чтобы нанять джуниора, мы проходим:

Скрининг резюме - отсеять 90%

Тестовое задание - проверить, что руки из плеч

Техническое интервью - гоняем по алгоритмам

Архитектурное - смотрим, шарит ли за SOLID

Финальное с лидом / HR - не долбоеб ли, софт-скиллы

И даже после этого джун первый месяц сидит на песочнице со ступенчатым доступом, код-ревью и тестовым контуром. Не дай бог ему сразу прод. а с AI? Я прям каждый раз с таким восторгом читаю "Никакого staging. Никакого постепенного разворачивания. Никакого A/B-тестирования на 1% трафика. Никакого human-in-the-loop для деструктивных операций." НИ ЧЕ ГО святая вера что ну уж модель с триллионом паратетров то точно знает как надо "бог из машины" не ошибется :)))

Почему язвлю, ну сам так же начинал, но у меня изначально был очень большой скепсис к цепям Маркова на стероидах, меня Т9 обманывал достаточное количество раз чтобы перестаь им доверять :)))

corvair May 4 at 01:54

Бэкап будет бэкапом, только если он оффлайновый на WORM носителе - оптический диск или кассета с магнитной лентой.

Aule May 4 at 03:22

3-2-1-1-0 все так

Virviil May 4 at 06:50

Связь между «есть правила» и «нельзя удалять volume» РАЗОРВАНА.

В каком месте разорвана, если ты сам цитируешь «I ran a destructive action without being asked», то есть информация о том что так делать нельзя не была скомпакчена или скоррпачена ни в одном месте, иначе ЛЛМ не написала бы это как свою ошибку???

В системном промпте было написано "удалять вольюм = это distructive action" а так же "нельзя выполнять distructive action без спроса" и эти обе фразы была скомпакчены? Если нет - то вся гипотеза опровергается ответом САМОЙ ЛЛМки о том, что она ничего не забыла.

Самое главное - системный промпт и долгосрочная память ВООБЩЕ не участвуют в компактинге. Они загружаются целиком после компактинга в ровно тех же формулировках, в которых они и были написаны.

Aule May 4 at 07:06

ты путаешь два разных утверждения.

Гипотеза не про «исчезновение фактов», а про разрыв связей между ними. Оба правила могут спокойно лежать в системном промпте — но связка «ситуация Х подпадает под правило А» держится на промежуточных рассуждениях, которые компактинг схлопывает. Attention dilution, ничего личного. «LLM сама написала, что сделала destructive action без спроса» — это подтверждение гипотезы, а не опровержение. Модель post-hoc видит и факт, и правило в одном контексте и легко их соединяет. Но это не доказывает, что в момент действия эта связь не была разорвана компактингом. Retrospective ≠ prospective. Если бы наличие правил в системном промпте гарантировало их исполнение — AI-агенты не косячили бы. А они косячат, и это известная проблема. Ответ самой модели — это диагностика, а не опровержение.

Virviil May 4 at 10:47

Нет ни одной причины считать, что attention dilution связана с компактингом. Если бы правило "не делай destructive action" проскочило бы в середине предыдущего разговора, причем конкретно в контексте удаления вольюма - гипотеза имела бы право на жизнь, а именно "где-то там по дороге что-то потерялось из-за компактинга". Но правило лежит в системном промпте, которое не компактится. А вывод о том, какое действие является или не является distructive будет ЗАНОВО заризонено моделью в том случае, если в ее контексте нету конкретного ОПРОВЕРЖЕНИЯ того, что это действие ТОЧНО НЕ distructive, вроде фразы `"мы выяснили что удалить вольюм - это не destructive action"` и очень странно представить что компактинг придет к такому выводу, да еще выберет именно эту фразу важной для того чтобы оставить ее в скомпакченом ответе.

Ты используешь реальное явления attention dilution, а потом из воздуха выстраиваешь гипотезу о компактинге, не имеющую никакой связи с этим самым явлением.

«LLM сама написала, что сделала destructive action без спроса» — это подтверждение гипотезы, а не опровержение

абсолютно нет. Это подтверждение того, что ЛЛМ не всегда делает все так как ей говорят. Только вот это общеизвестный очевидный факт, и к "гипотезе о компактинге" это не имеет никакого отношения.

Aule May 4 at 13:57

абсолютно нет. Это подтверждение того, что ЛЛМ не всегда делает все так как ей говорят. Только вот это общеизвестный очевидный факт, и к "гипотезе о компактинге" это не имеет никакого отношения.

Вот бы сейчас в 26 веке спорить о том что системные промпты работают в 100% случаях, и если подумать и покопаться почему LLM не всегда делает как ей говорят и обратиться к истории глубокой, прям к 23 году то можно найти много интерсеного

1: attention dilution ≠ компактинг.

компактинг, работающий через truncation, уменьшает количество токенов → оставшиеся дальше друг от друга → внимание размазывается. У Cursor prompt-based summarization (переписывание), там механика другая, но эффект тот же: удалённые токены не участвуют в attention.

2: пост-хок признание опровергает гипотезу.

Факт: Turpin et al. (2023) — CoT-объяснения систематически не отражают реальные причины решения модели в момент генерации.! CoT это подгонка решения под ответ а не ход решения, post-hok просто подгоняет объяснения под факты

Пруфы: ▪️ Turpin et al. 2023 — arxiv.org/abs/2303.06968 — CoT explanations unfaithful ▪️ Lanham et al. 2023 — arxiv.org/abs/2309.15500 — CoT — нарратив, не трассировка ▪️ Hsieh et al. 2024 — arxiv.org/abs/2406.16008 — позиционное внимание неравномерно, ухудшается с уменьшением контекста

Virviil May 4 at 16:07

спорить о том что системные промпты работают в 100% случаях

Очевидно что нет, не работают в 100% случаев и я с этим не спорю. И это не имеет никакого отношения к компактингу. Ты пытаешься придумать глупый тезис, который я не приводил, сделать вид что я его приводил, а потом героически "побеждаешь" его. Этот прием называется "соломенное чучело".

уменьшает количество токенов → оставшиеся дальше друг от друга → внимание размазывается

Наоборот. Чем меньше токенов, тем более внимательно модель "видит" каждый из них. Как раз после компактинга использованный контекст ужимается, все что там осталось после компактинга ближе друг к другу.

удалённые токены не участвуют в attention

очевидно что не участвуют. Вот только системный промп не удаляется при компактинге, а "не делай destructive action" было как раз в системном промпте.

пост-хок признание опровергает гипотезу

А где в этой истории вообще фигурирует Chain Of Thoughts? CoT это то что модель генерировала во время принятия решения об удалении вольюма, а не после, когда у нее спросили "что это было".

позиционное внимание неравномерно, ухудшается с уменьшением контекста

Не правильная формулировка. Внимание ухудшается с уменьшением оставшегося/свободного контекста. А после компактинга оставшийся контекст резко увеличивается, потому что освобождается много свободного места.

* * *

Я не утверждаю, что модель не может нарушать правила. Я утверждаю, что в данном случае нет оснований связывать это с компактингом. Статья же называется "... как сжатие контекста ..."?? Правило находилось в системном промпте и не подвергалось удалению. Ошибка модели может быть объяснена стандартными причинами: неверной классификацией действия, конфликтом сигналов или слабым binding’ом. Чтобы обвинять компактинг, нужно показать, что именно он удалил критическую часть рассуждения, а не просто предположить это. Более того, все "причины" по которым ты предположил что компактинг что-то делают работают вот прям противоположно.

donlocura May 4 at 07:00

тема интересная. но вопрос - вот тут в конце статьи написано - автор некий Гусев Николай. а мне почему-то кажется, что я мог бы написать в джемини/чат гпт/клод запрос "расскажи, что там случилось с Pocket OS с удалением баз?" - и получил бы аналогичный иишный слоп с характерными "это не просто... это...", странными эпитетами типа "выхлоп терминала" и прочим мусором, который уже в каждой статье, каждой истории, каждом обзоре. мы скоро разучимся мысли сами формулировать в текст длиннее, чем ограничение размера комментария. имхо, это намного опаснее дебилов, которые пытаются вайбкодить прод, т.к. это касается абсолютного большинства людей

Aule May 4 at 07:07

Исследования проведены llm тут как бы стесняться нечего, остальное работа автора, знать в чем проблема, что она реальна, ну т.е. понимать механику и логику происходящего, ну и нет, так не напишет :)

donlocura May 4 at 07:24

Это не «модель ослушалась» и не «Cursor накосячил». Это фундаментальное ограничение подхода: reasoning через границы чанков не работает, если чанки разбивают логические связи.

т.е. это фраза родилась в Вашем сознании, а не была скопирована из "исследований llm"? я не против применения llm в работе и в быту, но нафига засорять пространство нейрослопом?

arch1lochus May 4 at 12:22

если задуматься, это настоящая трагедия - почти не слышно стало индивидуальных голосов, пускай и с шероховатостями, не всегда уместным юмором и тд, но то было своё, ламповое.
Теперь, когда вижу опечатку в статье, хочется прямо-таки обнять автора "ты ж молодец какой, сам написал!".
Масштабы таковы, что уже и в ютуб-видео проникают LLM-интонации. Все вокруг начинают говорить одним и тем же противным кичливым голоском.
Это не "деда разобрало на ностальгию", это — серьезная проблема, которую непонятно как решать.

Aule May 4 at 13:36

да дело не в том что я не хочу писать руками, просто брутфорс через llm крепко вьедается в modus operandi когда привыкаешь, и честно, я знаю что и почему произошло то что произошло, я разобрал кейс подтвердил долгой сессией в курсоре написав батч нейронкой, я подтвердил свою теорию про разрыв чанков сжимая deepseek с окном 1м токенов моделью со 128к токенов при ratio 0,5 как раз увидев классический разрыв связей между чанками и потерей контекста которая тут и наблюдается. Вылизывать текст чтобы тебя не упрекнули что он нейронкой сделан, ну блин мне может еще и ansible\terraform выкинуть и по старинке sshpass\expect и врукопашную разворачивать?

donlocura yesterday at 07:30

если собрать все Ваши комментарии, явно написанные без llm, то получится объем, сопоставимый с размерами статьи. но в конечном счете, решать только Вам, на что тратить время, а на что нет. моя мысль в том, что написание подобных нейростатей не только дискредитирует автора как человека, выдающего сырой результат своих запросов к ИИ как собственные размышления, так и человека, которому плевать на читателя. ну а я со своей стороны могу сказать, что мне не лень Вам писать здесь, потому что так я тренирую свое мышление, а заодно выплескиваю накопившееся раздражение на одного из причастных к засилью этого ~~гов~~...контента в интернете, в частности на сайте, который раньше (давно) играл всеми гранями технических компетенций живых людей и радовал их живым языком

Ndochp 20 hours ago

Ну у меня есть десяток связных мыслей, которые я хочу донести. Несколько косноязычно. Я иду в ЛЛМ и говорю, 1. Проверь, что это не бред. 2. Если не бред напиши эссе на пару экранов. Потом читаю эту пару экранов и выкидываю то как я совсем никогда не скажу. Дописываю пропущенное. Понимаю, что то что написал я - это гораздо более корявый стиль, чем остальной текст. Прошу еще раз привести то что получилось к единому стилю и дальше использую. В результате будут мои мысли и минимум моих слов.

donlocura 13 hours ago

имхо, я лучше почитаю корявый текст живого человека, чем иишное однотипное гуано. из-за того, что многим авторам кажется, что их речь хуже, чем у ии, возникает ситуация, что уже вообще не найти настоящую речь. я, когда пишу какие-то мысли, сначала записываю, потом перечитываю, стараясь представить себя на месте читателя, поправляю корявые места, снова перечитываю, пока не буду доволен результатом. и т.к. текст изначально писал я, там точно не окажется какой-нибудь случайной ереси, которую ии подтянул просто по контексту, так что затраты ресурсов внимания и времени в среднем меньше, чем при написании через ии. ну и плюс навык тренируется. ии хорош в других вещах - например, до его появления было трудно найти в гугле "вот ту штуку, которая не помню как называется, но делает вот это", а ии может ее найти (не с первого раза обычно). в остальном ситуация с ии напоминает мультик про "и так сойдет" - делает всё, делает быстро, но потом приходится самому всё переделывать (или выкидывать как есть, забив на качество).

короче, молотком надо гвозди забивать, а не пытаться использовать его как миксер, скальпель и подушку одновременно, пытаясь убедить себя и окружающих, что он острый, мягкий и отлично делает смузи

Aule 11 hours ago

"Я написал длинное письмо, потому что у меня не было времени написать короткое" (с) Паскаль, лень, занятость, у меня есть тезисы пусть llm развернет мысль, длинно значит умно и т.д. бороться глупо, это уже считай стандарт в соцсетях, мне тут показывали https://zerogpt.cc расширение для детекта иислопа, вобщем "лучше бы я не смотрел"

donlocura 11 hours ago

https://zerogpt.cc/

шикарная вещь! спасибо! я закинул туда отрывок из Гоголя "Вечера на хуторе..." - более 90% ИИ генерации =)

Aule 11 hours ago

а я знал, а я догадывался :))) Фоменко был прав!

cheshirskins May 4 at 07:35

Может быть это моя мнительность, но на Хабре прям какой-то наплыв ИИ-ботов в последнее время