Comments 22
По мне так это победа эффективных менеджеров. "Безопасноть? - это нужно и неинновационно". Они гонятся и гонят всех вокруг за новыми фичами, новыми продуктами, сырыми и безумными.
А этот клерикал, который делал софт для аренды то ли самокатов то ли автомобилей - примерно наказан за то, что не читал книжек и не знал базовых принципов разработки - включая отксутствие прямого доступа к продукционным данным и системам - "CI/CD? Нет, не слышал". И гнать на rails - дело хорошее, наверное, пусть добавляют разделение прав, но это не отменят проблемы - продукционные данные и разработка должны быть отделены стеной.
Согласен.
Замените Агента на Джуна и сразу все станет кристально ясно.
А как еще можно относиться к новичку, который только что получил полный доступ к проду и не знает всей структуры? Только как к обезьяне с гранатой. И тот кто выдаёт гранату - сам молодец.
да, чтобы нанять джуниора, мы проходим:
Скрининг резюме - отсеять 90%
Тестовое задание - проверить, что руки из плеч
Техническое интервью - гоняем по алгоритмам
Архитектурное - смотрим, шарит ли за SOLID
Финальное с лидом / HR - не долбоеб ли, софт-скиллы
И даже после этого джун первый месяц сидит на песочнице со ступенчатым доступом, код-ревью и тестовым контуром. Не дай бог ему сразу прод. а с AI? Я прям каждый раз с таким восторгом читаю "Никакого staging. Никакого постепенного разворачивания. Никакого A/B-тестирования на 1% трафика. Никакого human-in-the-loop для деструктивных операций." НИ ЧЕ ГО святая вера что ну уж модель с триллионом паратетров то точно знает как надо "бог из машины" не ошибется :)))
Почему язвлю, ну сам так же начинал, но у меня изначально был очень большой скепсис к цепям Маркова на стероидах, меня Т9 обманывал достаточное количество раз чтобы перестаь им доверять :)))
Бэкап будет бэкапом, только если он оффлайновый на WORM носителе - оптический диск или кассета с магнитной лентой.
Связь между «есть правила» и «нельзя удалять volume» РАЗОРВАНА.
В каком месте разорвана, если ты сам цитируешь «I ran a destructive action without being asked», то есть информация о том что так делать нельзя не была скомпакчена или скоррпачена ни в одном месте, иначе ЛЛМ не написала бы это как свою ошибку???
В системном промпте было написано "удалять вольюм = это distructive action" а так же "нельзя выполнять distructive action без спроса" и эти обе фразы была скомпакчены? Если нет - то вся гипотеза опровергается ответом САМОЙ ЛЛМки о том, что она ничего не забыла.
Самое главное - системный промпт и долгосрочная память ВООБЩЕ не участвуют в компактинге. Они загружаются целиком после компактинга в ровно тех же формулировках, в которых они и были написаны.
ты путаешь два разных утверждения.
Гипотеза не про «исчезновение фактов», а про разрыв связей между ними. Оба правила могут спокойно лежать в системном промпте — но связка «ситуация Х подпадает под правило А» держится на промежуточных рассуждениях, которые компактинг схлопывает. Attention dilution, ничего личного. «LLM сама написала, что сделала destructive action без спроса» — это подтверждение гипотезы, а не опровержение. Модель post-hoc видит и факт, и правило в одном контексте и легко их соединяет. Но это не доказывает, что в момент действия эта связь не была разорвана компактингом. Retrospective ≠ prospective. Если бы наличие правил в системном промпте гарантировало их исполнение — AI-агенты не косячили бы. А они косячат, и это известная проблема. Ответ самой модели — это диагностика, а не опровержение.
Нет ни одной причины считать, что attention dilution связана с компактингом. Если бы правило "не делай destructive action" проскочило бы в середине предыдущего разговора, причем конкретно в контексте удаления вольюма - гипотеза имела бы право на жизнь, а именно "где-то там по дороге что-то потерялось из-за компактинга". Но правило лежит в системном промпте, которое не компактится. А вывод о том, какое действие является или не является distructive будет ЗАНОВО заризонено моделью в том случае, если в ее контексте нету конкретного ОПРОВЕРЖЕНИЯ того, что это действие ТОЧНО НЕ distructive, вроде фразы `"мы выяснили что удалить вольюм - это не destructive action"` и очень странно представить что компактинг придет к такому выводу, да еще выберет именно эту фразу важной для того чтобы оставить ее в скомпакченом ответе.
Ты используешь реальное явления attention dilution, а потом из воздуха выстраиваешь гипотезу о компактинге, не имеющую никакой связи с этим самым явлением.
«LLM сама написала, что сделала destructive action без спроса» — это подтверждение гипотезы, а не опровержение
абсолютно нет. Это подтверждение того, что ЛЛМ не всегда делает все так как ей говорят. Только вот это общеизвестный очевидный факт, и к "гипотезе о компактинге" это не имеет никакого отношения.
абсолютно нет. Это подтверждение того, что ЛЛМ не всегда делает все так как ей говорят. Только вот это общеизвестный очевидный факт, и к "гипотезе о компактинге" это не имеет никакого отношения.
Вот бы сейчас в 26 веке спорить о том что системные промпты работают в 100% случаях, и если подумать и покопаться почему LLM не всегда делает как ей говорят и обратиться к истории глубокой, прям к 23 году то можно найти много интерсеного
1: attention dilution ≠ компактинг.
компактинг, работающий через truncation, уменьшает количество токенов → оставшиеся дальше друг от друга → внимание размазывается. У Cursor prompt-based summarization (переписывание), там механика другая, но эффект тот же: удалённые токены не участвуют в attention.
2: пост-хок признание опровергает гипотезу.
Факт: Turpin et al. (2023) — CoT-объяснения систематически не отражают реальные причины решения модели в момент генерации.! CoT это подгонка решения под ответ а не ход решения, post-hok просто подгоняет объяснения под факты
Пруфы: ▪️ Turpin et al. 2023 — arxiv.org/abs/2303.06968 — CoT explanations unfaithful ▪️ Lanham et al. 2023 — arxiv.org/abs/2309.15500 — CoT — нарратив, не трассировка ▪️ Hsieh et al. 2024 — arxiv.org/abs/2406.16008 — позиционное внимание неравномерно, ухудшается с уменьшением контекста
спорить о том что системные промпты работают в 100% случаях
Очевидно что нет, не работают в 100% случаев и я с этим не спорю. И это не имеет никакого отношения к компактингу. Ты пытаешься придумать глупый тезис, который я не приводил, сделать вид что я его приводил, а потом героически "побеждаешь" его. Этот прием называется "соломенное чучело".
уменьшает количество токенов → оставшиеся дальше друг от друга → внимание размазывается
Наоборот. Чем меньше токенов, тем более внимательно модель "видит" каждый из них. Как раз после компактинга использованный контекст ужимается, все что там осталось после компактинга ближе друг к другу.
удалённые токены не участвуют в attention
очевидно что не участвуют. Вот только системный промп не удаляется при компактинге, а "не делай destructive action" было как раз в системном промпте.
пост-хок признание опровергает гипотезу
А где в этой истории вообще фигурирует Chain Of Thoughts? CoT это то что модель генерировала во время принятия решения об удалении вольюма, а не после, когда у нее спросили "что это было".
позиционное внимание неравномерно, ухудшается с уменьшением контекста
Не правильная формулировка. Внимание ухудшается с уменьшением оставшегося/свободного контекста. А после компактинга оставшийся контекст резко увеличивается, потому что освобождается много свободного места.
* * *
Я не утверждаю, что модель не может нарушать правила. Я утверждаю, что в данном случае нет оснований связывать это с компактингом. Статья же называется "... как сжатие контекста ..."?? Правило находилось в системном промпте и не подвергалось удалению. Ошибка модели может быть объяснена стандартными причинами: неверной классификацией действия, конфликтом сигналов или слабым binding’ом. Чтобы обвинять компактинг, нужно показать, что именно он удалил критическую часть рассуждения, а не просто предположить это. Более того, все "причины" по которым ты предположил что компактинг что-то делают работают вот прям противоположно.
тема интересная. но вопрос - вот тут в конце статьи написано - автор некий Гусев Николай. а мне почему-то кажется, что я мог бы написать в джемини/чат гпт/клод запрос "расскажи, что там случилось с Pocket OS с удалением баз?" - и получил бы аналогичный иишный слоп с характерными "это не просто... это...", странными эпитетами типа "выхлоп терминала" и прочим мусором, который уже в каждой статье, каждой истории, каждом обзоре. мы скоро разучимся мысли сами формулировать в текст длиннее, чем ограничение размера комментария. имхо, это намного опаснее дебилов, которые пытаются вайбкодить прод, т.к. это касается абсолютного большинства людей
Исследования проведены llm тут как бы стесняться нечего, остальное работа автора, знать в чем проблема, что она реальна, ну т.е. понимать механику и логику происходящего, ну и нет, так не напишет :)
Это не «модель ослушалась» и не «Cursor накосячил». Это фундаментальное ограничение подхода: reasoning через границы чанков не работает, если чанки разбивают логические связи.
т.е. это фраза родилась в Вашем сознании, а не была скопирована из "исследований llm"? я не против применения llm в работе и в быту, но нафига засорять пространство нейрослопом?
если задуматься, это настоящая трагедия - почти не слышно стало индивидуальных голосов, пускай и с шероховатостями, не всегда уместным юмором и тд, но то было своё, ламповое.
Теперь, когда вижу опечатку в статье, хочется прямо-таки обнять автора "ты ж молодец какой, сам написал!".
Масштабы таковы, что уже и в ютуб-видео проникают LLM-интонации. Все вокруг начинают говорить одним и тем же противным кичливым голоском.
Это не "деда разобрало на ностальгию", это — серьезная проблема, которую непонятно как решать.
да дело не в том что я не хочу писать руками, просто брутфорс через llm крепко вьедается в modus operandi когда привыкаешь, и честно, я знаю что и почему произошло то что произошло, я разобрал кейс подтвердил долгой сессией в курсоре написав батч нейронкой, я подтвердил свою теорию про разрыв чанков сжимая deepseek с окном 1м токенов моделью со 128к токенов при ratio 0,5 как раз увидев классический разрыв связей между чанками и потерей контекста которая тут и наблюдается. Вылизывать текст чтобы тебя не упрекнули что он нейронкой сделан, ну блин мне может еще и ansible\terraform выкинуть и по старинке sshpass\expect и врукопашную разворачивать?
если собрать все Ваши комментарии, явно написанные без llm, то получится объем, сопоставимый с размерами статьи. но в конечном счете, решать только Вам, на что тратить время, а на что нет. моя мысль в том, что написание подобных нейростатей не только дискредитирует автора как человека, выдающего сырой результат своих запросов к ИИ как собственные размышления, так и человека, которому плевать на читателя. ну а я со своей стороны могу сказать, что мне не лень Вам писать здесь, потому что так я тренирую свое мышление, а заодно выплескиваю накопившееся раздражение на одного из причастных к засилью этого гов...контента в интернете, в частности на сайте, который раньше (давно) играл всеми гранями технических компетенций живых людей и радовал их живым языком
Ну у меня есть десяток связных мыслей, которые я хочу донести. Несколько косноязычно. Я иду в ЛЛМ и говорю, 1. Проверь, что это не бред. 2. Если не бред напиши эссе на пару экранов. Потом читаю эту пару экранов и выкидываю то как я совсем никогда не скажу. Дописываю пропущенное. Понимаю, что то что написал я - это гораздо более корявый стиль, чем остальной текст. Прошу еще раз привести то что получилось к единому стилю и дальше использую. В результате будут мои мысли и минимум моих слов.
имхо, я лучше почитаю корявый текст живого человека, чем иишное однотипное гуано. из-за того, что многим авторам кажется, что их речь хуже, чем у ии, возникает ситуация, что уже вообще не найти настоящую речь. я, когда пишу какие-то мысли, сначала записываю, потом перечитываю, стараясь представить себя на месте читателя, поправляю корявые места, снова перечитываю, пока не буду доволен результатом. и т.к. текст изначально писал я, там точно не окажется какой-нибудь случайной ереси, которую ии подтянул просто по контексту, так что затраты ресурсов внимания и времени в среднем меньше, чем при написании через ии. ну и плюс навык тренируется. ии хорош в других вещах - например, до его появления было трудно найти в гугле "вот ту штуку, которая не помню как называется, но делает вот это", а ии может ее найти (не с первого раза обычно). в остальном ситуация с ии напоминает мультик про "и так сойдет" - делает всё, делает быстро, но потом приходится самому всё переделывать (или выкидывать как есть, забив на качество).
короче, молотком надо гвозди забивать, а не пытаться использовать его как миксер, скальпель и подушку одновременно, пытаясь убедить себя и окружающих, что он острый, мягкий и отлично делает смузи
"Я написал длинное письмо, потому что у меня не было времени написать короткое" (с) Паскаль, лень, занятость, у меня есть тезисы пусть llm развернет мысль, длинно значит умно и т.д. бороться глупо, это уже считай стандарт в соцсетях, мне тут показывали https://zerogpt.cc расширение для детекта иислопа, вобщем "лучше бы я не смотрел"
Может быть это моя мнительность, но на Хабре прям какой-то наплыв ИИ-ботов в последнее время
Cursor всё сломал, но виноват не Cursor: как сжатие контекста превращает AI-агентов в бюро несчастливых случаев