ignatenkosergey Apr 7 at 12:01

ИИ-агенты никому не нужны. Часть 2. Укрощение лобстера

Medium

9 min

7.7K

Artificial IntelligenceProduct Management * Programming * Development Management *

Case

Comments 20

Oeaoo Apr 7 at 12:26

По сути согласен. Кстати, для себя я пока нащупал идеальную метафору - подруливание. Нейромопед. Он-то шпарит дай бог, но навыки и знания для тонкой корректировки направления по всей траектории пути все равно на нас. И очень легко приехать не туда, заехать в болото или кювет, сжечь весь бензин или даже попасть в нейро-ДТП)

ignatenkosergey Apr 7 at 12:40

Именно. Поэтому мы убрали руль и поставили рельсы!

undersunich Apr 7 at 12:37

А я недавно после 4 часов непрерывного vibe-coding поймал себя на мысли что он(они) не так пишут код как я привык - он(они) пишут как ... индусы !!! Ибо обучен на гигатоннах индусского кода. Вот вам и ответ почему так

ignatenkosergey Apr 7 at 12:51

Именно поэтому в статье раздел про статистическое смещение. Агент выбирает Next.js для одностраничника не потому что это лучший стек, а потому что в обучающих данных он встречается чаще. 363 шага вместо 48. Решение - не давать агенту выбирать стек. Система выбирает за него на первом этапе.

PPPeter Apr 7 at 14:14

Иногда думаю, что руководители специально стараются поставить задачу самым общим образом, чтобы сотрудник сделал "не так". Чтобы было где проявить свои навыки крика и ора. Потому что если поставить задачу грамотно, то и результат будет с первого раза. Так что и без ИИ это классическая проблема мышления. ИИ даже сложнее, чем человеку, он обучен на слишком большом массиве данных и угадать, что имел ввиду пользователь не может.

Исхитрись-ка мне добыть То-Чаво-Не-Может-Быть!
Запиши себе названье,
Чтобы в спешке не забыть!
А не выполнишь к утру —
В порошок тебя сотру,
Потому как твой карахтер
Мне давно не по нутру!
Так что неча губы дуть,
А давай скорее в путь!
Государственное дело —
Ты ухватываешь суть?

ignatenkosergey Apr 7 at 14:31

Именно. Поэтому решение - не учить агента угадывать, а не давать ему задачу "добудь То-Чаво-Не-Может-Быть". Разбить на этапы, на каждом - конкретное задание. Федот справится, если знает куда идти.

Dhwtj Apr 7 at 17:58

Иногда думаю, что руководители специально стараются поставить задачу самым общим образом, чтобы сотрудник сделал “не так”. Чтобы было где проявить свои навыки крика и ора:

(П)рапорщик достает (С)олдата:

П:- Почему в шапке, почему без шапки.

(М)айор подзывает П.

М:- Ну что такое? в шапке, без шапки, одно и то же… Ты лучше попроси водички, а когда С принесет тебе стаканчик воды ты спросишь: Почему не газированная?

На следующий день:

П:- Принеси-ка мне воды

С:- Тов. прапорщик, а Вам какой воды: простой или газированной

П: (секундное замешательство) Почему в шапке?!

PPPeter 15 hours ago

Слышал его в варианте. Попроси прикурить. Даст спички, почему не зажигалка. Даст зажигалку, почему не спички. Подзывает солдата:
- Дай прикукурить.
- А вам спички или зажигалку.
- Да хоть кирогаз купи, а пиз..лей ты всё равно получишь.

flaviy75 Apr 7 at 14:45

Мне кажется чуть надуманная проблема, сейчас skills можно всё решить.

ignatenkosergey Apr 7 at 14:58

Skills - это инструменты. Проблема не в инструментах, а в том, кто решает когда и какой использовать. В моих данных агент с теми же инструментами ошибался в 37% сессий. После смены архитектуры - менее 1%. Инструменты не изменились. Изменилось кто управляет процессом.

P.S. Про skills стоит знать:

— 341 из 2 857 навыков в ClawHub (12%) оказались вредоносными: кейлоггеры, Atomic Stealer (Koi Security)

— Ещё 283 навыка (7.1%) сливали credentials в открытом виде (Snyk)

— 135 000 открытых инстансов без аутентификации в 82 странах (Bitsight)

— 9 CVE за четыре дня, одна на 9.9/10 (SecurityScorecard)

— Мейнтейнер OpenClaw Shadow в Discord: "if you can't understand how to run a command line, this is far too dangerous of a project for you to use safely" (Wikipedia)

— Cisco подтвердила скрытую эксфильтрацию данных и prompt injection через сторонние навыки (Wikipedia)

Осторожнее с "всё можно решить skills".

amcured 22 hours ago

Вся магия Claude Code не в grep и не в памяти между сессиями. Магия в модели, которая понимает контекст на миллион токенов.

А есть какие-то подкрепления этому тезису, или это Рабинович напел?

ignatenkosergey 15 hours ago

Не Рабинович, а Anthropic. Claude Opus поддерживает контекстное окно в 200K токенов (документация Anthropic), Claude с Extended Thinking — до 1M. Локальные модели, на которых работает OpenClaw без Claude: Llama — 8-128K, Qwen — 32-128K, DeepSeek — 64-128K. Разница в 8-15 раз.

На практике это означает: Claude Code держит в голове весь проект целиком. Локальная 7B-модель забывает начало файла, пока дочитывает конец. Отсюда и "руль от Ferrari на Ладе" — интерфейс тот же, а модель под капотом не тянет.

Подкрепление из моих данных: 34 раза агент упирался в лимит токенов, максимум 1 069 729 токенов на одну задачу. А вот что происходит с Claude Code даже на Opus ($200/мес подписка Max):

Request timed out. Три раза. "Ты не висишь? Я не вижу прогресса!" На Sonnet — зависания и таймауты, пришлось переключить на Opus(1M). На Opus — работает, но всё равно тормозит и теряет соединение. Архитектура agent loop компенсирует слабость мощностью (и ценой) модели. Но даже самая мощная модель не спасает от архитектурных проблем.

amcured 14 hours ago

На практике это означает: Claude Code держит в голове весь проект целиком.

Смешно. А если проект на 30М строк?

Вообще-то я спрашивал, откуда растут ноги у утверждения «магия Claude Code не в grep и не в памяти между сессиями. Магия в модели […]». Ваши личные наблюдения — это и есть «Рабинович напел» в чистом виде.

Размер контекстного окна — это хорошо, но я надеялся увидеть какое-то доказательство (хотя бы подтверждение) того, что хороший RAG его не заменит. (Аутентичный антропиковский раг — говно, поэтому самое уязвимое место, скорее всего, именно там, а не в размере окна.)

ivchatov309 20 hours ago

Заучит как вполне логичное развитие меты всех этих бесконечных инфраструктур вокруг моделей, у меня в последние дни что-то такое же назревали в голове. А ссылочка на репу-то будет?

ignatenkosergey 15 hours ago

Репа закрытая - это коммерческий продукт, не open source. Но попробовать можно на vibepilot.ru, 2 000 бесплатных токенов при регистрации. Архитектура описана в статье ровно на том уровне детализации, который я считаю правильным: достаточно чтобы понять подход, недостаточно чтобы воспроизвести за вечер.

ivchatov309 14 hours ago

А рефералка будет мне за такой удачный комментарий?)

Зарегаюсь, спасибо.

Dkislits 16 hours ago

Привет. Я бы все-таки поискал способ заставить его работать. У меня клешня кодом не занималась, занималась орг деятельностью. Просроченные задачи в Битрикс, Jira, пропущенные сообщения в группах и в почте.
Было удобно. Как восстановить пока не разобрался. Вроде openAI можно по Oath

ignatenkosergey 15 hours ago

Отличный кейс. Для мониторинга и уведомлений agent loop подходит лучше всего - задачи простые, однотипные, без цепочек решений. Проблемы начинаются когда агенту дают свободу в сложных задачах: написать код, создать сайт, проанализировать документ. Там 37% ошибок из моих данных. Для восстановления: OpenAI API + webhook в Telegram/Max может заменить OpenClaw для таких задач дешевле и надёжнее.

Dkislits 8 hours ago

Спасибо! Сегодня подсказали, что GLM 5.1 все работает. Подключил - действительно работает. Почти не вижу разницы.

ignatenkosergey 3 hours ago

Отлично! GLM 5.1 - хороший выбор для мониторинговых задач, и значительно дешевле Claude. Для простых сценариев (проверка задач, уведомления, парсинг) разница в качестве модели минимальна. Проблемы начинаются на сложных цепочках - там уже важна архитектура, а не модель. Удачи с настройкой!