Обновить

ИИ-агенты никому не нужны. Часть 2. Укрощение лобстера

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.7K
Всего голосов 2: ↑2 и ↓0+2
Комментарии8

Комментарии 8

По сути согласен. Кстати, для себя я пока нащупал идеальную метафору - подруливание. Нейромопед. Он-то шпарит дай бог, но навыки и знания для тонкой корректировки направления по всей траектории пути все равно на нас. И очень легко приехать не туда, заехать в болото или кювет, сжечь весь бензин или даже попасть в нейро-ДТП)

Именно. Поэтому мы убрали руль и поставили рельсы!

А я недавно после 4 часов непрерывного vibe-coding поймал себя на мысли что он(они) не так пишут код как я привык - он(они) пишут как ... индусы !!! Ибо обучен на гигатоннах индусского кода. Вот вам и ответ почему так

Именно поэтому в статье раздел про статистическое смещение. Агент выбирает Next.js для одностраничника не потому что это лучший стек, а потому что в обучающих данных он встречается чаще. 363 шага вместо 48. Решение - не давать агенту выбирать стек. Система выбирает за него на первом этапе.

Иногда думаю, что руководители специально стараются поставить задачу самым общим образом, чтобы сотрудник сделал "не так". Чтобы было где проявить свои навыки крика и ора. Потому что если поставить задачу грамотно, то и результат будет с первого раза. Так что и без ИИ это классическая проблема мышления. ИИ даже сложнее, чем человеку, он обучен на слишком большом массиве данных и угадать, что имел ввиду пользователь не может.

Исхитрись-ка мне добыть То-Чаво-Не-Может-Быть!
Запиши себе названье,
Чтобы в спешке не забыть!
А не выполнишь к утру —
В порошок тебя сотру,
Потому как твой карахтер
Мне давно не по нутру!
Так что неча губы дуть,
А давай скорее в путь!
Государственное дело —
Ты ухватываешь суть?

Именно. Поэтому решение - не учить агента угадывать, а не давать ему задачу "добудь То-Чаво-Не-Может-Быть". Разбить на этапы, на каждом - конкретное задание. Федот справится, если знает куда идти.

Мне кажется чуть надуманная проблема, сейчас skills можно всё решить.

Skills - это инструменты. Проблема не в инструментах, а в том, кто решает когда и какой использовать. В моих данных агент с теми же инструментами ошибался в 37% сессий. После смены архитектуры - менее 1%. Инструменты не изменились. Изменилось кто управляет процессом.

P.S. Про skills стоит знать:

— 341 из 2 857 навыков в ClawHub (12%) оказались вредоносными: кейлоггеры, Atomic Stealer (Koi Security)

— Ещё 283 навыка (7.1%) сливали credentials в открытом виде (Snyk)

— 135 000 открытых инстансов без аутентификации в 82 странах (Bitsight)

— 9 CVE за четыре дня, одна на 9.9/10 (SecurityScorecard)

— Мейнтейнер OpenClaw Shadow в Discord: "if you can't understand how to run a command line, this is far too dangerous of a project for you to use safely" (Wikipedia)

— Cisco подтвердила скрытую эксфильтрацию данных и prompt injection через сторонние навыки (Wikipedia)

Осторожнее с "всё можно решить skills".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации