Обновить

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8K
Всего голосов 7: ↑6 и ↓1+8
Комментарии9

Комментарии 9

Спасибо за тесты.
Ждем тест rtk ;)

Тоже тестировал caveman — на генерации кода разницы почти нет, а на архитектурных задачах модель теряет нюансы. Сжатие промпта неизбежно lossy, вопрос в том что именно вы теряете.

То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk.

RTK постоянно вынуждает модель либо перезапускать его с грепами, либо вообще выполнять команды без него, потому что модель ожидает на понятный ввод понятный вывод, а получает кастрированный однострочник и думает, что что-то не так. Особенно claude от этого очень страдает, может один и тот же тул по 3-5 раз перезапускать.

Спасибо!

Блин, вот тут тоже надо видимо тестировать все же. С этими зазвездёнными репами видимо со всеми такая проблема. Короче, потестирую тоже эту штуку пристально. Хотя вот вроде смотришь описание и такой: Ну вроде же логично, что если ты чутка вербозность подсократишь и вывода инструмента, то все должно стать лучше.

С этими зазвездёнными репами видимо со всеми такая проблема.

Да. Я думаю, их фармят ради бесплатной подписки по программе осс.

За примером далеко идти не пришлось:

● Now typecheck and run the affected tests before rebuilding:

● Bash(npm run lint 2>&1 | tail -8; echo “=== TESTS ===”; npx tsx --test server/test/static-routing.test.ts server/test/cloudflare-purge.test.ts server/test/missions-f…) ⎿  ESLint output (JSON parse failed: EOF while parsing a value at line 1 column 0)

● Tests pass (55/55). The lint output looks like RTK mis-parsing tsc output as ESLint JSON. Let me run the typecheck directly to confirm it’s clean.

● Bash(npx tsc -p tsconfig.json --noEmit; echo “tsc exit: $?”) ⎿  TypeScript: No errors found tsc exit: 0 ⎿  Allowed by auto mode classifier

● Typecheck clean, all tests pass.

Ну это жёстко. Я если честно, не думал, что эта штука как-то так бездумно это все режет( Потестирую на дотнете тоже.

Проблема не в бездумности. Она действительно из тех же npm test выкидывает 99% мусора. Остается пара строчек по делу, если на них глазами смотреть. Проблема в том, что модель ожидает увидеть мусор, и когда не видит - думает, что это ошибка.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации