Pull to refresh
4
Владимир@thethee

User

0,1
Rating
Send message

[del]

Не дочитал сначала, написал фигню, удалил

Тут суть не в этом, claude code тоже делает summary и продолжает работу. Это изменение призвано избавиться от компакций посреди выполнения микро-таски. Работает пока только в сторону что модель чаще хочет остановиться, говорит типо "компакция близко, лучше в следующей сессии продолжить", я у себя эту штуку пока что обошел строгой инструкцией продолжать пока не будет выполнена задача, хоть там 10 компакций будет. Надо бы отключить целиком.

Гпт лучше в этом плане, он сам решает что пора делать компакцию, пока он не приступил к следующим задачам, а в Клод коде в этом плане огрызок. Дали бы тоже инструмент модели чтобы она решала что микро-таска завершена, следующая ещё не начата, компактнулась, как гпт делает, и продолжаем со спокойной совестью.

Раньше и ВПН было не массово. Когда надо внуки бабушек научили кнопочку в приложении нажимать чтобы их посты и видео грузились лучше. Если совсем туго будет, то и крипта станет массово.

Отличный анализ, всем советую к прочтению. Он настолько большой что за один раз можно не прочитать целиком.

Кому интересно как с этим бороться лучше сразу дополнить комментарием Бориса Черного (Boris Cherny, Anthropic) https://github.com/anthropics/claude-code/issues/42796#issuecomment-4194007103

TL;DR от его коммента

В env выставить:

CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 - миллион контекста это дорого, даже с использованием кэша (либо модель без [1m] ставить, тогда старый контекст будет)

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 - основное февральское изменение. Возвращает старое поведение, и Клод начинает дольше думать, а не спамить запросами.

CLAUDE_CODE_EFFORT_LEVEL=high - С февраля антропиками по-умолчанию установлен medium. Такая переменная окружения будет гарантированно влиять и на субагентов. Лично я ставлю себе effort на max, аналог ultrathink. Либо можно пользоваться /effort max, чтобы разово на сессию установить.

На счёт лимитов, по ощущениям стало даже меньше тратиться из за того что меньше ошибок и переделок идёт, соответственно меньше апи запросов, но точно не могу сказать.

Про механизмы верификации в статье написано буквально в двух местах:

  1. Анонс того что именно содержится в харнессе

  2. Глубокая цитата Конфуция на эту тему

А что это все таки за механизмы такие? Что значит "верифицировать"? Возможность запустить только что написанные тесты? Возможность запустить саму программу?

Чем это отличается от инструментов, которые покрыты другим пунктом?

Линтеры в кодекс и Клод не встроены на уровне генов. Как раз наоборот, они зачастую пишут грязнючий код, который потом усложняет поддержку. Через N времени может статься так, что простенький баг будет чиниться минут 15 вместо 3, а фича добавляться часов 6.

Хороший подход - включить все что есть в ruff и выключить только самые не-релевантные правила. Дефолтный рафф не так много находит, а его можно хорошо настроить под стиль. Если интересно могу поделиться конфигом который сам юзаю.

Mypy хорош для проверки типизации

И все это дело включить в pre-commit hook вместе с прогоном тестов, а в инструкциях запретить пропуск хуков, а то все модели грешат тем что пропускают хуки если считают, что это не их вина что тесты упали и типо можно не исправлять.

На счёт того что ИИ проверяет за ИИ - согласен, часто opus замечает ошибки GPT и наоборот. У меня основной рабочий опус, но после каждой выполненой фазы вызывается codex через mcp сервер (в codex cli встроена возможность работы как mcp сервер) и опуск встраивается инструкция что все что он найдет (даже то что кажется out of scope) нужно фиксить, а то что кажется false positive - уточнить через reply, а если так и не получилось договориться, что сохранить мне на рабочий стол в папку с багами, и я потом разгребаю то что опус считает by-design, а кодекс - багом. Обычно заставляю все фиксить, но уже отдельными задачами, если они действительно не влияют на текущую фичу

А ruff по безопасности и не выдаст вроде ничего кроме базовых sql инъекций. Есть другие сканеры безопасности. Они все фолзят, но даже если среди 100 фолзов будет один правильно зарепорченный баг это уже золото и сохраненные деньги для бизнеса, так что советую попробовать прогнать какой нибудь sonarqube или что там щас популярное.

Ну и анализ не статистический а статический

Какой такой скилл? Engram? Это ведь архитектурное внутреннее улучшение для моделей, а не скилл который можно поверх обученной ллм прикрутить.

Что именно добавил в итоге и как работает?

В вайтлистовой зоне не будет работать так

Насколько слышал килокод в чистом виде подзабросили, мало в него коммитится, разрабы перешли делать агентские фермы или типо того

Есть mcp сервера которые lsp используют, но это не конкретный агент. Serena насколько помню позволяет переименовать, и ещё один какой то.

Если у вас с локальными моделями все ещё запускается sonnet/opus, значит вы что то не так настроили. Посмотрите у z.ai, есть пример по смене ссылки и всех упоминаний всех моделей на нужную. Тоже самое с локальными моделями делаете и спина болеть не будет

Новый Next Js 16.2 добавил в свой шаблон приложения AGENTS.md, а в CLAUDE.md просто ссылка @AGENTS.md . Я тоже так начал делать, потому что частенько прыгаю между разными харнессами и провайдерами

Для этого нужно знать nodejs, или знать о чем именно просить нейронку. Переписать на Раст проще с точки зрения пользователя, он на слуху, тут и получается plug and play оптимизация производительности.

Профессионал оптимизирует свой код, а обыватель, увы, пойдет по простому пути, получит неоптимальный код, возможно с багами, на другом языке. Вот только если этот неоптимальный код действительно ускоряет, и баги исправимые, то почему бы нет

Да, нейронка писавшая статью не на том сосредоточилась. Лучше бы показала исторически как изменялись цифры бенчмарков медицинских, и показала статистику какую нибудь, и мораль бы сместилась что лет 5 назад о таком и подумать нельзя было, три года назад это было местами, а сегодня вполне себе реальность, пусть и для богатых, из-за обилия всевозможных параллельных экспериментов.

Вот надо эти эксперименты удешевлять, и внедрять нормальный процесс, я уже где то читал что есть несколько подобных случаев. В некоторых вещах людям хватало тех исследований которые проводились по стандарту, и чатгпт находил в них то, на что у врачей глаз замылился, а некоторые такие как текущий субъект.

Если взять все вышесказанное в расчет, и дать правильные источники, мораль будет уже про положительную динамику таких случаев.

Однако, истории НЕуспеха лечения смертельных болезней некому рассказать, тогда статья могла бы опровергнуть все что я рассказал, и мораль была бы о предупреждении, и отношении к источникам информации с критикой.

Вот бы нейронки не только рак лечили, но и нормально статьи писали. @runaway_llm

Смотря какой проект, сколько и каких задач. На счёт каждые 2 часа вы что то путаете, там 5-часовые лимиты и недельные

Claude code, это просто консольная оболочка, которой можно подсунуть локально развернутую модель (vLLM, например, нативно поддерживает) и запускать в закрытом контуре. Всякие команды, скиллы и прочее это всё остаётся актуальным для любой современной открытой модели.

Такое исследование надо перепроводить раз в пол года примерно.

Sonnet 3.5, от которого все визжали от восторга в свое время, по нынешним меркам очень слабый, 3.7 не сильно далеко ушел от него

И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально
И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально

С опусом 4.6 сравнивать даже нет смысла.

Плюс исследование проходило в начале 2025 года, когда соннет 3.7 вышел в конце февраля, то есть люди ещё не собрали воркфлоу и бест практисы на эту модель. Каждый раз когда выходит новая модель происходит небольшой откат, потому что надо тюнить под новую модель в любом случае.

Не хочу, чтобы это выглядело как попытка оспорить результаты этого исследования, просто прошу относиться к таким исследованиям с долей критики, особенно по прошествии времени. Модели вышедшие год назад это совсем не тоже самое, что доступно сейчас.

Я однозначно согласен с тем, что ИИ повышает качество и не заменяет программиста целиком. Просто позволяет сосредоточиться на более верхнеуровневых задачах, чем крудошлёпство и поиск мелких багов.

Судя по картинке я уже давно в бездне, но ощущаю себя в мелководье. Нужна вторая часть про agent swarm и иже с ним

1
23 ...

Information

Rating
4,106-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity