Комментарии 9
Так ведь Agents.md по умолчанию читают только модели OpenAI. Для остальных нужно указывать об этом явно или правила создавать.
Это все же зависит от инструмента, который используется. Файлы типа AGENTS.md добавляются в контекст перед первым запросом. Если смотреть документацию Opencode, AGENTS.md поддерживается: https://opencode.ai/docs/rules/
У меня другая проблема - ClaudeCode пишет тесты, хотя в инструкции четко указано - только по запросу.
Спасибо за код бота) будет чем заняться на выходных
Интересное сравнение, спасибо. Только не понятно почему штрафуете за отсутствие тестов и документации? Вы давали такое задание моделям? То же Клод отлично делает и то и другое. И замечательно использует в работе прогоняя тесты до и после правок. Также четко ведёт и использует документацию.
В статье я упомянул, что у меня в AGENTS.md указано, что тесты нужно писать, и другие тесты в репозитории есть. То есть штраф идет по сути за то, что модель не следует инструкциям. Писать каждый раз в промте, что нужно написать тесты не очень удобно. Хотя конечно в идеале это решается пайплайном кодревью, где есть четкие критерии нужны тесты или нет.
Попробуйте тожесамое проделать в Claude code. Лично у меня с этим никогда не было проблем с тестами и документацией.
По поводу следования инструкциям Claude очень хорош. У меня длинные промпты с огромным количеством обязательных пунктов и чеклистов. Как правило проблем со следованием инструкциям нету, если правильно все наладить.
Например разбить большие задачи на подзадачи . Сделать строгое ветвление рассуждения с обязательным отчетом по каждому пункту чеклиста. Лучше не просто галочку о выполнении, а краткий отчет, тогда модель не может соскочить.
Ну и агенты. Если бы вы написали отдельных агентов для тестов и документации , то вообще вопросв бы не возникло.
Так что тут чисто вопрос подхода.
Да, спасибо попробую. Но на самом деле мой флоу разработки выглядит по-другому. Я на этапе планирования сначала просто говорю что я хочу, а потом уже в диалоге с моделью рождаются детализированные требования как это будет работать, и модели на самом деле в таком подходе реже забывают про тесты, и документацию у меня они почти всегда обновляли. Просто для бенчмарка сложно было формализовать такой подход. Поэтому реальной работе возможно модели будут себя проявлять получше чем в ходе тестирования.

Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте