greenrus13 мар в 11:22

Какая ИИ-модель лучше пишет код? Тестирую 8 популярных моделей на реальной задаче в opensource-проекте

Средний

14 мин

13K

Искусственный интеллект

Обзор

Из песочницы

+19

Комментарии 12

vanaluk 13 мар в 14:46

Так ведь Agents.md по умолчанию читают только модели OpenAI. Для остальных нужно указывать об этом явно или правила создавать.

greenrus 13 мар в 14:48

Это все же зависит от инструмента, который используется. Файлы типа AGENTS.md добавляются в контекст перед первым запросом. Если смотреть документацию Opencode, AGENTS.md поддерживается: https://opencode.ai/docs/rules/

Romatio 13 мар в 16:24

У меня другая проблема - ClaudeCode пишет тесты, хотя в инструкции четко указано - только по запросу.

greenrus 13 мар в 22:40

Ну это опять же говорит о том, что модели от Антропик игнорируют инструкции

exelens 13 мар в 18:14

Спасибо за код бота) будет чем заняться на выходных

Ajex 14 мар в 09:41

Интересное сравнение, спасибо. Только не понятно почему штрафуете за отсутствие тестов и документации? Вы давали такое задание моделям? То же Клод отлично делает и то и другое. И замечательно использует в работе прогоняя тесты до и после правок. Также четко ведёт и использует документацию.

greenrus 14 мар в 10:01

В статье я упомянул, что у меня в AGENTS.md указано, что тесты нужно писать, и другие тесты в репозитории есть. То есть штраф идет по сути за то, что модель не следует инструкциям. Писать каждый раз в промте, что нужно написать тесты не очень удобно. Хотя конечно в идеале это решается пайплайном кодревью, где есть четкие критерии нужны тесты или нет.

Ajex 14 мар в 10:17

Попробуйте тожесамое проделать в Claude code. Лично у меня с этим никогда не было проблем с тестами и документацией.
По поводу следования инструкциям Claude очень хорош. У меня длинные промпты с огромным количеством обязательных пунктов и чеклистов. Как правило проблем со следованием инструкциям нету, если правильно все наладить.
Например разбить большие задачи на подзадачи . Сделать строгое ветвление рассуждения с обязательным отчетом по каждому пункту чеклиста. Лучше не просто галочку о выполнении, а краткий отчет, тогда модель не может соскочить.
Ну и агенты. Если бы вы написали отдельных агентов для тестов и документации , то вообще вопросв бы не возникло.
Так что тут чисто вопрос подхода.

greenrus 14 мар в 10:52

Да, спасибо попробую. Но на самом деле мой флоу разработки выглядит по-другому. Я на этапе планирования сначала просто говорю что я хочу, а потом уже в диалоге с моделью рождаются детализированные требования как это будет работать, и модели на самом деле в таком подходе реже забывают про тесты, и документацию у меня они почти всегда обновляли. Просто для бенчмарка сложно было формализовать такой подход. Поэтому реальной работе возможно модели будут себя проявлять получше чем в ходе тестирования.

ZAVHome 14 мар в 15:01

Команды обновлять документацию нет, вот модели её и не обновляют :)

diffnotes-tech 14 мар в 16:08

Оценку выставляет GPT-5.3 Codex - один из участников. LLM-оценщики стабильно предпочитают стиль кода своей семейки моделей, это известная проблема. Для контроля стоило прогнать оценку через Claude или Gemini параллельно - разница в баллах покажет насколько оценки зависят от судьи

greenrus 15 мар в 09:19

Там критерии оценки достаточно точно описаны, большой разницы в оценках не будет в зависимости от модели. А вот если давать формулировать критерии разным моделям - тогда уже отличия могут быть существенными

Зарегистрируйтесь на Хабре, чтобы оставить комментарий