nikicat May 7 at 19:13

Opus 4.7 vs GPT-5 vs DeepSeek V4-Pro: три агента строят TSS-CLI на Rust

Medium

7 min

14K

Rust * Artificial IntelligenceMachine learning *

Review

From sandbox

+12

Comments 16

doitagain3 May 7 at 21:10

Gemini не конкурент?

SurMaster May 8 at 05:16

даже близко нет. юзаю с корп подпиской - не для серьезного кодинга она, ну никак. только как ревью плана и результата использовать можно, иногда подсвечивает неочевидные вещи

vlad4kr7 May 8 at 01:34

а есть какая моделька, чтобы смогла как Opus, только локально?

VnNort May 8 at 05:09

Glm 5.1, возможно

ddmitry May 8 at 06:54

Если кластер 8 промышленных видеокарт мы считаем за "локально", то да. Но я дома такого ни у кого из приятелей не видел :)

Romatio May 8 at 12:05

По бенчам DeepSeek V4-Pro типа на уровне opus 4.6. Пару миллионов на железо, и будет гуд. Мак или сборки на картах 5090 - не то.

Даже если в чатике выдает +-20 токенов в секунду и на пообщаться хватит, агент будет на такой скорости работать неделями. Для мощных задач с потребительским железом проблема.

ddmitry May 8 at 06:19

Автор почему-то пропустил auto approve режим в Claude, который сам решает, какие из действий агента безопасно разрешить автоматически, а где - нужно обязательно позвать оператора.

Но все равно исследование интересное. И более-менее сходится с моим опытом о моделях. Что архитектуру, структуру приложения или задачи лучше поработать с Opus. Реализацию же - последние версии GPT справляются прилично.

nikicat May 8 at 06:49

Это и был auto-approve. Без него, думаю, было бы ещё больше.

ddmitry May 8 at 06:52

Вот это интересно. Но объяснимо. Авто-аппрув делает модель Sonnet, и видимо, ей тематика разработки неизвестна от слова "совсем", и она не может принять решения с нужной степенью уверенности.
Любопытный эксперимент :)

fray2000 May 8 at 12:55

Начиная GPT 4o и ранних Sonnet, всегда очень быстро разочаровывался в GPT и продолжал работать с Claude вплоть до текущего момента. Но в последнее время все чаще и чаще мелькают положительные отклики (как будто даже не маркетинговые) на новые модели OpenAI. Следует дать ещё шанс?

nikicat May 10 at 08:51

Думаю стоит, последнее время слышно много положительных отзывов

gian_tiaga May 12 at 06:40

Теперь опус разочаровывает, а гпт лучше становится. Как итог отменил подписку на антропик и взял гпт. Теперь кодекс основной инструмент. Он меньше галюцинирует, быстрее пишет, но любит в 1 файле все сделать, ему надо явно архитектуру и ограничения дать.

pilc80 May 14 at 11:41

Мне кажется, проблема не только в том, что AI забирает «джунские» задачи, а в том, что команды часто не перестраивают обучение. Если джун просто получает готовый diff от агента, он действительно не проходит через боль чтения чужого кода, локализации бага и проверки гипотез.

Возможный компромисс: давать AI как инструмент, но фиксировать учебные ограничения. Например: сначала ручная диагностика, потом генерация варианта решения, потом обязательное объяснение diff-а и отдельный review checklist: что поменялось, какие инварианты могли сломаться, какие тесты это доказывают. Тогда AI не заменяет обучение, а ускоряет обратную связь.

nikicat May 14 at 11:42

Harness для джуна?

pilc80 May 14 at 12:11

Да, именно

Soulskill Jul 10 at 08:23

я хз как так тестили, пробовал deepseek в связке с hermes. написал ему нормальный системный промпт. в итоге он выдал нормальный пайплан работы, TDD. ну и да сначала надо попросить у чата переделать тз, чтобы нейронка его понимала и сделать его на англ, как и системный промпт. может мне везет хз. делал прогу с tui для работы с железками.