Философствующий Claude 4, Gemini для самых маленьких и пачка агентов-программистов: главные события мая в ИИ / Комментарии / Хабр

Opus стал лучшей моделью для программирования, показав 72.5% на SWE-bench и способность работать над задачами часами без перерыва. Sonnet 4 тоже впечатляет — 72.7%

У Sonnet выше же accuracy, почему тогда Opus стала лучшей моделью?

Или дело только в том, что у Opus способность работать над задачачами часами без перерыва

rPman 4 июн в 19:04

-

PsychoGod 4 июн в 20:47

блин, очень крутая и насыщенная подборка новостей получилась

спасибо за труды 🙏

надо будет последить за китайцами, windsurf в openai, и гугл с их агентами

CSRedRat 9 июн в 06:04

Кто подскажет, каких агентов использовать для перевода с языка Python на Rust?

Можно сделать полноценную CMS на нейросетях для вайбкодинга и достаточно для этого одного Cursor?

rPman 9 июн в 14:17

Не достаточно, полностью автоматического не получится, а если не полностью, то ответ варьируется от того, на сколько человек будет задействован в процессе.

Как минимум для решения такой задачи нужно качественное ТЗ, по которому писалось изначальное приложение, иначе будет упущена большая часть важных нюансов.

Зачем вам что то готовое, если на каждую ситуацию можно попросить создать такого агента саму нейросеть?

Я в качестве экспримента пилил простейшие скрипты (а только такие и имеют смысл) агентов для решения сиюминутных задач, просто описывая задачу openai:gpt-4.1/o3 и anthropic:sonnet4, за 2-3 итерации задача решалась чистейшим вайбкодингом, я не смотрел в сам код ни разу... примеры агентов, для каждого файла (список расширений) в текущем каталоге и подкаталогах запускать промпт по указанному шаблону (в нем место для вставки имени файла и содержимого), ответ собирать по такой то логике по указанным шаблонам в другой файл (например jsonl), там еще была отправка запросов параллельно не больше указанного количества, так быстрее результат. Такой примитивный агент решает кучу задач по первичному анализу кода, собирает данные, которые уже другими запросами или другими утилитами, можно продолжать анализировать.