Обновить
4
Владимир@thethee

Пользователь

0,3
Рейтинг
Отправить сообщение

Про механизмы верификации в статье написано буквально в двух местах:

  1. Анонс того что именно содержится в харнессе

  2. Глубокая цитата Конфуция на эту тему

А что это все таки за механизмы такие? Что значит "верифицировать"? Возможность запустить только что написанные тесты? Возможность запустить саму программу?

Чем это отличается от инструментов, которые покрыты другим пунктом?

Линтеры в кодекс и Клод не встроены на уровне генов. Как раз наоборот, они зачастую пишут грязнючий код, который потом усложняет поддержку. Через N времени может статься так, что простенький баг будет чиниться минут 15 вместо 3, а фича добавляться часов 6.

Хороший подход - включить все что есть в ruff и выключить только самые не-релевантные правила. Дефолтный рафф не так много находит, а его можно хорошо настроить под стиль. Если интересно могу поделиться конфигом который сам юзаю.

Mypy хорош для проверки типизации

И все это дело включить в pre-commit hook вместе с прогоном тестов, а в инструкциях запретить пропуск хуков, а то все модели грешат тем что пропускают хуки если считают, что это не их вина что тесты упали и типо можно не исправлять.

На счёт того что ИИ проверяет за ИИ - согласен, часто opus замечает ошибки GPT и наоборот. У меня основной рабочий опус, но после каждой выполненой фазы вызывается codex через mcp сервер (в codex cli встроена возможность работы как mcp сервер) и опуск встраивается инструкция что все что он найдет (даже то что кажется out of scope) нужно фиксить, а то что кажется false positive - уточнить через reply, а если так и не получилось договориться, что сохранить мне на рабочий стол в папку с багами, и я потом разгребаю то что опус считает by-design, а кодекс - багом. Обычно заставляю все фиксить, но уже отдельными задачами, если они действительно не влияют на текущую фичу

А ruff по безопасности и не выдаст вроде ничего кроме базовых sql инъекций. Есть другие сканеры безопасности. Они все фолзят, но даже если среди 100 фолзов будет один правильно зарепорченный баг это уже золото и сохраненные деньги для бизнеса, так что советую попробовать прогнать какой нибудь sonarqube или что там щас популярное.

Ну и анализ не статистический а статический

Какой такой скилл? Engram? Это ведь архитектурное внутреннее улучшение для моделей, а не скилл который можно поверх обученной ллм прикрутить.

Что именно добавил в итоге и как работает?

В вайтлистовой зоне не будет работать так

Насколько слышал килокод в чистом виде подзабросили, мало в него коммитится, разрабы перешли делать агентские фермы или типо того

Есть mcp сервера которые lsp используют, но это не конкретный агент. Serena насколько помню позволяет переименовать, и ещё один какой то.

Если у вас с локальными моделями все ещё запускается sonnet/opus, значит вы что то не так настроили. Посмотрите у z.ai, есть пример по смене ссылки и всех упоминаний всех моделей на нужную. Тоже самое с локальными моделями делаете и спина болеть не будет

Тотальный мрак))

Новый Next Js 16.2 добавил в свой шаблон приложения AGENTS.md, а в CLAUDE.md просто ссылка @AGENTS.md . Я тоже так начал делать, потому что частенько прыгаю между разными харнессами и провайдерами

Для этого нужно знать nodejs, или знать о чем именно просить нейронку. Переписать на Раст проще с точки зрения пользователя, он на слуху, тут и получается plug and play оптимизация производительности.

Профессионал оптимизирует свой код, а обыватель, увы, пойдет по простому пути, получит неоптимальный код, возможно с багами, на другом языке. Вот только если этот неоптимальный код действительно ускоряет, и баги исправимые, то почему бы нет

Да, нейронка писавшая статью не на том сосредоточилась. Лучше бы показала исторически как изменялись цифры бенчмарков медицинских, и показала статистику какую нибудь, и мораль бы сместилась что лет 5 назад о таком и подумать нельзя было, три года назад это было местами, а сегодня вполне себе реальность, пусть и для богатых, из-за обилия всевозможных параллельных экспериментов.

Вот надо эти эксперименты удешевлять, и внедрять нормальный процесс, я уже где то читал что есть несколько подобных случаев. В некоторых вещах людям хватало тех исследований которые проводились по стандарту, и чатгпт находил в них то, на что у врачей глаз замылился, а некоторые такие как текущий субъект.

Если взять все вышесказанное в расчет, и дать правильные источники, мораль будет уже про положительную динамику таких случаев.

Однако, истории НЕуспеха лечения смертельных болезней некому рассказать, тогда статья могла бы опровергнуть все что я рассказал, и мораль была бы о предупреждении, и отношении к источникам информации с критикой.

Вот бы нейронки не только рак лечили, но и нормально статьи писали. @runaway_llm

Смотря какой проект, сколько и каких задач. На счёт каждые 2 часа вы что то путаете, там 5-часовые лимиты и недельные

Claude code, это просто консольная оболочка, которой можно подсунуть локально развернутую модель (vLLM, например, нативно поддерживает) и запускать в закрытом контуре. Всякие команды, скиллы и прочее это всё остаётся актуальным для любой современной открытой модели.

Такое исследование надо перепроводить раз в пол года примерно.

Sonnet 3.5, от которого все визжали от восторга в свое время, по нынешним меркам очень слабый, 3.7 не сильно далеко ушел от него

И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально
И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально

С опусом 4.6 сравнивать даже нет смысла.

Плюс исследование проходило в начале 2025 года, когда соннет 3.7 вышел в конце февраля, то есть люди ещё не собрали воркфлоу и бест практисы на эту модель. Каждый раз когда выходит новая модель происходит небольшой откат, потому что надо тюнить под новую модель в любом случае.

Не хочу, чтобы это выглядело как попытка оспорить результаты этого исследования, просто прошу относиться к таким исследованиям с долей критики, особенно по прошествии времени. Модели вышедшие год назад это совсем не тоже самое, что доступно сейчас.

Я однозначно согласен с тем, что ИИ повышает качество и не заменяет программиста целиком. Просто позволяет сосредоточиться на более верхнеуровневых задачах, чем крудошлёпство и поиск мелких багов.

Судя по картинке я уже давно в бездне, но ощущаю себя в мелководье. Нужна вторая часть про agent swarm и иже с ним

Именно поэтому задача делается быстро, здесь и сейчас, строго по требованиям. Не факт что понадобится все вышеперечисленное.

Если задача ежегодно делать простенький отчёт на компанию в 50 человек это одно ТЗ и результат один и сроки выполнения одни (короткие, т.к. других задач хватает в компании из 50 человек). Задача рядового программиста в такой компании - усидеть на нескольких стульях, а не заниматься овер-инжирингом. Легче потом переписать с нуля подобный скриптик.

А когда у вас мега-корпорация на 10к сотрудников и больше, там и ТЗ с проработкой соответствующее, и берется не программист одиночка, а архитектор который все и предусматривает. Задача рядового программиста в такой компании - сделать точно как просят, а не заниматься овер-инжирингом. За доработкой и развитием тут следят другие люди, есть роадмапы и техлид сообщит где лучше углубиться и сделать побольше абстракций.

Буквально написано что математики перепроверили. Тут вообще не было вопроса о доверии, там сначала селф-чек прогнали, потом сам опубликовавший со знакомым студентом математиком, и другой математик подтвердили.

Какая разница чем оно сгенерировано, если оно работает, и ошибок нет?

В статье четко сказано, что это не такая сложная задача, просто малоисследованная, и решение такой задачи - это пример хорошего использования инструмента в умелых руках.

Что-то универсальное это не узкопрофильный генератор автотестов, а полноценный кодовый агент, у которого есть скиллы работы с jira/confluence, релевантная кодовая база. И задача "напиши мне тест на то как открывается эта страничка" самим агентом декомпозируется в "посмотреть что страничка должна делать", "посмотреть выполнена ли задача на страничку", "изучить паттерны написания тестов в проекте" и только потом уже "написать тест".

Поэтому выше вам и писали про скиллы, потому что это не условный чат делать должен, а именно кодовый агент - опенкод/клод/кодекс. С вашей моделью под капотом можно любой из этих инструментов настроить, и после правильных приготовлений у вас будет конфиг для автотестера на Java, конфиг для программиста Java, конфиг для программиста Python и так далее.

Где там фраза про автомат и обезьяну.

Инструментом надо уметь пользоваться, естественно...

Купили как-то суровым сибирским лесорубам японскую бензопилу.

Собрались в кружок лесорубы, решили ее испытать.

Завели ее, подсунули ей деревце. «Вжик» — сказала японская пила.

«У, бля...» — сказали лесорубы.

Подсунули ей деревце потолще. «Вж-ж-жик!» — сказала пила.

«Ух, бля!» — сказали лесорубы.

Подсунули ей толстенный кедр. «ВЖ-Ж-Ж-Ж-Ж-Ж-Ж-ЖИК!!!» — сказала пила.

«Ух ты, бля!!» — сказали лесорубы. Подсунули ей железный лом.

«КРЯК!» — сказала пила.

«Ага, бля!!!» — укоризненно сказали суровые сибирские лесорубы! И ушли рубить лес топорами…

Правила самопроверки, линтеры, авто-тесты, правильно собрать контекст и подать задачу - это все надо делать, и делать правильно, кодовый агент это не волшебный джин, а скорее черт из табакерки.

В итоге будет не полтора часа впустую, но и не пять минут с моментальным правильным решением задачи. Все также возможно несколько итераций, но все же меньше времени тратится, если правильно приготовить

1
23 ...

Информация

В рейтинге
2 996-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность