Pull to refresh
4
Владимир@thethee

User

0,4
Rating
Send message

Смотря какой проект, сколько и каких задач. На счёт каждые 2 часа вы что то путаете, там 5-часовые лимиты и недельные

Claude code, это просто консольная оболочка, которой можно подсунуть локально развернутую модель (vLLM, например, нативно поддерживает) и запускать в закрытом контуре. Всякие команды, скиллы и прочее это всё остаётся актуальным для любой современной открытой модели.

Такое исследование надо перепроводить раз в пол года примерно.

Sonnet 3.5, от которого все визжали от восторга в свое время, по нынешним меркам очень слабый, 3.7 не сильно далеко ушел от него

И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально
И это даже не самая сильная опенсорс модель, просто то что люди смогут через пару недель поднять локально

С опусом 4.6 сравнивать даже нет смысла.

Плюс исследование проходило в начале 2025 года, когда соннет 3.7 вышел в конце февраля, то есть люди ещё не собрали воркфлоу и бест практисы на эту модель. Каждый раз когда выходит новая модель происходит небольшой откат, потому что надо тюнить под новую модель в любом случае.

Не хочу, чтобы это выглядело как попытка оспорить результаты этого исследования, просто прошу относиться к таким исследованиям с долей критики, особенно по прошествии времени. Модели вышедшие год назад это совсем не тоже самое, что доступно сейчас.

Я однозначно согласен с тем, что ИИ повышает качество и не заменяет программиста целиком. Просто позволяет сосредоточиться на более верхнеуровневых задачах, чем крудошлёпство и поиск мелких багов.

Судя по картинке я уже давно в бездне, но ощущаю себя в мелководье. Нужна вторая часть про agent swarm и иже с ним

Именно поэтому задача делается быстро, здесь и сейчас, строго по требованиям. Не факт что понадобится все вышеперечисленное.

Если задача ежегодно делать простенький отчёт на компанию в 50 человек это одно ТЗ и результат один и сроки выполнения одни (короткие, т.к. других задач хватает в компании из 50 человек). Задача рядового программиста в такой компании - усидеть на нескольких стульях, а не заниматься овер-инжирингом. Легче потом переписать с нуля подобный скриптик.

А когда у вас мега-корпорация на 10к сотрудников и больше, там и ТЗ с проработкой соответствующее, и берется не программист одиночка, а архитектор который все и предусматривает. Задача рядового программиста в такой компании - сделать точно как просят, а не заниматься овер-инжирингом. За доработкой и развитием тут следят другие люди, есть роадмапы и техлид сообщит где лучше углубиться и сделать побольше абстракций.

Буквально написано что математики перепроверили. Тут вообще не было вопроса о доверии, там сначала селф-чек прогнали, потом сам опубликовавший со знакомым студентом математиком, и другой математик подтвердили.

Какая разница чем оно сгенерировано, если оно работает, и ошибок нет?

В статье четко сказано, что это не такая сложная задача, просто малоисследованная, и решение такой задачи - это пример хорошего использования инструмента в умелых руках.

Что-то универсальное это не узкопрофильный генератор автотестов, а полноценный кодовый агент, у которого есть скиллы работы с jira/confluence, релевантная кодовая база. И задача "напиши мне тест на то как открывается эта страничка" самим агентом декомпозируется в "посмотреть что страничка должна делать", "посмотреть выполнена ли задача на страничку", "изучить паттерны написания тестов в проекте" и только потом уже "написать тест".

Поэтому выше вам и писали про скиллы, потому что это не условный чат делать должен, а именно кодовый агент - опенкод/клод/кодекс. С вашей моделью под капотом можно любой из этих инструментов настроить, и после правильных приготовлений у вас будет конфиг для автотестера на Java, конфиг для программиста Java, конфиг для программиста Python и так далее.

Где там фраза про автомат и обезьяну.

Инструментом надо уметь пользоваться, естественно...

Купили как-то суровым сибирским лесорубам японскую бензопилу.

Собрались в кружок лесорубы, решили ее испытать.

Завели ее, подсунули ей деревце. «Вжик» — сказала японская пила.

«У, бля...» — сказали лесорубы.

Подсунули ей деревце потолще. «Вж-ж-жик!» — сказала пила.

«Ух, бля!» — сказали лесорубы.

Подсунули ей толстенный кедр. «ВЖ-Ж-Ж-Ж-Ж-Ж-Ж-ЖИК!!!» — сказала пила.

«Ух ты, бля!!» — сказали лесорубы. Подсунули ей железный лом.

«КРЯК!» — сказала пила.

«Ага, бля!!!» — укоризненно сказали суровые сибирские лесорубы! И ушли рубить лес топорами…

Правила самопроверки, линтеры, авто-тесты, правильно собрать контекст и подать задачу - это все надо делать, и делать правильно, кодовый агент это не волшебный джин, а скорее черт из табакерки.

В итоге будет не полтора часа впустую, но и не пять минут с моментальным правильным решением задачи. Все также возможно несколько итераций, но все же меньше времени тратится, если правильно приготовить

Ну кстати нейронки галлюцинируют тоже по разному. Я в этом плане немного научился сорта г..на различать. Когда кодекс перепроверяет за claude opus получается довольно неплохо, они друг друга поправляют, спорят, и выдают нечто лучшего качества, чем по отдельности. Не идеал, естественно, но с этим можно работать.

Я на такой случай сжигаю побольше токенов, но у меня опус запускает codex (через mcp) в read only gpt-5.4 xhigh с предварительным доведением плана до консенсуса через reply в ту же сессию. Затем пишет план, готовит макеты (временно выходим из режима плана, т.к. макеты сделать надо). Когда все устраивает, он дописывает план и в зависимости от сложности отправляет 1-3 субагентам самого себя (явно указывает opus чтобы моделька с 1млн контекстом подтянулась а не легаси, на днях баг нашел из за спама нотификаций на автокомпакт диалога), фиксит ошибки и после этого чистой сессии codex отдает на финальное ревью.

После этого план получается наиболее полным и лишён совсем уж явных ошибок. Занимает все это дело вместо 5 минут, ну минут 30-40 наверное, но меня устраивает, потому что я потом возвращаюсь, целиком читаю и даю полноценный фидбэк, и по визуалу, и по составу плана, ушли мы куда-то не туда, было ли недопонимание, или все адекватно распланировано и выделены очевидные фазы реализации.

Потом во время реализации похожий подход, с ревью суб-агентами + кодексом (доведение до аппрува, то есть если нашли баги то ре-ревью обязательно), и финальное ревью на соответствие плану.

Очень много находит такое кросс-ревью. Некоторые мелкие ошибки остаются, но они во время запуска быстро отлавливаются, а вот общая логика кривая тогда и только тогда когда я поленился прочитать план, в котором было написано, что меня не так поняли.

Люди галлюцинируют довольно медленно. У других людей есть шанс среагировать на опыте и предотвратить падение инфраструктуры. Представьте себе сколько аварий было предотвращено, а вы даже не знаете героев ситуации.

Посмотрите на стабильность API и ChatGPT у openai, откройте openai status сейчас и отмотайте до 2021 года. Можете идти по очереди и вживую наблюдать как с введением агентов увеличивается число неполадок.

Пока люди генерят 300 строк, агенты генерят 300 PRов по 300 строк. Все никто смотреть не будет, боттлнек дикий, а инвесторы уже повесили дамоклов меч. Соответственно агенты друг за другом следят, вот только следят они в разы хуже, чем раньше следили люди друг за другом.

Врут. Безбожно врут. И GPT 5.4 и Opus 4.6, а все что слабее их и подавно. И когда ловишь на этом смешно так оправдываются, сначала даже спорить могут начать. Это примерно тот момент когда пора контекст сбрасывать либо давать инструкции на grounding через веб поиск или документацию. Либо изначально ставить задачу с поиском документации или исходного кода и если делается утверждение оно должно быть подкреплено источником. Но тогда надо источники проверять тоже, потому что и документация может быть не точная, и нейронка может соврать что там есть текст который она придумала.

В общем сейчас несведущих обманывают, появляются критические баги которые не отлавливаются ревью теми же или даже другими нейросетками.

Только если глаз намётан уже, чувствуешь что "что-то не так" в поведении, или код делает не совсем то что нужно. Парочка вопросов и оно уже извиняется и чинит баг, попутно каясь что придумал, что это "общеизвестный факт или особенность". И до тех пор пока их учат предсказывать факты (QA датасеты - тюнинг и проверка на них все ещё идёт в чистом виде), вместо того чтобы их искать при помощи инструментов, никакое количество инструкций, предостережений и прочей белиберды в CLAUDE.md / .cursorrules / AGENTS.md / <впишите_своё>, не поможет от галлюцинаций. Просто их становится сложнее заметить, т.к. нейросети убедительнее врут и стараются пройти по нижней планке чтобы получить награду, вместо того чтобы честно признаться в том что не знают и не могут знать вообще все на свете, и загуглить.

Попросите openclaw развернуть вам vllm. Только на личном сервачке должен быть linux насколько помню. Можно sglang в docker попробовать, так вроде на Винде можно и tool calling поддерживается.

Странно что в lmstudio до сих пор нет...

UPD:

выше пишут что tool calling есть. Просто 2-3B модели это слишком мелко. Надо 9B+, а лучше 32B квантованную если ресурсы позволяют.

Если даже идея ваша. Если нейросетки просто верстают итоговую версию статьи и исправляют опечатки. Вычитывайте пожалуйста

Это не «желательно» — это условие работоспособности.

Дичайший маркер, будто в чатгпт/дипсик зашёл. Очень режет глаз, когда нейронки воду льют, переставляя слова из предыдущего предложения. В предыдущем уже было что версии должны совпадать, иначе ошибки, и тут просто из ниоткуда "пустое" предложение, которое попросту не нужно в тексте.

Щас почти во всех агентах есть то что автоматически подгружается в контекст, AGENTS.md, CLAUDE.md и так далее. Система грузит контент такого документа, в том числе при автоматическом сбросе контекста, так что у агента нет выбора читать или не читать этот файл.

И часто делают иерархические, по модулям раскиданные AGENTS.md которые тоже автоматом грузятся когда агент работает с этим модулем, и там до любой глубины папок можно создавать.

Да тут и не нужно быть нейроцыганом, чтобы посмотреть что модели уже прошли трешхолд бесполезности. Достаточно быть немного техническим человеком, уметь копировать ошибки из консоли, или понимать что такое "claude code", чтобы начать что то строить. Абсолютно любой вопрос задаётся в коробочку, "как мне это построить, какие бест практисы, как задеплоить, где купить домен, что это за цифро-буквы reg.ru и что мне туда вписывать, где взять SSL сертификат" и коробочка за ручку проведет по всему процессу.

Это может быть не фулл продуктовое решение, но время от идеи до MVP сокращается семимильными шагами, а питчить перед инвесторами намного легче не по слайдам, и даже не по макету, а по готовому решению, которое уже исполняет идею. Тут в плюс идёт сразу же доказательство, что это в принципе работает, причем почти без прилегания усилий, остаётся нудная доработка или даже переработка с нуля до продуктива, но уже заранее известно что это то что нужно.

It just works (c) (tm)

Причем без шуток. Сидишь на чистом pip - мучаешься с зависимостями, которые обновляются неизвестно когда, причем якобы минорный багфикс, но меняется поведение, пересаживаешься на conda - мучаешься с тем насколько долго это работает, все ещё требует активации, и dependency hell продолжается, потому что тут нужен conda forge, там какой то другой сборник пакетов. Перешёл на uv - just works. Хочешь поставить чисто torch из репы Nvidia - пожалуйста, хочешь поставить все "как нибудь" - окей, вот тебе через 0.1 секунду ошибка несовместимости, причем конкретная и иногда с путями решения.

Кажется что source .venv/bin/activate это всего несколько символов, но насколько же удобнее без этого, просто uv run из нужной директории и все работает. Причем это обратно совместимо, если нужен чистый venv - он доступен.

Я через uv иногда просто для старых проектов venv собираю потому что он и с requirements.txt работает и позволяет получить преимущество удобства/скорости в установке и потом все равно uv run работает. Даже залочить зависимости можно без pyproject.toml, если мне не изменяет память.

Это инструмент который помимо общего улучшения приносит кучу мелких удобств. Это как работа с проектом без git и с git. Абсолютно другой уровень, хотя идея простая. Просто "правильно" реализована.

Истратил все лайки уже, но абсолютно согласен, прекрасная аналогия.

Если вы без агентских приблуд запускали просто в чате, то обязательно нужно включать режим веб поиска и инструктировать модель искать. В "чатах" у нее менее точные инструкции для технических задач и она реже ищет информацию.

А как выше уже писали - claude code как минимум py_compile запустит и ошибку импорта отловит, а как максимум, если кэш локально висит - самостоятельно зайдет и посмотрит. Все это занимает ну на 2-3 минуты дольше, но получается в итоге более качественный код, явно не час чтобы разобраться самому, но и пользы меньше в таком подходе, учиться таким способом все равно не получится, пока не сделали какие нибудь режимы обучения грамотные

1
23 ...

Information

Rating
2,641-st
Location
Москва, Москва и Московская обл., Россия
Registered
Activity