Комментарии 61
У меня ещё одно правило: общаться с моделью только на английском. В техническом разговоре ломаный английский менее двусмысленен, чем правильный русский. Да и связи между терминами и их концепциями крепче. А то ты ей про паттерн Строитель - она тебе Имхотепа вспомнит.
А вообще имею подозрение, что с правильным промптом и обвязкой даже Qwen всё сможет.
английский, только английский. если общаться на русском в узкой предметной области, к примеру, "возможности AWS Security Hub", модель вот прямо заметно "тупеет". что неудивительно, так как модель тренировали на англоязычном датасете, а русскоязычных материалов, предполагаю, было на два порядка меньше (а то и на три). можно попробовать, наверное, инструкцию "каждый мой пропмт сначала переводи на английский и работай с ним" - не знаю, поможет ли, не пробовал
мне кажется вопрос постановки задачи, на русском надо иначе формулировать уточнять
давно заметил что на русском и на английском приходится по разному промты строить если задача комплексная
только и только на английском "лучше" только с локальными моделями, точнее с ними кодовые агенты реально тупее если ставишь задачу не на английском, а вот кодекс/клод уже давно выше этого и прям заметного падения качества от языка я не заметил
В кодинга агент всегда повторяет ваш вопрос на английском переформулируя его а потом обсасывает на английском со всех сторон. Я 3 месяца писал на английском, потом перешёл на русский и прилично ускорился. Потому что я русский знаю лучше, а агенту пофиг.
Спокойно можно привет на русском уже давно, пишу только на русском, успех 99 процентов. В свое время для английский давал буст , сейчас он стал таким маленьким что его не видно
Есть мнение, что это не английский более точен, а вы менее требовательны к своему тексту на английском, чем на русском. На родном языке вы читаете сформулированный текст и можете представить тысячу подсмыслов, а в английском, без культурного бэкграунда, все кажется прямолинейным.
ну на практике такого не вижу , так что это скорее надуманная проблема чем реальность, вы в клод коде или кодексе испытываете такую проблему со смыслами ? как по мне там всегда все однозначно
Я, честно говоря, не вижу разницу в результатах работы клода в зависимости от языка. Но зачастую замечаю, что мне проще написать на английском, чем пытаться сформулировать на русском. И я рефлексировал на эту тему: либо сказываются сотни часов чтения на гитхабе и соответственно легче формулируются технические вещи на этом языке, либо, как я предположил выше, это самообман и в русском запросе я просто больше требователен к своим формулировкам.
с правильным промптом и обвязкой даже Qwen всё сможет.
Пользуюсь Qwen Code + qwen3.6-plus, план модель всегда составляет сама, без дополнительных просьб и напоминаний, свои тесты тоже запускает и ошибки в них смотрит сама (без всяких хуков), поиск по проекту быстрый и точный, внесение любых правок или запуск команд только после ручного подтверждения, не нужно отдельно прописывать это. Пользуюсь не так давно, в целом модель кажется довольно умной, с поставленными задачами справляется. Конечно в любом случае все проверяется вручную. Использую не по максимуму и не каждый день. С Opus, Gemini, GPT не сравнивал, но пока не вижу смысла переплачивать за более дорогие модели.
Ну хочу вас огорчить там сильно хуже к сожалению, мульти агент на клоде плюс кодек плюс гемени в разы лучше
Вот прямо в разы?) А что по соотношению цена - качество?
qwen3.6-plus на довольно сложном проекте нормально справлялся с поставленными задачами. Возможно, есть модели получше (которые в разы дороже). То что они лучше "в разы" - сильно сомневаюсь.
Да , ну как бы а зачем мне гнилые яблоки если я хочу хорошие, анлимные подписки пока стоят копье к нашему счастью когда они будут стоит по несколько тысяч в месяц тогда да , будет иметь какой то хоть смысл морочиться с этим , а пока почти даром раздают то вообще нет смысла переживать
Правильно ли я вас понял, что вы сравниваете китайские модели с "гнилыми яблоками" и утверждаете, что Opus, Gemini, GPT в "разы лучше"? Какие-то пруфы есть, или просто субъективщина на уровне "каждый кулик свое болото хвалит"?
Да модели все популярные мы постоянно тестируем в своих флоу и смотрим что лучше и хуже, благо это очень легко автоматизируется ну и я думаю многие публично выкладывают тексты моделей и не проблема их нагуглить
ну так видимо вы просто не понимаете в итоге что получаете , смысл в прохих решениях? если можно за копье иметь лучшее решение на рынке. Из простого доволдьно много задач они не могут сделать от слова совсем это про китайские квен кими минимакс и прочие , то есть если оно не может сделать часть задач которые делает связка из агентов кодекс клод гемени , зачем они вообще нужны ? пока подписки стоят при копейки вообще нет смысла на грамм проседать в качестве и отсутствии решений, время стоит все равно дороже
Из простого доволдьно много задач они не могут сделать от слова совсем это про китайские квен кими минимакс и прочие
первый раз встречаю такое утверждение) ну и тесты говорят об обратном. В моем случае квен с поставленными задачами справляется, в большом проекте разбирается без проблем.
связка из агентов кодекс клод гемени стоят копейки
$200 в месяц + гемини + гпт - копейки? Ну ок.
В любом случае ваше право, конечно, чем пользоваться. Я лишь поделился в комменте своим опытом.
Квен реально подтянулся за последний год. Для рутины его хватает с головой, и стоит он копейки по сравнению с антропиком
Раньше так и было, сейчас модели уже нормально русский понимают. Главное логику задачи внятно описать, а не язык выбрать
что-то гложут меня сомнения, что такая массивная структура чем-то помогает, а не просто забивает контекст
с агентами сейчас чем лаконичнее и понятнее тем лучше, потому как большой объем кроме контекста еше и точек двойственного толкования добавляет. А клод сейчас и так поглупел, забывая кусками правила почти сразу
Хук я бы чуть поправил. run_bot_tests.py при падении pytest печатает в stderr и делает sys.exit(0). Т.е. PostToolUse делает "увидел ошибку - попробовал починить". Но tool call уже прошел, файл уже изменен.
exit 2 у PostToolUse не откатывает действие, а только скармливает ошибку обратно Клоду. Если нужна именно защита от мусорного результата, ее надо вешать на Stop/TaskCompleted или тащить в pre-commit/CI.
Это относительно старая статья, тут уже большая часть всего переписана, не переживайте.
А зачем здесь относительно старая статья, если всё уже переписано?
Ну потому что раньше переписывали все два года, сейчас два дня, пока статья висела на модерации и в песочнице прошло времени вагон
Это здорово, но на вопрос не отвечает
ну написал статью , так как хабр не быстрый пока прошла модерация, потом в песочнице ждала пока одобрят, прошло несколько недель, за это время понятное дело уже и флоу поменялись и код обвязок и прочее.
Если раньше я там писал статью и она годы была актуальна, сейчас зачастую через неделю бывает проект полностью переписан с нуля.
Я и говорю - это отвечает на вопрос "почему" на Хабре неакутальная статья, и спросил - а "зачем"? Если модерация не успевает к актуальности, что Вы, собственно, хотите по устаревшей статье обсудить-то?
а смысл это спрашивать у меня , не я модерирую , не я делаю апрув в песочнице. ситуация такая прихожу утром за свежим хлебом там очередь на весь день вечером беру ну такой честно уже черствый хлеб, а вы спрашиваете , а че свежий то не взял. Ну а у меня глаза на лоб
Видимо, придется задать совсем прямой вопрос - как смотрите на то, чтобы снести неактуальную статью, вместо того, чтобы обсуждать в ней неактуальный материал, и запостить ту новую, где уже всё исправлено?
Сейчас перед архитектурным вопросом я даю модели:
- характеристики нагрузки (сколько запросов в секунду, объём данных, как часто читают/пишут)
- стек и инструменты, которые уже стоят
- историю проекта — на каких решениях обожглись, что не используем принципиально
- кто будет сопровождать это после меня
Или пример неудачный, или я что-то не понял. Если знать ответы на эти вопросы, то решение само должно родиться в голове. Уже проделано 90 процентов работы.
Ну если брать какую нибудь задачу не сильно сложную, я её делаю неделю зная ответы выше. Какой нибудь кодекс ее делает за 5 могут моего времени если все удачно сложилось. Тут просто скорость работы на порядок отличается на выходе
В том-то и суть, что архитектуру придумываешь ты, а кодогенерацию спихиваешь на железку. Сам подумал, машина напечатала, профит
Подписка Max — это две тысячи долларов в год. Сильно. Если бы я не использовал Claude Code — мне было бы за неё обидно. Так — нормально, по часам отбивается.
Поясните, пожалуйста, как именно отбивается? Берете больше работы, за которую больше платят?
Меньше тратите на работу и больше отдыхаете?
первое сообщение в новой сессии писать на полтора абзаца с контекстом
А не пробовали это самое первое сообщение для сессии генерить моделью же, напоследок перед закрытием предыдущей?
Я стараюсь длинные сессии финализировать сводкой в файлик - это даже мне помогает контекст восстанавливать)
а зачем ? если вам надо восстановить контекст он есть в нужных мдфайлах в общих чертах, если надо полностью просто через резюм и у вас полностью идентичный контекст для продолженния работы , ну и в целом ии работает в скрине и не теряет контекст во время работы от слова совсем. Тут к сожалению вы предлагаете лишнюю работу делать которая не нужна
Слишком длинное контекстное окно делает работу моделей хуже, а compact не всегда хорош. Качественные handoff или же фиксация через спеки это залог хорошей работы с ИИ
Не вижу такой проблемы явно, каждый раз подгружать из мдфайлов сотни тысяч токенов контекста нет это все сильно ломает флоу и удорожает работу
Сейчас везде контекст больше 200к и выгоднее финансово просто на нем и работать плюс субагенты могут юзать форк то есть не подгружать конктекст гигантский их файлов в юзать контекст родителя это все в совокупности даёт большой буст в скорости и цену так как ваш контекст уже закеширован на стороне апи, там и цена падает в разы и скорость растет.
Ваш флоу был супер актуальным и я на него молился когда у всех контекст был 100-200к, сейчас увы у всех 1кк
Несмотря на максимальный лимит контекста, чем он больше занят тем нейронки хуже работают, полно бенчмарков показывающих это. Opus 4.7 вообще сильно регресснул между 4.6 и 4.8 и сильно потерял в context retrieval.
Согласен с сабагентами для того чтобы не забивать контекст основной, это хороший подход. Но если чат уже забит зачастую имеет смысл его почистить.
К статье Claude явно тоже "приложил руку". "Самое чистое попадание", "тут самое точное попадание", "слепая зона"... чисто клаудовские оборотики. Ну или это артефакты перевода с английского и, возможно, все модели этим грешат.
Могу рассказать про свои skills. Стэк: PHP (Symfony). Понял, что удобно делать скилы под процессы и под компоненты.
Например сайт мультиязычный и надо выводимые строки оборачивать методом переводов. В конце "собирать" новые переводы консольной командой в файлы yaml и в этих файлах переводить строки на конкретные языки. Так вот этот процесс описан в скиле, и Claude его использует когда что либо поменялось в UI.
Есть на сайте datalists такие сложные таблицы с фильтрами, сортировкой, пагинацией и т.п. Этот сложный компонент и когда надо создать новый datalist или изменить существующий - используем подробное описание его паттернов и архитектуры с примерами из скила.
Хуки пока не использовал, надо почитать про них..
Я делал небольшой проект для себя, и там я использовал самый популярный скилл для Реакта (не знаю, дало ли это что-то, я сам плохо его знаю), MCP для Chrome (эта штука меня впечатлила) и недавно узнанный codegraph. Последний, к сожалению, не идеальный, но выручал меня в плане скорости.
спасибо что поделились опытом, очень интересно что у вас в mcp-builder и document-skills:xlsx/pdf/docx ? можете поделиться или хотя бы кратко описать?
https://github.com/anthropics/skills/tree/main/skills/mcp-builder
Для элементов можно вообще без скилов работать если у вас нет какого то стандартного флоу и вы не делаете одни и те же документы много раз, сейчас ии читает и создаёт их из коробки не нужны приблуды как раньше
Подход с контекстом правильный, машина без вводных всегда выдаст сферического коня в вакууме. Только поддерживать эти талмуды в актуальном состоянии та еще морока - забудешь обновить доку и он тебе нагенерит кода по старым стандартам
я использую Claude Code на максимум. Не «иногда», не «когда подходит» — постоянно, на каждой задаче.
В том числе на Хабре Q&A, вводя пользователей в заблуждение.
Новая сессия = новая голова. Если на следующий день вы продолжаете задачу — дайте контекст явно, первым сообщением.
У вас разве сессии не сохраняются?
MCP к Telegram
Это какой? Что-то я ни одного зрелого MCP не встречал для Telegram.
Сразу важная оговорка: я использую Claude Code на максимум. Не «иногда», не «когда подходит» — постоянно, на каждой задаче.
два MCP-сервера
Cool story, bro
Подписка Max — это две тысячи долларов в год.
$2400, annual же есть только на Pro, не?
Перед рискованными мерджами я прогоняю изменения через другую модель — Codex от OpenAI.
Это бесплатно досталось?
Skill — это упакованная экспертиза
Т.е. все ещё prompt-preset, т.к. кроме текста мы на ввод ничего не даем.
ifresult.returncode != 0: print(f"Tests failed:\n{result.stdout[-1500:]}", file=sys.stderr)
Т.е. после каждого редакторования файла, даже просто добавления коммента - вы решили наливать в контекст stderr ?
P.S. Что за манера пошла в статьях выделять слова везде где ни попадя? LLM статью писала?

Год с Claude Code: главное — не он сам, а то, что в .claude/