Обновить
128K+
82
Иван Никитин@python_leader

Passionate Developer.

62,3
Рейтинг
200
Подписчики
Отправить сообщение

10 уроков агентного кодинга. Что делать в эпоху дешёвого кода?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели17K

Передовые модели сейчас действительно хорошо пишут код — лучше, чем справляются с большинством других задач. Работа с агентами ощущается как взгляд из будущего: полигон для проверки того, насколько далеко можно зайти с агентными возможностями. Это заряжает, даёт результат и при этом — откровенно странно ощущается.

Я веду список советов по агентному кодингу: правила и ориентиры для тех, кто только начинает работать с Codex, Claude Code, Pi или любым другим агентом. Каждый пункт — обобщённая рекомендация, применимая к агентному программированию в целом. Хочется, чтобы уроки оставались актуальными по мере того, как улучшаются модели и инструменты.

Ниже — текущий список: 10 уроков агентного кодинга. Десять — красивое круглое число, хороший повод опубликовать.

Читать далее

Как мы перешли на Opus и стали платить меньше

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.5K

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM. Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится.

Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0.

Причина в основном в том, чего Opus не делает: 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога.

Архитектура выглядит так...

Читать далее

Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели29K

30 часов хронологии того, как агент Cursor, Railway API и индустрия, которая продаёт безопасность быстрее, чем её реализует, положили малый бизнес, обслуживающий прокатные компании по всей стране.

Меня зовут Джер Крейн, я основатель PocketOS. Мы делаем ПО для прокатного бизнеса — в первую очередь для аренды автомобилей: бронирования, платежи, управление клиентами, отслеживание транспортных средств. Некоторые наши клиенты с нами уже больше 5 лет и они буквально не могут работать без нас.

Вчера днём ИИ‑агент на базе Cursor с Claude Opus 4.6 от Anthropic удалил нашу продакшн‑базу данных и все резервные копии на уровне тома одним API‑вызовом к Railway, нашему инфраструктурному провайдеру.

На это ушло 9 секунд.

Затем агент, когда его попросили объяснить произошедшее, написал признание — с перечнем конкретных правил безопасности, которые он нарушил.

Читать далее

Вышел DeepSeek V4. Почему это очень плохо для США?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели15K

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного.

Вот в чём дело.

Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна.

Здесь и начинается проблема.

Читать далее

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели12K

В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле.

Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше.

Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того?

Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.

Читать далее

Когда, зачем и как правильно начинать новую сессию в Claude Code?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели13K

В последних разговорах с пользователями Claude Code постоянно всплывает одна тема: контекстное окно в 1М токенов — палка о двух концах.

С одной стороны, Claude Code дольше работает автономно и надёжнее справляется со сложными задачами. С другой — если не следить за сессиями, контекст быстро засоряется.

Управление сессиями сейчас важнее, чем когда-либо, и вопросов вокруг него много. Держать одну или две долгосрочные сессии в терминале? Начинать новую с каждым промптом? Когда использовать compact, rewind или subagents? Что приводит к плохой компактизации или плохой сессии?

Всё это неожиданно сильно влияет на опыт работы с Claude Code, и почти всё сводится к управлению контекстным окном.

Читать далее

Что такое Harness? Полный разбор на примере Claude Code, OpenAI и LangChain

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели14K

Глубокий разбор того, что на самом деле строят Anthropic, OpenAI, Perplexity и LangChain. Оркестрационный цикл, инструменты, память, управление контекстом — и всё остальное, что превращает stateless LLM в работающего агента.

Допустим, вы собрали чатбот. Может, даже прикрутили ReAct-цикл с несколькими инструментами. На демо работает. Но стоит попробовать сделать что-то production-grade — и всё начинает сыпаться: модель забывает, что делала три шага назад, вызовы инструментов падают без ошибок, контекстное окно забивается мусором.

Проблема не в модели. Проблема во всём, что её окружает.

LangChain это доказал: изменив только инфраструктуру вокруг LLM (та же модель, те же веса), они поднялись с позиции за пределами топ-30 на 5-е место в TerminalBench 2.0. В отдельном исследовательском проекте LLM оптимизировал саму инфраструктуру и достиг 76,4% pass rate, превзойдя системы, спроектированные вручную.

У этой инфраструктуры теперь есть название: agent harness (агентный харнесс).

Читать далее

«Большой скачок» в мире AI: история повторяется

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

В 1958 году Мао приказал каждой деревне в Китае выплавлять сталь. Крестьяне бросали кухонную утварь в самодельные домны и рапортовали о феноменальных показателях. Сталь оказалась непригодной. Урожай сгнил. Тридцать миллионов человек погибли от голода.

В 2026 году каждая вторая компания проводит масштабную AI-трансформацию сверху вниз.

Тот же вайб.

Читать далее

Разбираем 14 самых популярных бенчмарков для LLM

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели9.7K

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

Читать далее

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели23K

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.

Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?

В этом и заключается магия квантизации.

В этой статье вы узнаете:
Почему параметры модели делают её такой большой
Как работает точность чисел с плавающей точкой и чем жертвуют модели
Как сжимать числа с плавающей точкой с помощью квантизации
Как измерить потерю качества модели после квантизации

Читать далее

Вайбкодинг есть, а вайбрезультатов нет?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели23K

Поклонники вайбкодинга и агентных инструментов говорят, что стали продуктивнее в 2, в 10, а то и в 100 раз. Кто-то собрал целый браузер с нуля. Впечатляет!

Тогда скептики резонно спрашивают: где все приложения? Если разработчики стали (возьмём консервативную оценку) хотя бы вдвое продуктивнее, где искать вдвое больше произведённого ПО? Такие вопросы исходят из допущения, что мир хочет больше программ, а значит, если их дешевле делать, их будут делать больше. Если вы с этим согласны — где тогда этот избыток, который можно назвать «AI-эффектом»?

Посмотрим на PyPI — центральный репозиторий Python-пакетов. Он большой, публичный и стабильно измеримый, так что AI-эффект должен быть хорошо заметен.

Читать далее

Skills для Claude Code: огромный гайд от инженера Anthropic

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели60K

Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять.

Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими?

Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

Читать далее

8 уровней агентной инженерии

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели21K

Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет.

Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

Читать далее

Claude Code vs. Codex: исчерпывающее сравнение

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели31K

Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче.

В этой статье я разберу разные аспекты Claude Code и Codex, сравню флагманские модели Opus 4.6 и GPT-5.3-Codex, расскажу, что реально влияет на опыт AI-разработки, и покажу кейс-стади: построение RAG-пайплайна в обоих агентах.

Сразу предупрежу: читать ~12 минут. По-моему, это оправдано, если вы собираетесь платить $200/месяц за любой из них.

Читать далее

Anthropic против OpenAI: два разных подхода к «быстрому режиму»

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели9.6K

Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса.

В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras.

Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике.

Читать далее

Agent Skills vs MCP: разбираемся на примере Antigravity

Уровень сложностиПростой
Время на прочтение18 мин
Охват и читатели15K

Разбираемся с Agent Skills — подходом, который решает проблему разрастания контекста в агентных IDE. Речь пойдёт о том, почему загрузка всех инструментов сразу вредит качеству рассуждений, как Skills отличаются от MCP, Rules и Workflows, и как использовать их на практике в Google Antigravity, чтобы агент делал ровно то, что нужно, и ничего лишнего.

Читать далее

Моушен-графика для разработчиков: Remotion, Skills, немного стиля и любой ИИ-агент

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

Если бы я хотел хайпануть, то сказал бы, что моушен-графика больше не требует отдельной профессии, лицензии на Adobe и многих лет обучения. Но я так говорить не буду. Скажу лишь, что если вы разработчик и умеете формулировать задачу, то сегодня вы можете собирать анимированные промо-ролики, описывая их кодом в вашей любимой IDE.

В этой статье я покажу:
– Зачем вообще разработчику лезть в моушен,
– Что такое Remotion и почему он «выстрелил» именно сейчас,
– Причём тут Skills,
– И какой результат реально можно получить за 30 минут времени и несколько тысяч токенов.

Погнали!

Claude Code: практический гайд по настройке, автоматизации и работе с контекстом

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели70K

Команда AI for Devs подготовила перевод подробного гайда по Claude Code — от skills и хуков до MCP, субагентов и плагинов. Автор делится реальным сетапом после месяцев ежедневной работы и показывает, как выжать максимум из Claude Code, не убив контекст и производительность.

Читать далее

Как создавать AI-агентов на практике: полное руководство по Claude Agent SDK

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели16K

Команда AI for Devs подготовила перевод подробного практического гайда по Claude Agent SDK. В статье разбирается, как устроены современные AI-агенты на практике: управление контекстом, инструменты, сабагенты, разрешения, структурированный вывод и продакшен-паттерны.

Читать далее

Claude Opus 4.5 и конец привычной разработки

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели70K

Команда AI for Devs подготовила перевод статьи о том, почему Claude Opus 4.5 стал переломным моментом в ИИ-разработке. Автор на реальных проектах показывает, как ИИ-агенты уже сегодня способны собирать полноценные приложения — от UI до бэкенда — за считанные часы, и рассуждает о том, зачем человеку вообще читать код в мире AI-first разработки.

Читать далее
1

Информация

В рейтинге
129-й
Дата рождения
Зарегистрирован
Активность

Специализация

Бэкенд разработчик
Ведущий
Python
SQL
Git
ООП
PostgreSQL
Docker
Django