Статьи / Профиль python_leader / Хабр

Все потоки

Иван Никитин@python_leader

Passionate Developer.

40,9

Рейтинг

216

Подписчики

ПрофильСтатьи34ПостыНовости156Комментарии7

python_leader 3 июн в 07:42

Harness под любую задачу: Dynamic Workflow в Claude Code

Простой

9 мин

7.9K

Искусственный интеллектПрограммирование * Будущее здесьТекстовые редакторы и IDE *

Обзор

Перевод

На прошлой неделе мы выпустили динамические воркфлоу в Claude Code. Теперь Claude может на лету писать собственную обвязку (harness) под конкретную задачу.

Стандартная обвязка Claude Code создавалась для кода — но она также полезна для многих других типов задач, поскольку, как выясняется, многие задачи напоминают задачи по написанию кода. Тем не менее есть определённые классы задач, под которые нам приходилось строить кастомные обвязки поверх Claude Code для достижения максимальной производительности: исследования, анализ безопасности, командные агенты или ревью кода.

Воркфлоу позволяют динамически создавать обвязки поверх Claude Code, с помощью которых Claude может более нативно решать все эти задачи и не только. Воркфлоу также можно делиться с другими и переиспользовать.

В этой статье я расскажу о своём первоначальном опыте с воркфлоу и о выводах, которые помогут вам использовать их по максимуму. Учтите, что лучшие практики пока формируются: динамические воркфлоу нередко потребляют больше токенов и лучше всего подходят для сложных задач.

Читать далее

+2

python_leader 18 мая в 15:52

Каждая AI‑подписка — это бомба замедленного действия для корпоративного сектора

Простой

8 мин

16K

Программирование * IT-инфраструктура * IT-компанииБудущее здесьИскусственный интеллект

Аналитика

Перевод

Каждая AI‑лаборатория прямо сейчас работает себе в убыток, обслуживая вашу компанию. Они это знают. И делают это намеренно.

OpenAI, Anthropic, Google и остальные реализуют отраслевую программу субсидирования в масштабах, не имеющих прецедента. Они продают предприятиям вычислительные мощности по ценам ниже себестоимости, называя это бизнес‑моделью. Разрыв между тем, что ваша компания платит за AI‑подписки, и тем, во что реально обходится их обслуживание, — это не погрешность округления, а пропасть. И любая организация, выстроившая рабочие процессы, продукты или целые бизнес‑подразделения на основе субсидированных цен, стоит прямо на её краю.

Это должно быть в приоритете для каждого CTO, CFO и операционного директора. Когда цены скорректируются — а они скорректируются — компании, воспринимавшие AI как вечно дешёвую коммунальную услугу, получат счета, перед которыми их текущие расходы на SaaS покажутся мелочью.

Читать далее

+23

python_leader 9 мая в 12:57

Claude Code: почему HTML лучше Markdown

Простой

5 мин

25K

Программирование * Искусственный интеллектHTML *

Мнение

Перевод

Markdown стал стандартным форматом для общения агентов с разработчиком. Простой, портативный, поддерживает базовое форматирование, легко редактируется. Claude даже научился делать ASCII-диаграммы внутри markdown-файлов.

Но по мере того, как агенты становятся мощнее, markdown начинает ощущаться тесным. Файл длиннее ста строк уже трудно читать. Хочется нормальных визуализаций, цвета, диаграмм — и возможности легко поделиться результатом.

К тому же я всё реже редактирую эти файлы руками. Чаще использую их как спецификации, референсы, брейнсторм-артефакты. Когда правки нужны, их вносит Claude — и тогда одно из главных преимуществ markdown исчезает.

Я перешёл на HTML как основной выходной формат. Вот почему.

(примеры можно посмотреть здесь: https://thariqs.github.io/html-effectiveness — возвращайтесь читать дальше)

Читать далее

+6

python_leader 8 мая в 13:56

Как Mozilla нашли 271 уязвимость в Firefox с помощью Claude Mythos

Простой

8 мин

11K

Искусственный интеллектМашинное обучение * Будущее здесьИнформационная безопасность * Браузеры

Обзор

Перевод

Две недели назад мы объявили, что с помощью Claude Mythos Preview и других AI-моделей нашли и исправили рекордное количество скрытых уязвимостей в Firefox. В этой статье подробности о подходе, результатах и советы для других проектов, которые хотят применять эти техники.

Читать далее

+2

python_leader 7 мая в 12:11

Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

Простой

7 мин

13K

Будущее здесьТекстовые редакторы и IDE * Машинное обучение * Программирование * Искусственный интеллект

Репортаж

6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше.

Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code.

Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео).

Ниже пройдемся по всем докладам и отметим самое важное.

Читать далее

+12

python_leader 5 мая в 15:57

10 уроков агентного кодинга. Что делать в эпоху дешёвого кода?

Простой

3 мин

20K

Искусственный интеллектМашинное обучение * Программирование *

Мнение

Перевод

Передовые модели сейчас действительно хорошо пишут код — лучше, чем справляются с большинством других задач. Работа с агентами ощущается как взгляд из будущего: полигон для проверки того, насколько далеко можно зайти с агентными возможностями. Это заряжает, даёт результат и при этом — откровенно странно ощущается.

Я веду список советов по агентному кодингу: правила и ориентиры для тех, кто только начинает работать с Codex, Claude Code, Pi или любым другим агентом. Каждый пункт — обобщённая рекомендация, применимая к агентному программированию в целом. Хочется, чтобы уроки оставались актуальными по мере того, как улучшаются модели и инструменты.

Ниже — текущий список: 10 уроков агентного кодинга. Десять — красивое круглое число, хороший повод опубликовать.

Читать далее

+6

python_leader 4 мая в 08:34

Как мы перешли на Opus и стали платить меньше

Простой

6 мин

9.3K

Программирование * DevOps * Машинное обучение * Искусственный интеллект

Кейс

Перевод

На прошлой неделе мы писали о том, как скармливали терабайты CI-логов LLM. Большинство вопросов на Hacker News касались не самих логов — спрашивали про агента: какие модели, как они взаимодействуют и во сколько всё это обходится.

Сейчас мы работаем на Opus 4.6 и платим меньше, чем когда всё крутилось на Sonnet 4.0.

Причина в основном в том, чего Opus не делает: 80% сбоев до него не доходят, а когда доходят — он не читает ни одной строки лога.

Архитектура выглядит так...

Читать далее

+6

python_leader 27 апр в 17:37

Как Cursor с Claude Opus снёс продакшен базу данных за 9 секунд

Простой

9 мин

32K

DevOps * Хранение данных * Информационная безопасность * Программирование * Искусственный интеллект

Кейс

Перевод

30 часов хронологии того, как агент Cursor, Railway API и индустрия, которая продаёт безопасность быстрее, чем её реализует, положили малый бизнес, обслуживающий прокатные компании по всей стране.

Меня зовут Джер Крейн, я основатель PocketOS. Мы делаем ПО для прокатного бизнеса — в первую очередь для аренды автомобилей: бронирования, платежи, управление клиентами, отслеживание транспортных средств. Некоторые наши клиенты с нами уже больше 5 лет и они буквально не могут работать без нас.

Вчера днём ИИ‑агент на базе Cursor с Claude Opus 4.6 от Anthropic удалил нашу продакшн‑базу данных и все резервные копии на уровне тома одним API‑вызовом к Railway, нашему инфраструктурному провайдеру.

На это ушло 9 секунд.

Затем агент, когда его попросили объяснить произошедшее, написал признание — с перечнем конкретных правил безопасности, которые он нарушил.

Читать далее

+39

python_leader 26 апр в 08:37

Вышел DeepSeek V4. Почему это очень плохо для США?

Простой

3 мин

15K

Искусственный интеллектМашинное обучение * IT-компанииOpen source * Финансы в IT

Мнение

Перевод

DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного.

Вот в чём дело.

Большинству задач не нужен абсолютный frontier. Компании не решают сложнейшие научные задачи — они ведут бизнес. Представьте: вы CEO, смотрите на GPT-5.5 по $30 за миллион выходных токенов, на Opus 4.7 по похожей цене — и тут DeepSeek в разы дешевле, open source, его можно дообучать, хостить где угодно, контролировать точечно. Математика очевидна.

Здесь и начинается проблема.

Читать далее

+12

python_leader 18 апр в 10:48

Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic

Простой

8 мин

12K

Natural Language Processing * Программирование * Машинное обучение * Искусственный интеллект

Аналитика

Перевод

В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле.

Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше.

Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того?

Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.

Читать далее

+6

python_leader 16 апр в 08:20

Когда, зачем и как правильно начинать новую сессию в Claude Code?

Простой

5 мин

14K

Искусственный интеллектПрограммирование * Текстовые редакторы и IDE *

Туториал

Перевод

В последних разговорах с пользователями Claude Code постоянно всплывает одна тема: контекстное окно в 1М токенов — палка о двух концах.

С одной стороны, Claude Code дольше работает автономно и надёжнее справляется со сложными задачами. С другой — если не следить за сессиями, контекст быстро засоряется.

Управление сессиями сейчас важнее, чем когда-либо, и вопросов вокруг него много. Держать одну или две долгосрочные сессии в терминале? Начинать новую с каждым промптом? Когда использовать compact, rewind или subagents? Что приводит к плохой компактизации или плохой сессии?

Всё это неожиданно сильно влияет на опыт работы с Claude Code, и почти всё сводится к управлению контекстным окном.

Читать далее

+6

python_leader 14 апр в 11:30

Что такое Harness? Полный разбор на примере Claude Code, OpenAI и LangChain

Средний

12 мин

24K

Natural Language Processing * Программирование * Машинное обучение * Искусственный интеллект

Обзор

Перевод

Глубокий разбор того, что на самом деле строят Anthropic, OpenAI, Perplexity и LangChain. Оркестрационный цикл, инструменты, память, управление контекстом — и всё остальное, что превращает stateless LLM в работающего агента.

Допустим, вы собрали чатбот. Может, даже прикрутили ReAct-цикл с несколькими инструментами. На демо работает. Но стоит попробовать сделать что-то production-grade — и всё начинает сыпаться: модель забывает, что делала три шага назад, вызовы инструментов падают без ошибок, контекстное окно забивается мусором.

Проблема не в модели. Проблема во всём, что её окружает.

LangChain это доказал: изменив только инфраструктуру вокруг LLM (та же модель, те же веса), они поднялись с позиции за пределами топ-30 на 5-е место в TerminalBench 2.0. В отдельном исследовательском проекте LLM оптимизировал саму инфраструктуру и достиг 76,4% pass rate, превзойдя системы, спроектированные вручную.

У этой инфраструктуры теперь есть название: agent harness (агентный харнесс).

Читать далее

+15

python_leader 9 апр в 11:17

«Большой скачок» в мире AI: история повторяется

Простой

8 мин

11K

Будущее здесьИсследования и прогнозы в IT * IT-компанииУправление разработкой * Искусственный интеллект

Ретроспектива

Перевод

В 1958 году Мао приказал каждой деревне в Китае выплавлять сталь. Крестьяне бросали кухонную утварь в самодельные домны и рапортовали о феноменальных показателях. Сталь оказалась непригодной. Урожай сгнил. Тридцать миллионов человек погибли от голода.

В 2026 году каждая вторая компания проводит масштабную AI-трансформацию сверху вниз.

Тот же вайб.

Читать далее

+31

python_leader 6 апр в 15:48

Разбираем 14 самых популярных бенчмарков для LLM

Простой

15 мин

10K

Natural Language Processing * Будущее здесьМашинное обучение * Искусственный интеллект

Обзор

Перевод

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?

Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.

Читать далее

+8

python_leader 26 мар в 14:57

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Средний

18 мин

24K

Искусственный интеллектМашинное обучение * Natural Language Processing *

Обзор

Перевод

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.

Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?

В этом и заключается магия квантизации.

В этой статье вы узнаете:
– Почему параметры модели делают её такой большой
– Как работает точность чисел с плавающей точкой и чем жертвуют модели
– Как сжимать числа с плавающей точкой с помощью квантизации
– Как измерить потерю качества модели после квантизации

Читать далее

+32

python_leader 25 мар в 12:23

Вайбкодинг есть, а вайбрезультатов нет?

Простой

4 мин

23K

Исследования и прогнозы в IT * Будущее здесьPython * Искусственный интеллектПрограммирование *

Аналитика

Перевод

Поклонники вайбкодинга и агентных инструментов говорят, что стали продуктивнее в 2, в 10, а то и в 100 раз. Кто-то собрал целый браузер с нуля. Впечатляет!

Тогда скептики резонно спрашивают: где все приложения? Если разработчики стали (возьмём консервативную оценку) хотя бы вдвое продуктивнее, где искать вдвое больше произведённого ПО? Такие вопросы исходят из допущения, что мир хочет больше программ, а значит, если их дешевле делать, их будут делать больше. Если вы с этим согласны — где тогда этот избыток, который можно назвать «AI-эффектом»?

Посмотрим на PyPI — центральный репозиторий Python-пакетов. Он большой, публичный и стабильно измеримый, так что AI-эффект должен быть хорошо заметен.

Читать далее

+41

python_leader 18 мар в 08:05

Skills для Claude Code: огромный гайд от инженера Anthropic

Простой

8 мин

72K

Искусственный интеллектМашинное обучение * Программирование * Будущее здесьТекстовые редакторы и IDE *

Туториал

Перевод

Skills стали одной из самых популярных точек расширения в Claude Code. Они гибкие, их легко создавать и распространять.

Но эта гибкость усложняет понимание. Что работает лучше всего? Какие skills стоит делать? Как написать хороший skill? Когда имеет смысл делиться ими с другими?

Мы в Anthropic активно используем skills в Claude Code — сейчас у нас их сотни в работе. Ниже — уроки, которые мы извлекли из этого опыта.

Читать далее

+21

python_leader 15 мар в 09:52

8 уровней агентной инженерии

Средний

12 мин

23K

Программирование * Машинное обучение * Будущее здесьИскусственный интеллект

Обзор

Перевод

Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет.

Этот разрыв не закрывается за одну ночь. Он закрывается по уровням. Их 8. Большинство читающих эту статью, скорее всего, уже прошли первые несколько, и стоит стремиться к следующему, потому что каждый новый уровень — это резкий скачок производительности, а каждое улучшение моделей усиливает этот эффект ещё больше.

Читать далее

+25

python_leader 12 мар в 11:50

Claude Code vs. Codex: исчерпывающее сравнение

Простой

9 мин

37K

Текстовые редакторы и IDE * Машинное обучение * Программирование * Искусственный интеллект

Обзор

Перевод

Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче.

В этой статье я разберу разные аспекты Claude Code и Codex, сравню флагманские модели Opus 4.6 и GPT-5.3-Codex, расскажу, что реально влияет на опыт AI-разработки, и покажу кейс-стади: построение RAG-пайплайна в обоих агентах.

Сразу предупрежу: читать ~12 минут. По-моему, это оправдано, если вы собираетесь платить $200/месяц за любой из них.

Читать далее

+26

python_leader 18 фев в 05:25

Anthropic против OpenAI: два разных подхода к «быстрому режиму»

Простой

6 мин

9.6K

Искусственный интеллектМашинное обучение * Будущее здесьВидеокарты

Перевод

Anthropic и OpenAI почти одновременно запустили «быстрый режим» для своих моделей — и за одинаковым названием скрываются принципиально разные подходы к ускорению инференса.

В одном случае это реальная модель с уменьшенным батчингом, в другом — отдельная, более компактная версия на специализированных чипах Cerebras.

Разбираемся, что именно стоит за цифрами «2.5×» и «1000 токенов в секунду», где компромисс по качеству и что это значит для разработчиков на практике.

Читать далее

+1

1