Галлюцинация продуктивности / Хабр

PR утвердили за четыре минуты. Тесты зелёные, код чистый, диф читаемый. Approved.

Через три дня авторизация тихо легла у части пользователей. Без ошибок в логах, без алертов. Люди просто не могли залогиниться, и никто этого не замечал - до первых жалоб в саппорт. На поиск причины ушло 11 часов. Причина - тот самый PR.

Код сгенерировал AI. Ревьюер глянул. Всё выглядело нормально.

Я эту историю прочитал на DEV Community, закрыл вкладку. Открыл следующую. Потом ещё одну. За неделю пролистал больше тридцати статей, тредов и отчётов про AI-кодинг - от The Register до исследований Faros AI. Искал что-то конкретное: есть ли данные, что AI реально ускоряет доставку кода в прод. Не написание - а именно доставку.

Нашёл. Только данные говорят не то, что ожидаешь.

84 и 29

84% разработчиков используют AI-инструменты ежедневно. Данные за апрель 2026, агрегация нескольких опросов.

29% доверяют тому, что выкатывают в прод.

В 2024-м у 70% было позитивное отношение к AI-кодинг-инструментам. Сейчас 46% активно не доверяют их точности - рост с 31% за год. Daily usage при этом вырос с 18% до 73%. Инструменты - везде. Уверенность в них - сползает.

А вот METR - рандомизированное контролируемое исследование, не опрос. Опытные разработчики выполняли реальные задачи в своих собственных open-source репозиториях, с AI и без. Замеряли фактическое время от старта до мёрджа. Результат: с AI на 19% медленнее. При этом сами оценивали себя на 20% быстрее.

39 процентных пунктов между восприятием и реальностью. (Оговорка: выборка в METR небольшая, и авторы сами пишут, что это не окончательный вердикт. Но разрыв между ощущением и замером - это факт, а не интерпретация.)

Я назвал это галлюцинация продуктивности. Ты пишешь больше кода, генерируешь больше PR, закрываешь больше задач, и поэтому чувствуешь себя продуктивнее. Но код до прода добирается с той же скоростью. Или медленнее.

И есть вторая форма этой же галлюцинации, может даже опаснее. VirtusLab в статье про cognitive debt от 10 апреля нашли: разработчики, которые регулярно используют AI, оценивают свои навыки выше, чем те, кто не использует. А на тестах без AI показывают результаты хуже. AI маскирует пробелы, выдавая рабочий код в тех местах, где ты бы застрял. С твоей стороны это выглядит как «я справился». По факту - справился инструмент, а ты не заметил, что не понимаешь результат.

Первая форма - галлюцинация скорости команды. Вторая - галлюцинация собственной компетенции. Обе, похоже, измеримы. И обе, судя по тому что я нашёл, почти никто не замеряет.

10 000 разработчиков, 1 255 команд

Faros AI проанализировали телеметрию крупной выборки. На командах с высоким AI-adoption:

Задач закрывается на 21% больше
PR стало на 98% больше
Размер PR вырос на 154%
Время ревью - на 91%
Баги - плюс 9% на разработчика

Вдвое больше PR. Каждый вдвое крупнее. Ревью вдвое дольше. И багов больше - несмотря на ревью.

Google DORA Report добавляет контекста: каждые 25% роста AI-adoption коррелируют с падением скорости доставки на 1.5% и снижением стабильности на 7.2%. Не потому что код плохой - потому что процессы не переваривают объём.

Проблема не в том, что AI замедляет работу. Проблема в том, что мы мерим не то. Bottleneck переехал из написания кода в проверку, а метрики по-прежнему считают вход.

Входные метрики (то, что обычно на дашборде): PR count, LOC written, tasks closed, story points burned.

Выходные метрики (то, что реально показывает доставку): lead time to production, review latency, rollback rate, incident rate, hotfix volume.

Если входные растут, а выходные стоят на месте или ухудшаются - это и есть галлюцинация продуктивности. Не абстрактная концепция, а конкретный разрыв в двух наборах чисел. Все примеры дальше - по сути про этот разрыв.

Один вторник, одиннадцать PR

Один разработчик открыл 11 PR за вторник. Раньше делал 2-3 в неделю. Его процесс: описал фичу, Claude Code написал, глянул диф, открыл PR.

Дальше было так. Эти 11 PR висели в ревью в среднем четыре дня. Три - больше недели. К мёрджу последнего - конфликты с main, ещё час на резолв. Два сеньора-ревьюера к пятнице выглядели, цитата, «как после войны».

Код писался быстрее, чем когда-либо. В прод попадал - с той же скоростью.

Тут есть деталь. Ревьюить AI-код - не то же самое, что ревьюить код коллеги. У коллеги есть контекст: вы обсуждали подход, ты знаешь его стиль. У AI-кода контекста ноль - каждое решение по неймингу, структуре, обработке ошибок надо оценивать с нуля. На практике один AI-PR часто съедает столько же когнитивного ресурса, сколько раньше уходило на два-три знакомых PR от коллег. А их одиннадцать, и после 200-400 строк качество ревью падает резко - неважно, кто ревьюер.

Я когда это читал, подумал: ну банально же. А потом честно вспомнил, что у меня на проекте ревью тоже стали дольше, PR - толще, а на ретро мы говорим «стали продуктивнее». Потому что считаем созданные PR, не доставленные фичи. Входные метрики растут. Выходные - нет.

Миллион строк, которые никто не прочитал

Финтех-фирма внедрила Cursor. Ежемесячный объём кода: с 25 000 строк до 250 000. Результатом стал не рост продуктивности - а бэклог в миллион строк, ожидающих ревью. Джони Клипперт, CEO StackHawk: объём и уязвимости стали неуправляемыми для человеческих команд.

GitHub за 2025-й зафиксировал рост AI-контрибьюций на 400%. Python Software Foundation - скачок выгорания мейнтейнеров на 60%. 78% опрошенных винят AI-сабмиты.

А на DEV Community разработчик описал спираль, которую узнает любой, кто работает с AI-кодом дольше полугода: «Шесть месяцев назад шипили фичи за два дня. Сейчас одно изменение - две недели». Каждая AI-сессия оптимизирует текущую задачу, не зная про общую архитектуру. Бизнес-логика расползается по слоям. Файлы, которые были single-purpose, обрастают десятком concerns. Verification debt нарастает на 30-40% в квартал - не потому что разработчики стали хуже, а потому что структура кода деградирует быстрее, чем её успевают чинить.

Кстати - если хотите посмотреть, насколько это касается вашего проекта, есть простой способ:

git log --since="30 days ago" --pretty=format:"%H" | while read hash; do
  git diff-tree --no-commit-id --name-only -r $hash
done | sort | uniq -c | sort -rn | head -10

Если одни и те же файлы всплывают в каждом коммите - границы доменов, скорее всего, размыты, и каждое изменение потенциально ломает что-то в другом конце проекта. Здоровый показатель - 2-4 файла на коммит. Больше 8 - красный флаг.

А слоп стал лучше

Вот штука, которая мне реально не давала покоя.

Даниэль Стенберг, автор curl, пишет: раньше приходили AI-отчёты об уязвимостях - откровенный мусор. Легко отклонить. Сейчас мусор прекратился. Вместо него - «действительно хорошие отчёты, почти все с помощью AI». Грег Кро-Хартман из ядра Linux подтверждает: меньше слопа, больше валидных проблем.

Звучит как прогресс.

Но их стало настолько больше, что мейнтейнеры физически не успевают обрабатывать. Стенберг перестал платить за отчёты. Internet Bug Bounty приостановил приём вообще. Формулировка: «баланс между обнаружением и способностью к исправлению существенно сместился».

Когда AI-код был плохим - его легко отклоняли. Теперь он выглядит хорошим - и на верификацию уходит больше времени, не меньше. «Выглядит хорошо» и «работает правильно» - разные вещи. Чтобы понять разницу, нужен человек, который знает домен.

Может я перегибаю. Может это просто growing pains, и через год всё наладится. Но тренд прямо сейчас: AI делает генерацию дешёвой, а верификацию - дорогой. И это та же механика, что с PR: порог входа упал, стоимость проверки выросла. Генерация масштабируется бесконечно. Проверка - ограничена количеством людей, которые понимают, что они проверяют.

78% по-тихому

78% сотрудников используют AI без одобрения IT. Треть редко проверяют вывод. 15% скрывают использование от менеджеров.

То есть представьте: ваш PR-pipeline уже наполовину состоит из AI-кода, но ни тимлид, ни IT-отдел об этом не знают. Метрики показывают рост throughput - и менеджмент доволен. А что конкретно попало в прод и кто это проверил - никто не отслеживает, потому что формально AI никто не внедрял.

Это не adoption. Это shadow engineering, и в ряде компаний его масштаб может быть сопоставим с официальным AI-внедрением или даже превышать его.

А вот где работает

Я специально искал контрпример. Хотел найти компанию, где AI-кодинг реально ускоряет доставку, а не только генерацию.

Kapwing. 25 человек. В Q1 2026 каждый сотрудник закоммитил код в прод. Дизайнер. Руководитель продаж. Контент-райтеры. Саппорт. 108 PR через AI-агентов за квартал. И - инциденты в проде снизились. Bug bash (ежеквартальный спринт по багам) отменили - потому что интеграция с баг-трекером закрывает мелочь автоматически. 36 инженерных дней в квартал - сэкономлены.

Почему у них работает, а у финтех-фирмы с миллионом строк - нет?

Не инструмент. Процесс:

Каждому дали конкретную, заранее подобранную задачу для первого PR - не «разбирайся сам»
Пять месяцев внедрения в три фазы: инфраструктура → обучение → автоматизация
Инженеры ревьюят каждый PR, включая PR от не-технических сотрудников
QA-менеджер стал одним из топ-контрибьюторов - навык точно описывать баги оказался ровно тем, что нужно для промптов

Kapwing перестроили процесс под новый объём. Не просто дали всем Codex и надеялись.

Anthropic в своём отчёте: AI-код - уже 41-42% всего кода глобально. Если верить их оценке, устойчивый порог качества находится где-то в диапазоне 25-40%. Выше - деградация начинает съедать прирост. Kapwing, видимо, нашли свой баланс. Как именно - из блог-поста не до конца ясно, данных для точного утверждения нет. Но одна деталь бросается в глаза: CEO сама вела тренинг. Не делегировала «AI-евангелисту» и не скинула в Notion. Это сигнал команде: мы не для галочки, мы реально хотим, чтобы это работало.

Что я из этого вынес

Не хочу делать «10 советов». Но две вещи из тридцати статей повторялись настолько часто, что игнорировать не получится.

Первая - лимит на размер PR. 400 строк, мягкий потолок. AI выдал целую фичу? Разбей на три PR. Пять минут на split экономят часы ревью. По данным Faros AI, после 200-400 строк качество ревью деградирует резко, и неважно, насколько хорош ревьюер. Кстати, Kapwing это тоже делают - их PR от не-инженеров маленькие и точечные по определению.

Вторая - не пропускать бизнес-логику и авторизацию через тот же процесс, что бойлерплейт. Бойлерплейт пусть сканирует AI-ревью, человек глянет за 30 секунд. А платежи и авторизация - два ревьюера и парная сессия. Когда всё идёт в одну очередь, важное тонет.

И ещё один вопрос, который я теперь задаю себе перед каждым approve: «Могу ли я объяснить, почему код структурирован именно так, не глядя в него?» Если нет - не аппрувлю. Не потому что код плохой. А потому что дебажить в два ночи придётся мне.

Как проверить, есть ли галлюцинация у вас

Если у вас есть GitHub, вы можете посмотреть за 5 минут. Три команды:

Медианный размер PR за последний месяц:

gh pr list --state merged --limit 50 --json additions,deletions | \
  jq '[.[] | .additions + .deletions] | sort | .[length/2]'

Если медиана выросла в 2+ раза за полгода, а lead time не сократился - это сильный индикатор галлюцинации продуктивности.

Медианное время от открытия PR до мёрджа:

gh pr list --state merged --limit 50 --json createdAt,mergedAt | \
  jq '[.[] | ((.mergedAt | fromdateiso8601) - (.createdAt | fromdateiso8601)) / 3600] | sort | .[length/2] | round'

Результат в часах. Если растёт при растущем количестве PR - bottleneck переехал в ревью.

И тот git log из секции выше - для coupling. Три команды, пять минут, и у вас есть фактическая картина вместо ощущений.

…

Может через год AI-инструменты научатся нормально ревьюить и bottleneck опять сдвинется. Может Kapwing - шаблон. Может - исключение для маленьких команд.

Но если после внедрения AI у вас выросли PR count и throughput, а lead time to production не сократился - это сильный признак галлюцинации продуктивности. Команды, которые это замечают (как Kapwing), перестраивают процесс. Команды, которые не замечают, набирают verification debt до первого серьёзного инцидента.

Для одной конкретной команды рецепт простой: прогоните три команды из секции выше и посмотрите на числа. Если разрыв между входом и выходом растёт, проблема, скорее всего, не в скорости генерации, а в стоимости проверки.

P.S. Сам пользуюсь AI для кодинга каждый день. И да - ревью у меня тоже стали дольше. Ирония не ускользнула.