Когда использование инструмента грозит потерей качества.

Думаете, что AI ускорил работу с кодом? А вы измеряли?

Мы разобрали восемь крупных исследований на тему использования AI в разработке — и везде разные цифры. Одни показывают ускорение, другие замедление, третьи — проблемы с качеством. 

Нюанс в том, что сравнивать нужно не только скорость, но и качество кода, время на дебаггинг и код-ревью. Потому что функция может генерироваться за десять минут, но если ревьювер возвращает ее три раза, а баг всплывает через месяц — где ускорение? 

Разбираемся, что на самом деле измеряли в исследованиях Google, MIT и других — и почему контекст решает все.

Почему скорость ≠ продуктивность

Когда обсуждают «ускорение разработки с помощью AI», чаще всего имеют в виду time-to-complete — сколько минут заняло написание кода. В реальных командах производительность строится не по принципу «кто быстрее написал фичу», а насколько быстро фича дошла до прода. Без отката и в 3 часа ночи. Это принципиально разные вещи.

Три уровня метрик

Скорость написания — сколько времени от постановки задачи до компиляции кода. Можно нагенерить функцию за 10 минут вместо 30 — AI отлично справляется с шаблонным кодом. Но это только первый этап.

Пропускная способность команды — сколько пулл-реквестов закрывается, какое время от коммита до мерджа, как быстро задачи проходят через пайплайн. Один разработчик завершил задачу на 30% быстрее, но если его пулл-реквест висит в ревью три дня или возвращается на доработку 2-3 раза — общее время до прода только растет.

Delivery performance — как часто деплоим, сколько деплоев ломается, как быстро восстанавливаемся. Здесь начинаются сюрпризы.

Три ловушки восприятия

Код без контекста не живет. AI не знает вашего легаси, архитектурных ограничений и того, что функция для этого уже есть в соседнем модуле. Модели обучали на открытых данных, поэтому они чаще генерируют «правильный, но чужой» код.

Когнитивная иллюзия. Исследование METR: разработчики предсказывали ускорение с помощью AI на 24%, после эксперимента оценивали +20%. Но реальность показала замедление на 19%. Разрыв восприятия — 39 процентных пунктов. 

Проблема качества кода. Код пишется быстро, но качество проседает. Об этом ниже — с цифрами.

Данные исследований: скорость vs качество

Теперь, когда мы договорились о метриках, давайте посмотрим на данные. За последние полтора года вышло несколько крупных исследований с прямо противоположными результатами. Разброс — от +55% до -19%. Кто-то явно ошибается, или мы чего-то не понимаем?

Лагерь оптимистов: AI реально ускоряет

Microsoft/GitHub (2023): контролируемый эксперимент

Исследование, которое запустило хайп. Разработчикам дали задачу написать HTTP-сервер на JavaScript — с использованием GitHub Copilot выполнили на 55,8% быстрее. Но это была синтетическая задача в лабораторных условиях: чистый лист, стандартный паттерн, без легаси и код-ревью. Идеальный кейс для AI, но насколько переносится на реальный прод?

MIT/Princeton/Penn: большая выборка, реальные компании

Исследователи из MIT, Princeton и Penn провели эксперимент с 4 867 разработчиками в Microsoft, Accenture и еще одной компанией из Fortune 100. Результат: разработчики, использовавшие GitHub Copilot, в среднем завершили на 26% больше задач. Это уже серьезнее — большая выборка, реальные компании, повседневная работа. Плюс интересный паттерн: наибольший выигрыш получили джуниоры и мидлы. 

Google (лето 2024): enterprise-задачи

Google провели исследование с 96 инженерами на сложных enterprise-задачах. Результат: примерно 21% сокращение времени при использовании LLM-моделей.

GitHub × Accenture (2024): метрики процесса

Исследование с фокусом на командные показатели: +8,7% пулл-реквестов на разработчика, +15% merge rate (залито с первого раза), +84% успешных сборок, высокая субъективная удовлетворенность. Здесь смотрели не только на скорость, но и на индикаторы качества.

Как часто разработчики коммитят AI-код и как часто команды его мержат | GitHub × Accenture
Как часто разработчики коммитят AI-код и как часто команды его мержат | GitHub × Accenture

Лагерь реалистов: все сложнее, чем кажется

GitClear (2024): скорость есть, а качество?

Пока все спорят, кто быстрее пишет, GitClear проанализировали 211 млн измененных строк кода (2020-2024) из репозиториев Google, Microsoft, Meta и 25 крупнейших open-source проектов — и обнаружили тревожные тренды.

  • 8-кратный рост дублирования кода — блоки из пяти и более повторяющихся строк встречаются в десять раз чаще, чем два года назад. В 2024 году впервые copy/paste превысил moved/refactored код. В здоровых проектах разработчики рефакторят и переиспользуют логику. С AI они чаще копируют готовые куски. 

  • 46% изменений — полностью новые строки вместо модификации существующих. AI не знает, что нужная функция уже есть в соседнем модуле, поэтому генерирует дубликат.

  • Code churn удваивается — процент кода, который выбрасывается менее чем через две недели. 

    Как меняется качество кода с ростом использования AI (2020-2025) | GitClear
    Как меняется качество кода с ростом использования AI (2020-2025) | GitClear

DORA 2024: расщепление метрик

DORA Report 2024 (39 000+ респондентов) показывает парадокс: рост использования AI коррелирует с +3,4% к качеству кода и +3,1% к скорости ревью, но одновременно с -1,5% к пропускной способности и -7,2% к стабильности поставки при отсутствии дисциплины процессов. 

AI помогает на микроуровне (быстрее писать, быстрее ревьюить), но без правильных процессов вредит на макроуровне. Больше кода → больше потенциальных багов → больше нестабильности. Ускорение одной стадии без оптимизации всего потока в перспективе создает проблемы.

Задачи, в которых респонденты больше всего использовали AI | DORA 2024
Задачи, в которых респонденты больше всего использовали AI | DORA 2024

Google (внутренние метрики, 2024): избирательность разработчиков

Google поделились статистикой реального использования: примерно 37% acceptance rate AI-подсказок, до 50% символов кода в IDE идут с AI-автодополнением. Масштаб впечатляет — половина кода пишется с помощью AI. Но acceptance rate 37% показывает, что разработчики избирательны: две трети предложений отклоняются.

Лагерь пессимистов: подождите, все не так просто

METR (июль 2025): главный сюрприз года

Некоммерческая организация METR провела исследование с 16 опытными open-source разработчиками на 246 реальных задачах в mature проектах (22k+ звезд, 1M+ строк кода). Половина задач — с AI (Cursor Pro + Claude 3.5/3.7), половина — без AI. 

Результат шокировал: с AI разработчики работали на 19% медленнее. Почему такая разница?

Perception gap: иллюзия ускорения

Самое интересное — разрыв восприятия. До начала разработчики предсказывали ускорение на 24%. После завершения оценивали +20%. Реальность: замедление на 19%. Разрыв между ощущениями и реальностью — почти 40 процентных пунктов. Это системная проблема восприятия.

Почему замедлились? Время уходило на промптинг AI, ожидание генерации (10-30 секунд), проверку сгенерированного кода, отладку неочевидных багов. Экономия на написании оказалась меньше затрат на взаимодействие с AI и валидацию результата.

Ключевое отличие: кто участвовал

Это были senior-разработчики с 5+ годами опыта в конкретных проектах. Они отлично знали кодовую базу, архитектуру, конвенции. Для них написание кода — не узкое место. Узкое место — понимание контекста задачи, дизайн решения, интеграция с существующим кодом.

AI здесь не помогает. Более того, мешает — предлагает технически правильные решения, которые не вписываются в архитектуру проекта или дублируют существующую функциональность.

Результаты исследования / METR
Результаты исследования / METR

Так кто прав?

Парадокс в том, что эти исследования измеряли разные вещи в разных условиях:

Исследование 

Результат 

Участники 

Условия

Что измеряли

GitHub/Microsoft

+55.8%

Разные уровни

HTTP-сервер (синтетика)

Скорость написания

MIT/Princeton

+26%

4 867 разработчиков разных уровней 

Реальная работа в компаниях

Кол-во завершенных задач

Google RCT

+21%

96 инженеров Google

Enterprise-задачи

Скорость написания

METR

-19%

16 синьор-разработчиков

Реальные mature проекты

Скорость написания

GitClear 

Падение качества

211 млн строк кода

Анализ 2020-2024 (Google/MS/Meta)

Дублирование, code churn, дефекты

Паттерн очевиден:

  • Junior/Middle + незнакомые проекты + простые задачи = AI помогает сильно

  • Senior + знакомые проекты + сложные задачи = AI может замедлить

Чем сложнее кодовая база и опытнее разработчик, тем меньше выигрыш от AI. В какой-то момент кривая переходит в отрицательную зону.

Что тогда измерять: скорость vs качество

Если хотите сравнить метркии по написанию кода с AI и без AI у себя, смотрите не только на скорость, но и на качество, процесс и опыт разработчика. Только комплексный подход показывает реальную картину. На что можно ориентироваться:

Скорость (индивидуальная): время до первой компиляции, время до готового пулл-реквеста, среднее время фикса бага средней важности, время на поиск информации (как часто смотрите документацию).

Качество (объективное): процент пулл-реквестов, залитых с первого раза без доработок, процент прохождения CI с первой попытки, плотность дефектов (баги на 1000 строк), индекс поддерживаемости (SonarQube умеет считать), переписывание кода через 7-14 дней.

Процесс (командный): время от коммита до прода (DORA метрика), время цикла, частота деплоев, процент сломанных деплоев, среднее время восстановления.

Опыт разработчика (субъективное, но важное): когнитивная нагрузка (самооценка или через носимые устройства типа измерения вариабельности пульса), частота состояния потока, количество переключений контекста, удовлетворенность работой.

Только глядя на все эти метрики вместе, можно понять: ускорили разработку или просто перераспределили проблемы на другие этапы пайплайна.

А вы измеряли реальное влияние AI на вашу продуктивность? Делитесь в комментариях!