Исследовательская работа утверждает, что использование инструментов с искусственным интеллектом помогает разработчикам выполнять на 26,08 % больше задач.
На тысячах разработчиков из Microsoft, Accenture и некой анонимной компании проводили эксперимент: примерно половине сотрудников выдали доступ к Copilot, а другим пользоваться инструментом не разрешали. Сравнение данных двух групп говорит о положительном эффекте от написания кода с помощью искусственного интеллекта.
Бум генеративного искусственного интеллекта должен лишить миллионы людей работы. Большие языковые модели (БЯМ), системы генерации картинок, голоса, музыки и видео творят не хуже людей. Такие катастрофические последствия для рынка труда начали предсказывать ещё до выхода ChatGPT и Claude.
К примеру, отчёт McKinsey Global Institute, исследовательского отдела известной международной консалтинговой компании McKinsey, в июне 2018 года утверждал, что к 2030 году 400 миллионов человек (15 % от общего числа работников) потеряют работу. Схожий прогноз — 300 млн рабочих мест будут автоматизированы — дал банк Goldman Sachs уже во время нового «лета» ИИ в апреле 2023 года.
Менее алармистские исследования на тему ИИ (например, отчёт от Международной организации труда ООН) говорят о помощи работникам-людям, а не их замене. Роль этой помощи оценивают по-разному. Одна из статей даже провозглашает, что ChatGPT значительно поможет четвёртой промышленной революции (doi:10.1016/j.ject.2023.08.001). Некоторые утверждают, что макроэкономический эффект от ИИ будет незначительным, не более 0,66 % роста производительности труда за следующее десятилетие (doi:10.3386/w32487).
В июне 2023 года McKinsey выпустила другой документ, который фокусируется на экономическом потенциале от ИИ. Отчёт отмечает, что общий вклад ИИ в росте глобального ВВП составит от 15 до 40 %. Также McKinsey выделила четыре основные сферы, куда придётся ¾ влияния искусственного интеллекта: взаимодействие с клиентами, маркетинг, НИОКР и написание программного обеспечения.
Действительно, много стартапов пытаются создать ИИ для написании кода. На сайте AI Startups собран список из 30 подобных организаций. Не все из них — очередная система автодополнения кода; некоторые предлагают полностью заменить инженеров-людей автономными агентами. К числу подобных относится Devin от Cognition, представленный в марте 2024 года. Об успехах продукта можно судить по тому, что сам стартап-создатель Devin не закрывал наём инженеров программного обеспечения.
Впрочем, системы автодополнения и написания кода с нуля всё же завоевали популярность среди программистов. Некоторые даже утверждают об их абсолютном проникновении. В июне 2023 года данные опроса GitHub говорили, что 92 % разработчиков из США задействуют инструменты с ИИ для написания кода. В аналогичных отчётах GitHub от августа 2024 доля выросла до 97 %.
Другие оценки популярности таких инструментов выглядят скромнее. Только в июле 2024 года вышло как минимум три отчёта на эту тему. Опрос аутсорсера BairesDev оценивает популярность генеративного ИИ для написания кода среди разработчиков в 72 %, Stack Overflow — 62 %, Capgemini — лишь 46 %.
Конкретные числа разнятся, но все подобные отчёты соглашаются, что ИИ значительно помогает разработчикам. Свою лепту в оценки технологии пытается внести опубликованная 5 сентября статья, которую написали Чжэюань (также использует второе имя Кевин) Цуй из Принстонского университета, Мерт Демирер и Тобиас Зальц из Массачусетского технологического института, Соня Яффе из центра Microsoft Research, Леон Музольф из Пенсильванского университета и Сида Пэн из Microsoft.
Инструментов автодополнения кода на основе искусственного интеллекта много: это GitHub Copilot, Amazon CodeWhisperer, Replit Ghostwriter и другие. Исследование фокусировалось только на первом из них. Случайно выбранные программисты получали доступ к Copilot (экспериментальная группа), а другие (контрольная) работали без него. Анализу подвергли разработчиков трёх компаний:
Microsoft. Эксперимент шёл на протяжении 7 месяцев и задействовал 1746 разработчиков из американских офисов компании. Из них 50,4 % случайной выборкой попали в экспериментальную группу.
В один день члены экспериментальной группы получили письмо о возможности получить доступ к новому инструменту. Письмо описывало пользу Copilot для производительности труда и потенциальный эффект на задачи по написанию кода. При этом ни письмо, ни любые другие должностные инструкции никак не требовали задействовать новинку в работе и не объясняли, как пользоваться Copilot.
Эксперимент шёл с первой недели сентября 2022 года по 3 мая 2023 года. Как объясняет статья, в дате окончания сыграло роль то, что среди контрольной группы возросла информированность о Copilot и появилось желание задействовать его в работе.
Accenture. Здесь эксперимент длился 4 месяца и задействовал разработчиков из, как обтекаемо выражается статья, Юго-Восточной Азии. Если судить по локациям компании с её сайта, это могли быть офисы в Малайзии, Сингапуре, Таиланде, Индонезии и/или на Филиппинах.
61,3 % из 320 разработчиков получили доступ к Copilot. Аналогичным образом экспериментальной группе объяснили о пользе инструмента, но не в виде письма, а полноценного тренинга. Другое отличие заключается в том, что менеджеров членов экспериментальной группы просили стимулировать использование Copilot.
Экспериментальной группе выдали Copilot в первую неделю июля 2023 года. В декабре 2023 инструментом разрешили пользоваться и контрольной группе, но среди её членов популярность Copilot оказалась ниже.
Во время некоторых экспериментов в Accenture прошёл раунд сокращений, затронувший 42 % участников. Данные этих экспериментов были отброшены из основных выводов.
Некая третья компания, имя которой не называется. Упоминается лишь, что это производитель электроники, который входит в список Fortune 100. В этом случае Copilot выдали всем 3054 разработчикам, но не одновременно — часть команд получила инструмент на шесть недель раньше остальных. Даты выдачи инвайтов распределили случайно по сентябрю и октябрю 2023 года.
Продуктивность разработки программного обеспечения измерить тяжело. В оценке помогало то, что процесс работы структурирован и разбит на небольшие задачи в системах управления версиями. Говоря проще, исследователи посчитали пул-реквесты в GitHub, поскольку все три компании пользовались этим сервисом. Также подсчитывались коммиты, билды и доля успешных билдов.
Кроме того, учитывалось то, как использовался Copilot, сколько кода ИИ предложил и сколько сгенерированного принял разработчик. В случае Microsoft исследователям дали данные по дате найма сотрудников и их уровень внутри компании, что позволило оценить профессиональные навыки.
Полученные результаты (кроме успешности билдов) имеют высокие значения стандартного отклонения. Отмечается, что высокая вариативность ограничивает качество регрессионного анализа экспериментальных данных.
Сравнение контрольной и экспериментальной группы до начала эксперимента. Чем меньше разница, тем «чище» эксперимент. | ||||||
Контрольная группа | Экспериментальная группа | |||||
---|---|---|---|---|---|---|
Среднее | Стандартное отклонение | Среднее | Стандартное отклонение | Разница | p-значение | |
Microsoft | ||||||
Пул-реквесты | 0.86 | 1.49 | 0.87 | 1.50 | 0.01 | 0.88 |
Коммиты | 9.43 | 14.86 | 9.36 | 14.80 | -0.07 | 0.94 |
Билды | 7.76 | 12.99 | 7.67 | 12.73 | -0.09 | 0.91 |
Доля успешных билдов | 0.72 | 0.30 | 0.75 | 0.29 | 0.02 | 0.33 |
Недавно нанятые | 0.48 | 0.50 | 0.52 | 0.50 | 0.04 | 0.23 |
Джуны | 0.55 | 0.50 | 0.61 | 0.49 | 0.06 | 0.03** |
Accenture | ||||||
Пул-реквесты | 0.13 | 0.47 | 0.14 | 0.47 | 0.00 | 0.85 |
Коммиты | 2.56 | 6.00 | 3.64 | 7.25 | 1.08 | 0.01** |
Билды | 0.96 | 2.54 | 1.10 | 2.68 | 0.14 | 0.38 |
Доля успешных билдов | 0.51 | 0.37 | 0.54 | 0.38 | 0.03 | 0.40 |
Анонимная компания | ||||||
Пул-реквесты | 0.73 | 1.23 | 0.73 | 1.19 | -0.00 | 0.99 |
Накладывает отпечаток также нежелание самих подопытных прибегать к новому инструменту. Хотя Copilot интегрирован в среды разработки и не требует никаких особых финансовых или трудовых вложений, его популярность далеко не 100 %.
В первые две недели эксперимента лишь 8,5 % членов экспериментальной группы Microsoft начали использовать Copilot в работе. Вероятно, что письмо просто утонуло в потоке рабочей переписки. 15 и 28 февраля 2023 года внутри Microsoft разослали два дополнительных письма-напоминания. В последовавшие за этим две недели использование Copilot в экспериментальной группе возросло до 42,5 %.
Также 0,5 % контрольной группы задействовали Copilot, наплевав на ограничения эксперимента. Когда контрольной группе всё же разрешили инструмент, многие из них быстро к нему подключились.
К январю 2024 года использование Copilot в контрольной группе оказалось ниже, чем в экспериментальной. Вероятно, что в статье опечатка, поскольку для этого приводятся процентовки 75,6 % и 64,0 %, соответственно.
В Accenture популярность Copilot в первые 1–2 месяца послушно выросла до 60 %, но больше почти не менялась. По окончании эксперимента в декабре 2023 года контрольная группа интересовалась инструментом меньше, чем экспериментальная. В апреле 2024 доля использующих Copilot составила 69,4 % в экспериментальной и 24,4 % в контрольной группах.
Аналогичным образом ситуация сложилась в анонимной компании: сразу после раскатывания Copilot доля его использующих вышла на плато и в дальнейшем менялась сла́бо.
Данные анализировались в приближении к одной человеко-неделе. Чтобы оценить эффективность Copilot, исследование задействует формулу
Значение оценивалось двухшаговым методом наименьших квадратов. Здесь β — коэффициент интереса, Dit — это фиктивная переменная внедрения, которая активируется после того, как разработчик впервые использует Copilot, µi — это фиксированный эффект разработчика, аγt — это фиксированный эффект недели. Работа с данными, где разработчики постепенно получали доступ к инструменту, оценивалась ещё сложнее.
Данные оценки β собрали в таблицу, сравнив со средним значением контрольной группы. Стандартные ошибки сгруппированы на уровне назначения экспериментальной группы, которое варьируется по компаниям.
Показатель | Microsoft | Accenture | Анонимная компания | Объединённые данные |
---|---|---|---|---|
Пул-реквесты | 27.38** (12.88) | 17.94 (18.72) | 54.03 (42.63) | 26.08** (10.3) |
Коммиты | 18.32 (11.25) | -4.48 (21.88) | - | 13.55 (10.0) |
Билды | 23.19 (14.20) | 92.40*** (26.78) | - | 38.38*** (12.55) |
Доля успешных билдов | -1.34 (4.23) | -17.40** (7.12) | - | -5.53 (3.64) |
Число разработчиков | 1,521 | 316 | 3,030 | 4,867 |
Число групп | 690 | 316 | 432 | 1,438 |
Если верить полученным данным, Copilot повысил в Microsoft число пул-реквестов, коммитов и билдов без значимого ущерба для коммитов (лишь –1,34 % при стандартной ошибке 4,23 %). Для других двух компаний заявлены схожие наблюдения, но указывается, что их статистический эффект не так выражен. Вероятно, поэтому усреднённое число в 26,08 % из последней колонки вынесли в раздел Abstract краткого содержания научной статьи и преподнесли как рост продуктивности.
Также в среднем заметно выросло число еженедельных коммитов, на 13,55 % (стандартная ошибка 10,0 %), и количество билдов в неделю, на 38,38 % (стандартная ошибка 12,55 %). Текст статьи утверждает, что Copilot не только помогает делать больше — качество не падает. Как говорит исследование, показатель успешности билдов не снизился. Впрочем, в таблице в последнем столбце с усреднениями всё же заметен отрицательный рост в 5,53 %.
Среди других наблюдений:
Сотрудников Microsoft разбили на новых (меньше медианы времени найма) и давно работающих в компании (больше). Оказалось, что новички чаще — 84,3 % против 74,8 % — используют Copilot. Более того, новые сотрудники чаще ветеранов Microsoft продолжают использовать Copilot в дальнейшем и чуть более охотно (25,4 % против 24,3 %) принимают сгенерированный инструментом код.
Как спекулирует статья, так происходит потому, что новички — люди по возрасту молодые и способные извлечь больше пользы из нового инструмента.
Аналогичный эффект наблюдается, если разбить разработчиков Microsoft по уровням. Джуны используют Copilot больше (82,1 % против 76,8 %) старших разработчиков. В данном случае неравенства частоты отказа от Copilot не наблюдается.
Легко предположить, что сеньоры принимают предложения от ИИ реже, чем джуны. Однако в исследовании эта разница незначительна: всего 1,8 % или половина процентного пункта, 25,2 % против 24,7 %.
Вклад Copilot в продуктивность выше для новых сотрудников Microsoft и джунов. Если для давно работающих в компании рост показателей составил от 8 до 13 %, то новички улучшились на 27–39 %. Утверждается, что разница по уровням не так заметна: для джунов она составляет от 21 до 40 %, для сеньоров — от 7 до 16 %.
Сто́ит отметить, что GitHub Copilot перевели на БЯМ GPT-4 лишь 30 ноября 2023 года, уже позже основного периода эксперимента. Большинство полученных данных относится к периоду, когда код писать помогала заметно более примитивная модель GPT-3.5. А со вчерашнего дня GitHub раскатывает на избранных пользователей o1, одну из самых многообещающих БЯМ компании OpenAI. Новая модель опережает в точности и производительности даже GPT-4/GPT-4o.
Препринт научной статьи «The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers» опубликован в хранилище препринтов Social Science Research Network (doi:10.2139/ssrn.4945566).