sergeiustiugov8 июн в 09:57

ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех

Средний

9 мин

Искусственный интеллектМашинное обучение * Программирование * Промышленное программирование *

Аналитика

Комментарии 16

BobovorTheCommentBeast 8 июн в 10:20

Почему количество кода от ИИ уменьшилось? Он недавно писал весь.

sergeiustiugov 8 июн в 11:01

Добрый день! Все данные взяты из опициальной публикации компании Anthropic When AI builds itself \ Anthropic .

Борис Черный - инициатор и создатель Claude Code!

BobovorTheCommentBeast 8 июн в 17:19

Спасибо большое за эту статистику. Для большего технического разбора нам потребуется веселая песенка, для помощи в мнемоническом запоминании этих данных. У вас не найдётся ее?

badsynt 8 июн в 10:34

Если уж стремиться к точности и объективности, то надо бы сначала вычислить количество багов, обнаруженных в программах, написанных строго без ИИ хорошими программистами инженерами за весь срок эксплуатации программ.. После этого фраза "ИИ делает ошибки" по другому зазвучит.

sergeiustiugov 8 июн в 11:04

Добрый день! Вот есть статистика по вашему вопросу!

badsynt 8 июн в 11:51

Это не совсем то. Речь о том, что софта без багов не бывает. Но это не мешает программе даже с неисправленными багами (сколько их часто никто и не узнает) честно прослужить человечеству до момента морального устаревания. А то, что ИИ больше ошибок допускает в pull-request, возможно компенсируется тем, что он их и быстрее исправляет. Он же не спит! Ну и для того, чтобы статья не выглядела алармистской, неплохо было привести вместе с сегодняшними, результаты пятилетней давности, чтоб можно было спрогнозировать ситуацию еще на 5 лет вперед. Вы же не собираетесь вымереть через пять лет?

FurySeer 8 июн в 12:19

неплохо было привести вместе с сегодняшними, результаты пятилетней давности, чтоб можно было спрогнозировать ситуацию еще на 5 лет вперед

Вы считаете, что линейная экстраполяция в данном случае применима?

sergeiustiugov 8 июн в 12:40

Думаю, что линейная экстрополяция это очень грубая оценка! Если вас интересует, что известно по результатам конкретных исследований, то можно посмотреть следующие источники:

badsynt 8 июн в 12:50

Где Вы у меня увидели слово "линейный"?

sergeiustiugov 8 июн в 12:53

Это я отвечал на вопрос другого пользователя, извините!

badsynt 8 июн в 13:15

А это был вопрос другому пользователю.

Если уж говорить про экстраполяцию, я имел ввиду не количество ошибок человека, а "отношение", как в предыдущей таблице. Это типа тонкий такой намек...

sergeiustiugov 8 июн в 12:23

Сейчас вопрос не в том, станет ли ИИ писать меньше багов, чем человек — это почти неизбежно на горизонте. Вопрос в другом: как изменить процесс разработки так, чтобы при резком росте скорости генерации кода не выросла доля незамеченных ошибок.

Да, в индустрии давно известно, что софт без багов не существует. И да, увеличение скорости разработки исторически компенсировалось улучшением процессов — тестированием, CI/CD, ревью. Но с ИИ меняется характер ошибок: они чаще выглядят правдоподобно, хуже детектируются и могут воспроизводиться в цикле.

Поэтому ставка только на то, что «ИИ быстрее исправит» — недостаточна. Он так же быстро может воспроизводить неверные решения.

Практика показывает, что ИИ действительно может зацикливаться, если не находит корректного исправления в рамках своей текущей гипотезы. Это уже не вопрос скорости, а вопрос архитектуры процесса.

Отсюда возникает необходимость в следующем шаге эволюции: не просто генерация кода, а обязательная автоматическая валидация независимыми контурами.

В частности, хорошо работают подходы с непересекающимися валидаторами:

разные модели или методы проверки;
независимые критерии (тесты, статический анализ, формальные ограничения);
отсутствие общего «когнитивного источника ошибки».

Такие системы снижают вероятность пропуска дефектов именно за счёт независимости, а не за счёт увеличения количества попыток.

Если экстраполировать тренд последних пяти лет, то рост продуктивности разработки уже сопровождался ростом роли автоматической валидации. С ИИ этот тренд не просто продолжится — он станет критически необходимым условием.

Иными словами, вопрос не в том, заменит ли ИИ программистов безошибочностью, а в том, успеем ли мы перестроить инфраструктуру разработки под его свойства.

badsynt 8 июн в 13:10

Отсюда возникает необходимость в следующем шаге эволюции: не просто генерация кода, а обязательная автоматическая валидация независимыми контурами.

Надеюсь Вы понимаете, что если в области программирования какая-то валидация уже есть, то в остальных областях ее вообще нет. А ведь они собираются планировать боевые операции...

Иными словами, вопрос не в том, заменит ли ИИ программистов безошибочностью, а в том, успеем ли мы перестроить инфраструктуру разработки под его свойства.

А нужно перестраивать?

Не кажется ли Вам что заставлять машину программировать на человеческом языке программирования, чтоб затем все транслировать в машинные же команды как то нелепо. И машина программирующая сразу в машинных кодах будет делать это быстрее и безошибочнее. Вопрос в том, кто это будет контролировать? Поэтому я бы не торопился перестраивать.

sergeiustiugov 8 июн в 13:29

Алана Тьюринга в фильме «Игра в имитацию» (The Imitation Game, 2014) о Тьюринге и проекте Энигма. «Для взлома кода недостаточно возможностей человека и необходима другая машина» Для нас важно чтобы это были разные машины или контейнеры на худой конец!

axion-1 8 июн в 13:48

ИМХО важность проверки с использованием "ИИ другого производителя" преувеличена. Все LLM-ки сейчас имеют сходную архитектуру и обучались на похожих датасетах (в плане кода). Упор нужно делать на тестирование и другие объективные критерии, а разнесение проверяющих по разным брендам ИИ возможно снизит процент пропущенных ошибок, но само по себе качественно другого результата не даст.

sergeiustiugov 8 июн в 14:03

Согласен! В своей предыдущей работе я предлагаю использовать систем на других принципах - логических, детерминированных, экспертных и т.п. - https://habr.com/ru/articles/1042610/. В дальнейших публикациях планирую осведить эти методы отдельно!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий