Комментарии 5
Ну, получается, что по этому показателю ИИ полностью сравнялся с кожаными программистами.
А можно посмотреть каким образом ставились задачи на эволюцию кодовой базы? Знала ли модель заранее, что впереди будут итерации? ИМХО, наличие бесконечно расширяемой архитектуры здесь и сейчас это такой же техдолг.
Наукосодержаший продукт, сломанный на стадии постановки задачи.
До финиша дойти и не сломать тесты не так и сложно (надеюсь, LLM не подсматривали за тестами, иначе элементарно). Этого мало. Надо ещё не превратить кодовую базу в типичный легаси - работающий, но с бешеной стоимостью сопровождения.
Обсуждалось уже.
https://habr.com/ru/news/1008296/comments/#comment_29642734
Даже оригинал прочитал. Нет там метрик объема изменений, доли вынужденных изменений контрактов модулей и объёма адаптеров к легаси.
Дайте мне ваши гранты, я сам буду исследовать
Исследование Alibaba Group и Университета имени Сунь Ятсена в Гуанчжоу
Сделано во время стажировки в Али-Баба групп. LOL
1000 строк на питон. Вот основная функция.
Тестовые метрики (Реализовано полностью)
Функция test_based_metrics — это ядро данного кода. Она анализирует только динамику прохождения тестов (pytest passed):
Сколько тестов починили.
Ломались ли старые тесты в процессе (регрессия).
Насколько быстро достигнут результат (скорее всего, число интеграций, на исправление сломанных тестов )
Затраты токенов (Реализовано частично, закомментировано)
token_based_metrics, которая считает число токенов на задачу (отдельно на архитектора и программиста)
Качество кода (Не реализовано)
def code_based_metrics():
pass # TODO
Стажёр сжёг токены. Чего тут об этом писать то? Дважды
Они даже переводить без регрессии в соседних абзацах не могут )
эволюцию кодовой базы
эволюцию базы кодов

Исследование: нейросети оказались неспособны поддерживать долгосрочную эволюцию кодовой базы