Comments 4
Спасибо за идею, мне кажется, можно еще дать ему дать доступ к Jira
90% описаний принимались без изменений, даже в тестовой группе с ухудшенным качеством.
Хорошая постановка эксперимента, раз это уловили! А почему разрабы не дополняли или исправляли -- вопрос хороший. Мы как люди не привыкли перечить? Критический порог замечаний столь высок? Даже когда текст сгенерированный?
Не пойму, правда, откуда модель должна генерировать внешний относительно коммита контекст. Его в принципе может знать только человек, разве что изменения банальны.
Кмк это говорит только о том, что описание люди не читают. В 10%, когда важно было написать осмысленный комментарий, люди делали это самостоятельно. Другой интересный вопрос, насколько в этих 10% сгенерированный комментарий помогал? То есть люди редактировали комментарий (тогда наверное фичу можно считать полезной) или просто удаляли и писали свой?
Спасибо большое за статью, что то подобное очень хотим сделать у себя на проекте. Подскажите, пожалуйста, а когда просили ллм сравнить между двумя ответами, она давала им абсолютные оценки по критериям или по критериям определяла какой из вариантов более подходящий?
LLM as a Judge: опыт оптимизации генератора описаний Pull Request