black_chick May 13 at 07:00

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

10 min

2.4K

Яндекс corporate blogMachine learning*Artificial IntelligenceNatural Language Processing*

+21

Comments 4

zartdinov May 13 at 14:15

Спасибо за идею, мне кажется, можно еще дать ему дать доступ к Jira

VADemon May 14 at 00:37

90% описаний принимались без изменений, даже в тестовой группе с ухудшенным качеством.

Хорошая постановка эксперимента, раз это уловили! А почему разрабы не дополняли или исправляли -- вопрос хороший. Мы как люди не привыкли перечить? Критический порог замечаний столь высок? Даже когда текст сгенерированный?

Не пойму, правда, откуда модель должна генерировать внешний относительно коммита контекст. Его в принципе может знать только человек, разве что изменения банальны.

mt144 May 22 at 08:51

Кмк это говорит только о том, что описание люди не читают. В 10%, когда важно было написать осмысленный комментарий, люди делали это самостоятельно. Другой интересный вопрос, насколько в этих 10% сгенерированный комментарий помогал? То есть люди редактировали комментарий (тогда наверное фичу можно считать полезной) или просто удаляли и писали свой?

Smurfetta May 24 at 06:38

Спасибо большое за статью, что то подобное очень хотим сделать у себя на проекте. Подскажите, пожалуйста, а когда просили ллм сравнить между двумя ответами, она давала им абсолютные оценки по критериям или по критериям определяла какой из вариантов более подходящий?