Pull to refresh

Comments 3

Спасибо, отличная статья. Вопрос немного не по теме: как проверить статистическую значимость улучшений в случае больших языковых моделей? Или в данном случае ресурсы позволяют выполнить большое количество валидаций для получения удовлетворяющего доверительного интервала?

В нашем случае мы проверяли статзначимость улучшений на бизнес метриках.

Наша ml-метрика f-beta коррелируют с нашей бизнес метрикой, по этому при повышении f-beta с некоторой долей вероятности повысится и бизнес метрика. По этому первоначальная проверка просто по f-beta, а дальше обычный AB-test.

Sign up to leave a comment.