Вначале Автор пишет: "Контролируемые метрики наиболее предпочтительны, ... ", а затем: "Чаще всего при оценке LLM вы будете полагаться на две ключевые категории неконтролируемых метрик". Поясните, зачем МЫ будем полагаться на наименее предпочтительные метрики?
Оценка LLM: комплексные оценщики и фреймворки оценки