Хочу присоединиться к ZlodeiBaal.
Имхо, судить производительность системы по данным валидации не очень хорошая затея. Эта метрика может разве что сказать, как хорошо сблизилась модель, чтобы дать хорошую метрику на валидации, а не о том, на сколько модель способна к генерализации и готова к новым данным. Для этого и делают сплит train/val/test. Выводы делаются только на test датасете. А лучшая модель для тестирования уже выбирается базируясь на лучшей валидационной метрике. Т.е. при похожих моделях с одинаковой val метрикой, возможны сценарии когда test метрика будет значительно разниться.
Имхо, судить производительность системы по данным валидации не очень хорошая затея. Эта метрика может разве что сказать, как хорошо сблизилась модель, чтобы дать хорошую метрику на валидации, а не о том, на сколько модель способна к генерализации и готова к новым данным. Для этого и делают сплит train/val/test. Выводы делаются только на test датасете. А лучшая модель для тестирования уже выбирается базируясь на лучшей валидационной метрике. Т.е. при похожих моделях с одинаковой val метрикой, возможны сценарии когда test метрика будет значительно разниться.