Комментарии 6
Сразу видно 2 ошибки в библиотеке:
1) плоскость оценки гиперпараметров нельзя описать N кривыми, где N - количество параметров. Отсюда возникают "Фантомные" области, в которых проверять параметры бессмысленно
2) Отсутствие SQR(N, Val) - при 2-х областях с вероятностью 0,2 (по обоим осям), и 0.1 мы получаем финальную оценку 0.04 и 0.01 (при перемножении вероятностей). Для большего количества оптимизируемых переменных ошибка будет еще больше
Из-за этих 2-х ошибок оптимальные параметры вы скорее всего не найдете.
Второй фактор особенно заметен на картинке
Точнее, не ошибка а "отвлечение внимания". Потому что они используют логику - Это несовместные события, и вероятность того, что они произойдут одновременно - произведение вероятностей.
Для 5 измерений уже получаем разницу в 32 раза (0,00032 и 0,00001).
Из-за этого становятся слишком критичны ошибки в Sampler-е. И это видно на картинке )
Этой ошибки нет, если просто использовать 3-4 грида (среднее значение, минимальное значение, количество измерений, интервал (после оценки гладкости функций значений)). И по эвристике просто выбирать наименее исследованные области с небольшим средним значением.
Да и как сами авторы пишут - у них множество своих оптимизаций, и без нормальной глобальной оптимизации они их не найдут ).
В общем интерпретация знаменитого мема с Трудом Говардом: Купи скайрим. Только тут: переходи на оптуну
Оптимизация гиперпараметров за 5 секунд?