Как стать автором
Обновить

Комментарии 11

То есть, имея вектор признаков длиной К, можно перебрать 3^K вариантов (-1 0 1 на каждый из признаков) и выбрать наилучшую модель? Хорошо, а дальше что?
Нет, идея в том, чтобы вообще ничего не перебирать. Не обучать модель, а выбрать значения коэффициентов исключительно на основании априорных знаний.
Почему для proper и improper выбрали именно такой вариант, как приличные и неприличные, соответственно? :)
А как надо было перевести? translate.ru предлагает «надлежащий, приличный, присущий, самый» и «неподходящий, неуместный, неправильный, непристойный, незаконный».

А «improper model» переводит как «неподходящая модель», что совсем неправильно — модель-то как раз подходящая.
У proper много вариантов перевода.
В данном случае наверно больше подходит совершенный или точный, и их антонимы для improper.
А то напомнило известный случай — «парень клеит модель в клубе».
Варианты «совершенный» и «точный» не подходят — модели по определению являются грубым приближением к реальности, к тому же коэффициенты подгоняем по случайной выборке, то есть неизбежны ошибки. На приведённом графике видно, что improper model зачастую показывает лучше результат, чем proper (распределения Gini перекрываются).

Кроме того, в оригинале тогда было бы perfect или exact, а судя по совсем не статистическому слову beauty там та же игра слов про «клеить модель в клубе».
Нет проблем :)
Ваше вИдение имеет право на существование!
Да лаадно! Мне понравилась эта неприличная штучка. Следует ли ожидать, что, например, в соревновании на Kaggle, заведя единичные веса можно ожидать с первого же коммита оказаться в районе медианы среди других соревнующихся?
В общем случае не следует. Если связи в данных сложные, например, задача про распознование картинок, то точно нет. Если связи более-менее простые, например, кредитный скоринг, тогда может быть.

Но даже если результат чуть меньше медианы, от него всё равно может быть практическая польза. Он получен без данных вообще, почти без затрат времени, гарантированно не перетренирован и может быть по крайней мере использован как база для оценки других моделей.
Понял, спасибо!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории