Pull to refresh
4
0

ML Engineer

Send message

Лучше вообще не использовать цикл for. вместо него есть list comprehension.

А, вы говорите про лаги? Да, они были в прошлой модели. Мне они очень не нравятся. В новой модели их нет.

1)да. Только важный момент: при обучении тоже используются прогнозных значения. К примеру тренд. Берём не просто фактический, а именно прогнозных, чтобы уменьшить оверфит.
2) не совсем понял вопрос. Поясни, пжл.

Собираем все фичи. Описание фичей в статье. Далее, используем их как фичи в модели lightgbm, прогнозируя log(tvr+1)

Классная работа!!!

И мои 5 копеек:
1. В постановке задачи, наверное, следует еще добавить откуда вообще появилась задача детекции ботов. Думается, далеко не всем это понятно.
2. Вы ведь эту же технологию использовали на наших корпоративах? мне понравилось очень!
3. А k-medians, вместо k-means, не пробовали? у него, обычно, silhouette получается лучше. Правда, вместо абстрактных центроид получим конкретные медоиды. Возможно, вам это не подходит.
Это ж очень старое приседание, которе я читал года 3-4 назад… может даже на хабре… правда, скорее всего, было на R, а не py.
P.S. Я себе бюджет планирую: собрал банковские выписки (все траты со всех банков) за несколько лет -> получил сезонку -> использовал как веса при планировании операционных затрат. Да, модель весьма специфична, работает далеко не для всех: несколько лет как стараюсь жить на одну и ту же сумму в месяц (+- сезонка). Поэтому мне подходит.

Information

Rating
Does not participate
Registered
Activity