Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Возможно я ошибаюсь, но мне кажется, что целевая переменная выбрана не лучшим образом. Количество просмотров в сутки быстро затухает, поэтому вы переоцениваете новые объявления. Лучше предсказывать кол-во просмотров за первые n дней (объявления созданные менее чем n дней назад не рассматривать). Если этих данных нет, то можно на основании общего графика затухания вычислять величину "ожидаемое число просмотров за все время". Чуть усложненная версия опираться на срезы в течении нескольких дней наблюдений.
Когда я недавно занимался похожей задачей (тоже объявления) bag of words на полем "title" давал даже лучше результат (возможно текст в описании более сложный и хуже поддаться разбору).
Вы пишите "рассматривать задачу классификации (отсюда и tf-idf)", подскажите почему?
Возможно вы знаете: tf-idf фиттится на тестовой, а не на всей выборке, а что делать с кросс-валидацией? Там же "тестовая" попадает в tf-idf.fit как это влияет? Видимо улучшает качество на кросс-валидации, но влияет ли это на подбор параметров и приминать ли это в расчёт? Вы пишите «рассматривать задачу классификации (отсюда и tf-idf)», подскажите почему?
Возможно вы знаете: tf-idf фиттится на тестовой, а не на всей выборке, а что делать с кросс-валидацией? Там же «тестовая» попадает в tf-idf.fit как это влияет? Видимо улучшает качество на кросс-валидации, но влияет ли это на подбор параметров и приминать ли это в расчёт?
Прогнозирование посещаемости объявлений по содержанию