Относительно расчета формулы — best practice считается использование метрики tf-idf(term frequency — inverse document frequency) для определения существенности того или иного слова.
В модели, построенной на графе, некоторые слова являются листьями (те, которые относятся только к одной теме), а некоторые — нет (на первых иллюстрациях это видно). Не будет ли лучшим решением при наличии заранее полученного множества тем, хранить наиболее релевантных для них слова с присвоенной им метрикой «важности» для данной темы? В качестве примера — для каждого слова хранить его распределение по темам, тогда достаточно будет «взвесить» слова в классифицируемом тексте и посчитать вероятности любым удобным вам способом (средневзвешенная вероятности принадлежности к топику Икс).
Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)
Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность
Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.
В окрестности 120. С первого сабмита было ~240. Те данные взяты с MNIST, если мне память не изменяет, они там и так все отцентрировали и обрезали как надо.
В модели, построенной на графе, некоторые слова являются листьями (те, которые относятся только к одной теме), а некоторые — нет (на первых иллюстрациях это видно). Не будет ли лучшим решением при наличии заранее полученного множества тем, хранить наиболее релевантных для них слова с присвоенной им метрикой «важности» для данной темы? В качестве примера — для каждого слова хранить его распределение по темам, тогда достаточно будет «взвесить» слова в классифицируемом тексте и посчитать вероятности любым удобным вам способом (средневзвешенная вероятности принадлежности к топику Икс).
СМИШапоклякЕсли бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.
Про деление постоянно забываю, спасибо.
«SVC and NuSVC implement the “one-against-one” approach (Knerr et al., 1990) for multi- class classification.»
Для one-vs-all есть отдельный метод в том же классе.