Pull to refresh
10
0
Send message
Относительно расчета формулы — best practice считается использование метрики tf-idf(term frequency — inverse document frequency) для определения существенности того или иного слова.
В модели, построенной на графе, некоторые слова являются листьями (те, которые относятся только к одной теме), а некоторые — нет (на первых иллюстрациях это видно). Не будет ли лучшим решением при наличии заранее полученного множества тем, хранить наиболее релевантных для них слова с присвоенной им метрикой «важности» для данной темы? В качестве примера — для каждого слова хранить его распределение по темам, тогда достаточно будет «взвесить» слова в классифицируемом тексте и посчитать вероятности любым удобным вам способом (средневзвешенная вероятности принадлежности к топику Икс).
И вместо ВКонтакте сделать там «домик друзей», с регистрацией каждого как СМИШапокляк
Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)

Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).
Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность
Вы будете смеяться, но мы о них не знали, ибо еще студенты. В следующий раз построю, благо и в нашей библиотеке он есть, далеко ходить не надо.
Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.

Про деление постоянно забываю, спасибо.
Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.
В окрестности 120. С первого сабмита было ~240. Те данные взяты с MNIST, если мне память не изменяет, они там и так все отцентрировали и обрезали как надо.
scikit-learn.org/stable/modules/svm.html#multi-class-classification
«SVC and NuSVC implement the “one-against-one” approach (Knerr et al., 1990) for multi- class classification.»
Для one-vs-all есть отдельный метод в том же классе.
Все верно. Про радиальное ядро ничего не могу сказать. Есть, кстати, еще ядро sigmoid, там та же ситуация.

Information

Rating
Does not participate
Registered
Activity