Комментарии / Профиль LexTalionis / Хабр

Пользователь

Автоматическое определение рубрики текста

@LexTalionis 5 мая 2014 в 22:02

Относительно расчета формулы — best practice считается использование метрики tf-idf(term frequency — inverse document frequency) для определения существенности того или иного слова.
В модели, построенной на графе, некоторые слова являются листьями (те, которые относятся только к одной теме), а некоторые — нет (на первых иллюстрациях это видно). Не будет ли лучшим решением при наличии заранее полученного множества тем, хранить наиболее релевантных для них слова с присвоенной им метрикой «важности» для данной темы? В качестве примера — для каждого слова хранить его распределение по темам, тогда достаточно будет «взвесить» слова в классифицируемом тексте и посчитать вероятности любым удобным вам способом (средневзвешенная вероятности принадлежности к топику Икс).

Автор российского интернета «Чебурашка» дополнил идею

@LexTalionis 30 апр 2014 в 09:34

И вместо ВКонтакте сделать там «домик друзей», с регистрацией каждого как ~~СМИ~~Шапокляк

Препроцессинг данных и анализ моделей

@LexTalionis 17 мар 2013 в 09:04

Спасибо, мы этот момент банально проворонили. мы сейчас перестроили модель с правильным подходом к факторам, но точность получилась та же самая, что и раньше. только значимости переменных несколько изменились. Нам в этом плане несколько повезло с видом факторов, но в следующий раз мы такое не пропустим :)

Если бы среди факторных переменных действительно было чтото важное и значимое (для модели), деревья решений смогли бы поймать эти эффекты по построеннию. И мы бы это заметили (и, возможно, даже нашли бы этот косяк).

Препроцессинг данных и анализ моделей

@LexTalionis 17 мар 2013 в 08:55

Если коэффициент в линейной модели равен нулю, то его нету(зачем добавлять ноль?). А вот вероятность того, что коэффициент равен нулю должна быть чем меньше, тем лучше (для коэффициента). в последнем столбце указана эта вероятность

Препроцессинг данных и анализ моделей

@LexTalionis 17 мар 2013 в 08:11

Вы будете смеяться, но мы о них не знали, ибо еще студенты. В следующий раз построю, благо и в нашей библиотеке он есть, далеко ходить не надо.

Препроцессинг данных и анализ моделей

@LexTalionis 17 мар 2013 в 08:08

Параметры дефолтные, в документации (конец статьи) есть описание.
Я сначала пытался использовать statsmodels, но потом увидел, что она требует версию питона 2.7, а у меня все пишется под 3.2, так что я выбрал удобную альтернативу из sklearn.

Про деление постоянно забываю, спасибо.

Препроцессинг данных и анализ моделей

@LexTalionis 17 мар 2013 в 07:57

Спасибо. Теперь в списке, где перечисляются алгоритмы, есть ссылки на описания, в конце добавил документацию, должно быть попроще теперь.

Распознавание рукописных символов с использованием Python и scikit

@LexTalionis 6 мар 2013 в 15:39

В окрестности 120. С первого сабмита было ~240. Те данные взяты с MNIST, если мне память не изменяет, они там и так все отцентрировали и обрезали как надо.

Распознавание рукописных символов с использованием Python и scikit

@LexTalionis 6 мар 2013 в 13:07

scikit-learn.org/stable/modules/svm.html#multi-class-classification
«SVC and NuSVC implement the “one-against-one” approach (Knerr et al., 1990) for multi- class classification.»
Для one-vs-all есть отдельный метод в том же классе.

Распознавание рукописных символов с использованием Python и scikit

@LexTalionis 5 мар 2013 в 16:39

Все верно. Про радиальное ядро ничего не могу сказать. Есть, кстати, еще ядро sigmoid, там та же ситуация.