Comments 12
«Как пользоваться утилитами для реализации классификации текста ...»
+1
А существует в природе word2vec для русского текста?
0
Вроде бы вот — http://ling.go.mail.ru/dsm/en/about
google://word2vec+russian
Но не проверял, как оно.
google://word2vec+russian
Но не проверял, как оно.
0
word2vec, как алгоритм, ничем не отличается для русского, английского или какого-либо еще языка. Для обучения и последующего использования модели желательно, но не обязательно, использовать нормализованные тексты.
0
Но предобученный-то вариант никогда не будет лишним :-) (о чём, наверное, была речь).
0
Да, но! Предобученных вариантов надо иметь много и постоянно их обновлять. Скажем, если речь идет об анализе медицинских текстов, то обучать модель на спортивных текстах не имеет смысла. Или другой пример — несколько месяцев назад не было термина brexit. Соответственно, анализ текстов СМИ на базе старых моделей будет просто игнорировать это слово со всеми вытекающими… Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще.
0
Спасибо за статью. Интересно, как вам удалось установить theano на Anaconda с питоном 3.5 под винду? У меня не получается, только под 2.7.
Также в вашей иллюстрации неточность. На выходе два полносвязных слоя, а в коде (и в исходной статье Yoon Kim) — один.
Насчёт того, где ещё потестировать — можно попробовать 20 newsgroups, с разбивкой bydate http://qwone.com/~jason/20Newsgroups/
Также в вашей иллюстрации неточность. На выходе два полносвязных слоя, а в коде (и в исходной статье Yoon Kim) — один.
Насчёт того, где ещё потестировать — можно попробовать 20 newsgroups, с разбивкой bydate http://qwone.com/~jason/20Newsgroups/
0
Only those users with full accounts are able to leave comments. Log in, please.
Реализация классификации текста свёрточной сетью на keras