Pull to refresh

Comments 12

«Как пользоваться утилитами для реализации классификации текста ...»
Возможно пригодится — набор русских текстов (около 500 000 статей СМИ)
А существует в природе word2vec для русского текста?
Вроде бы вот — http://ling.go.mail.ru/dsm/en/about
google://word2vec+russian

Но не проверял, как оно.
word2vec, как алгоритм, ничем не отличается для русского, английского или какого-либо еще языка. Для обучения и последующего использования модели желательно, но не обязательно, использовать нормализованные тексты.
Но предобученный-то вариант никогда не будет лишним :-) (о чём, наверное, была речь).
Да, но! Предобученных вариантов надо иметь много и постоянно их обновлять. Скажем, если речь идет об анализе медицинских текстов, то обучать модель на спортивных текстах не имеет смысла. Или другой пример — несколько месяцев назад не было термина brexit. Соответственно, анализ текстов СМИ на базе старых моделей будет просто игнорировать это слово со всеми вытекающими… Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще.
Предобученных вариантов надо иметь много и постоянно их обновлять

Зависит от задачи же. Точнее от изменений в предметной области.

Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще

Бесспорно
Спасибо за статью. Интересно, как вам удалось установить theano на Anaconda с питоном 3.5 под винду? У меня не получается, только под 2.7.

Также в вашей иллюстрации неточность. На выходе два полносвязных слоя, а в коде (и в исходной статье Yoon Kim) — один.
Насчёт того, где ещё потестировать — можно попробовать 20 newsgroups, с разбивкой bydate http://qwone.com/~jason/20Newsgroups/
А можно логи? Я вполне мог упустить чего-нибудь в «инструкции».

Что до иллюстрации — спасибо, перепроверю как появится время. По хорошему — там бы и droput-ы ещё учесть.
Надо попробовать ещё раз. Скорее всего я пробовал не по вашей инструкции.
Only those users with full accounts are able to leave comments. Log in, please.