word2vec, как алгоритм, ничем не отличается для русского, английского или какого-либо еще языка. Для обучения и последующего использования модели желательно, но не обязательно, использовать нормализованные тексты.
Да, но! Предобученных вариантов надо иметь много и постоянно их обновлять. Скажем, если речь идет об анализе медицинских текстов, то обучать модель на спортивных текстах не имеет смысла. Или другой пример — несколько месяцев назад не было термина brexit. Соответственно, анализ текстов СМИ на базе старых моделей будет просто игнорировать это слово со всеми вытекающими… Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще.
Спасибо за статью. Интересно, как вам удалось установить theano на Anaconda с питоном 3.5 под винду? У меня не получается, только под 2.7.
Также в вашей иллюстрации неточность. На выходе два полносвязных слоя, а в коде (и в исходной статье Yoon Kim) — один.
Насчёт того, где ещё потестировать — можно попробовать 20 newsgroups, с разбивкой bydate http://qwone.com/~jason/20Newsgroups/
Реализация классификации текста свёрточной сетью на keras