alex4321 Nov 13 2016 at 04:45

Реализация классификации текста свёрточной сетью на keras

9 min

24K

Natural Language Processing*Machine learning*

+21

Comments 12

rikert Nov 13 2016 at 12:46

«Как пользоваться утилитами для реализации классификации текста ...»

alex4321 Nov 13 2016 at 12:46

Ну, можно сказать и так.

maxood Nov 13 2016 at 13:04

Возможно пригодится — набор русских текстов (около 500 000 статей СМИ)

samodum Nov 13 2016 at 19:47

А существует в природе word2vec для русского текста?

alex4321 Nov 13 2016 at 19:49

Вроде бы вот — http://ling.go.mail.ru/dsm/en/about
google://word2vec+russian

Но не проверял, как оно.

maxood Nov 13 2016 at 20:02

word2vec, как алгоритм, ничем не отличается для русского, английского или какого-либо еще языка. Для обучения и последующего использования модели желательно, но не обязательно, использовать нормализованные тексты.

alex4321 Nov 13 2016 at 20:04

Но предобученный-то вариант никогда не будет лишним :-) (о чём, наверное, была речь).

maxood Nov 13 2016 at 20:12

Да, но! Предобученных вариантов надо иметь много и постоянно их обновлять. Скажем, если речь идет об анализе медицинских текстов, то обучать модель на спортивных текстах не имеет смысла. Или другой пример — несколько месяцев назад не было термина brexit. Соответственно, анализ текстов СМИ на базе старых моделей будет просто игнорировать это слово со всеми вытекающими… Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще.

alex4321 Nov 13 2016 at 20:16

Предобученных вариантов надо иметь много и постоянно их обновлять

Зависит от задачи же. Точнее от изменений в предметной области.

Это я к тому, что предобученные модели надо использовать с осторожностью или не использовать вообще

Бесспорно

SKolotienko Nov 14 2016 at 13:22

Спасибо за статью. Интересно, как вам удалось установить theano на Anaconda с питоном 3.5 под винду? У меня не получается, только под 2.7.

Также в вашей иллюстрации неточность. На выходе два полносвязных слоя, а в коде (и в исходной статье Yoon Kim) — один.
Насчёт того, где ещё потестировать — можно попробовать 20 newsgroups, с разбивкой bydate http://qwone.com/~jason/20Newsgroups/

alex4321 Nov 14 2016 at 15:23

А можно логи? Я вполне мог упустить чего-нибудь в «инструкции».

Что до иллюстрации — спасибо, перепроверю как появится время. По хорошему — там бы и droput-ы ещё учесть.

SKolotienko Nov 14 2016 at 19:18

Надо попробовать ещё раз. Скорее всего я пробовал не по вашей инструкции.