Комментарии 4
Вы забыли про ёфикацию и про удаление имён людей.
Сам занимался составлением частотных списков, но больше для английского языка.
И могу сказать, что эта задача гораздо более сложная, чем кажется и далеко не сводится к выбору «правильного» языка программирования и библиотек.
Сам занимался составлением частотных списков, но больше для английского языка.
И могу сказать, что эта задача гораздо более сложная, чем кажется и далеко не сводится к выбору «правильного» языка программирования и библиотек.
Для приведения русскоязычных слов к нормальной форме советую присмотреться к замечательному pymorphy2. А вообще из предварительной обработки текста, никаких существенных выводов сделать нельзя. У вас в центре облака «владимир»..
После удаления стоп-слов, остальные слова в некоторых местах слипаются в одно слово.
Например:
«пост, в котором»
превращается в
"поств котором".
Как это победить?
И как провести стемминг или лемматизацию, о которых вы упомянули?
Например:
«пост, в котором»
превращается в
"поств котором".
Как это победить?
И как провести стемминг или лемматизацию, о которых вы упомянули?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Частотный анализ русского текста и облако слов на Python