Как стать автором
Обновить

Комментарии 4

Вы забыли про ёфикацию и про удаление имён людей.
Сам занимался составлением частотных списков, но больше для английского языка.
И могу сказать, что эта задача гораздо более сложная, чем кажется и далеко не сводится к выбору «правильного» языка программирования и библиотек.

Для приведения русскоязычных слов к нормальной форме советую присмотреться к замечательному pymorphy2. А вообще из предварительной обработки текста, никаких существенных выводов сделать нельзя. У вас в центре облака «владимир»..

После удаления стоп-слов, остальные слова в некоторых местах слипаются в одно слово.
Например:
«пост, в котором»
превращается в
"поств котором".
Как это победить?

И как провести стемминг или лемматизацию, о которых вы упомянули?

Чтобы не слипалось стоп слова нужно менять на пробелы. Лемматизацию можно провести с помощью pymorphy2, он умеет проводить слова в "нормальную форму". Хотя без контекста иногда невозможно понять, какое из двух одинаково пишущихся слов просто в разной форме на самом деле использовано.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории