metaformus1 сен 2020 в 14:46

Частотный анализ русского текста и облако слов на Python

6 мин

94K

Машинное обучение *

Из песочницы

Комментарии 4

sved 1 сен 2020 в 21:23

Вы забыли про ёфикацию и про удаление имён людей.
Сам занимался составлением частотных списков, но больше для английского языка.
И могу сказать, что эта задача гораздо более сложная, чем кажется и далеко не сводится к выбору «правильного» языка программирования и библиотек.

zlukfo 5 сен 2020 в 17:13

Для приведения русскоязычных слов к нормальной форме советую присмотреться к замечательному pymorphy2. А вообще из предварительной обработки текста, никаких существенных выводов сделать нельзя. У вас в центре облака «владимир»..

zoldaten 5 окт 2020 в 14:18

После удаления стоп-слов, остальные слова в некоторых местах слипаются в одно слово.
Например:
«пост, в котором»
превращается в
"поств котором".
Как это победить?

И как провести стемминг или лемматизацию, о которых вы упомянули?

CrazyElf 17 окт 2021 в 05:09

Чтобы не слипалось стоп слова нужно менять на пробелы. Лемматизацию можно провести с помощью pymorphy2, он умеет проводить слова в "нормальную форму". Хотя без контекста иногда невозможно понять, какое из двух одинаково пишущихся слов просто в разной форме на самом деле использовано.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий