Pull to refresh

Comments 4

Прикольно, но я бы сначала стоп-слова выкинул, как обычно делают, а потом уже 1-2-3-граммы брал для облаков слов. Все эти "в", "и", "с", "для" только засоряют вывод ) Ну и непонятно, как вы брали 1-2-граммы, если у вас "аэрозоль" и "генерирующие" не взлетели как отдельное слово, хотя они есть в сочетаниях с другими словами, а по другим словам вроде есть одиночные термины на том же графике. Загадочно.

Спасибо за рекомендацию! Убрал предлоги и т.п.
Попробовал сделать облака из 1, 2 и 3 слов, получилось, что из одного слова наиболее понятные. Изменил рисунки.
До этого было облако по умолчанию, и там код как-то сам отбирал слова и словосочетания.

Ну да, обычно у меня получалось, что сочетания из 2 слов очень редко были нужны, но иногда они несколько проясняли контекст. А основная часть облака получалась таки из одиночных слов. Ещё можно с помощью pymorphy3 привести слова в нормальную форму, чтобы опять же не забивать облако разными падежами одного и того же слова. Ну и чтобы статистика опять же не размывалась этими падежами.

Попробовал. Забавно, что из "стали" (от слова сталь) получилось слово "стать":) Сделал принудительную замену "стали" на "сталь". Получше стал график, благодарю за совет!

Sign up to leave a comment.

Articles