Как стать автором
Обновить
0
Карма
0
Рейтинг

Пользователь

  • Подписчики
  • Подписки

Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern

Спасибо, весьма любопытно.
Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
В качестве Н можно взять частотность:
1 — общую для русского языка;
2 — литературных текстов;
3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
4 — некую взвешенную производную предыдущих трёх.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность