Странно не видеть распределение плюсов/минусов от длинны коммента.
И вообще более сложный корреляционный анализ имел бы больше смысла. Например словосочетание слов наверняка более сильно коррелирует с оценкой чем просто слова eg «линукс гавно» и «линукс рулез». Тут еще важно расстояние между словами eg «ms гавно а линукс рулез» ну и так далее… :)
PS. Статистика — она всегда такая — вроде как факт, но на самом деле хитро заныканная полуправда.
Анализ комментариев