Pull to refresh
34
0
Сергей @Edunov

User

Send message
Наверное, но мне, на самом деле, интересна тенденция, чтобы сравнить с blog.kaggle.com/2011/11/27/kagglers-favorite-tools/
А тенденция уже очевидна
Да, пожалуй, следовало разделить опрос на продакшен и прототипирование. Хотя, в наше время мощных, дешевых железок и дорогих программистов, прототипы всё чаще запускаются прямо в прод :)
А насколько статистически значимо это повышенное значение взаимной информации на пятый день? Дальше на графике видны аналогичные всплески, может это просто совпадение? Что если посчитать аналогичное распределение для других индексов или в разные интервалы времени?
Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.
PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.
Например, существуют алгоритмы случайной проекции. Описание на английском: www.rni.org/kanerva/cogsci2k-poster.txt
Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.
В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity