Pull to refresh
34
Karma
0
Rating
Сергей @Edunov

User

  • Followers 16
  • Following 5

Какой инструмент вы используете для решения задач data mining?

Наверное, но мне, на самом деле, интересна тенденция, чтобы сравнить с blog.kaggle.com/2011/11/27/kagglers-favorite-tools/
А тенденция уже очевидна

Какой инструмент вы используете для решения задач data mining?

Да, пожалуй, следовало разделить опрос на продакшен и прототипирование. Хотя, в наше время мощных, дешевых железок и дорогих программистов, прототипы всё чаще запускаются прямо в прод :)

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

А насколько статистически значимо это повышенное значение взаимной информации на пятый день? Дальше на графике видны аналогичные всплески, может это просто совпадение? Что если посчитать аналогичное распределение для других индексов или в разные интервалы времени?

Латентно-семантический анализ

Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.

Латентно-семантический анализ

PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.

Латентно-семантический анализ

Например, существуют алгоритмы случайной проекции. Описание на английском: www.rni.org/kanerva/cogsci2k-poster.txt

Латентно-семантический анализ

Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.

Латентно-семантический анализ

В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity