Comments / Profile of Edunov / Habr

Сергей@Edunov

User

Subscribers

Какой инструмент вы используете для решения задач data mining?

Edunov Nov 29 2011 at 11:57

Наверное, но мне, на самом деле, интересна тенденция, чтобы сравнить с blog.kaggle.com/2011/11/27/kagglers-favorite-tools/
А тенденция уже очевидна

Какой инструмент вы используете для решения задач data mining?

Edunov Nov 29 2011 at 11:56

Да, пожалуй, следовало разделить опрос на продакшен и прототипирование. Хотя, в наше время мощных, дешевых железок и дорогих программистов, прототипы всё чаще запускаются прямо в прод :)

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Edunov Aug 31 2011 at 15:07

А насколько статистически значимо это повышенное значение взаимной информации на пятый день? Дальше на графике видны аналогичные всплески, может это просто совпадение? Что если посчитать аналогичное распределение для других индексов или в разные интервалы времени?

Латентно-семантический анализ

Edunov Dec 20 2010 at 12:17

Там ясно написано «В каждой ячейке матрицы указано какое количество раз слово встречается в соответствующем документе» Двоечку из заголовков новостей не выудишь, их авторы избегают повторения слов в названии.

Латентно-семантический анализ

Edunov Dec 20 2010 at 11:57

PCA (метод главных компонент) и LSA чисто технически очень похожи, здесь не ставилась задача обзора всех возможных техник, но за идею спасибо, сравню и напишу результаты.

Латентно-семантический анализ

Edunov Dec 20 2010 at 11:55

Например, существуют алгоритмы случайной проекции. Описание на английском: www.rni.org/kanerva/cogsci2k-poster.txt

Латентно-семантический анализ

Edunov Dec 20 2010 at 11:50

Если добавляется новая статья то можно не пересчитывать, но тогда вы не сможете выявить новые измерения (кластеры, группы).
Поэтому, на практике, имеет смысл регулярно пересчитывать, но не обязательно с каждой новой статьей.

Латентно-семантический анализ

Edunov Dec 20 2010 at 08:30

В данной конкретной выборке. Например слово «Британская», возможно, в другой выборке оно было бы очень важно. Здесь же оно встречается только один раз и поэтому включать его в частотную матрицу нет смысла. Это просто оптимизация в целях экономии вычислительных ресурсов.