kxx Feb 5 2016 at 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 min

59K

Big Data * Data Mining * R * Machine learning * Programming *

+24

Comments 11

Alexufo Feb 5 2016 at 01:21

Слишком толсто.) Патриотичнее нужно быть.

Заголовок спойлера

И заметье, статью править не придется вообще.

Alexufo Feb 5 2016 at 11:51

А чем не нравится русский саша грей?

evilsprut Feb 7 2016 at 18:02

Хабрахабр — не для односложных публикаций. Мы тоже любим смешные комиксы, весёлые фотожабы и угарные видеоролики. Но мы просматриваем их на других сайтах, потому что они для этого и предназначены, а Хабрахабр — нет. Всевозможные «прикольные ссылки» без развёрнутого комментария тоже лучше оставить за бортом.

Короче говоря, «шуткануть» лучше в другом месте.

Alexufo Feb 7 2016 at 20:06

С Серовым статья для меня выглядела бы куда серьезнее, так какое-то ребячество.

Scratch Feb 5 2016 at 06:35

Зачем эти условности? Мы же все знаем что там под блюром

ice2heart Feb 5 2016 at 06:45

А почему не Лена?

BubaVV Feb 5 2016 at 10:16

Возможно, потому что она уже на пенсии?

elingur Feb 5 2016 at 08:00

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).

kxx Feb 5 2016 at 12:10

Вы правы: с первого взгляда с СКО (к примеру) легче работать, его интерпретация интуитивна, т.к. оно выражено в тех же единицах, что и сама величина. Но тут играют роль и математическая традиция, и некоторый выигрыш от использования дисперсии — мерой разброса случайной величины. У величины во второй степени меняется масштаб — числа проще сравнивать, легче определять выбросы/разброс (у нас же стоит задача выбрать наиболее вариативную величину, правильно?). Есть и еще один аспект: дисперсия — положительная величина, поэтому оперировать с кумулятивной дисперсий проще, достаточно вспомнить свойство аддитивности дисперсии независимых величин: Var(X1 +… + Xn) = Var(X1) +… + Var(Xn).
И действительно, выбирая число главных компонент, главное — с водой не выплеснуть и ребенка.

elingur Feb 5 2016 at 08:02

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

obus Feb 5 2016 at 13:21

Имеется в виду доля объясненной дисперсии (explained variance).