kxx5 фев 2016 в 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 мин

59K

Big Data * Data Mining * R * Машинное обучение * Программирование *

+24

Комментарии 11

Alexufo 5 фев 2016 в 01:21

Слишком толсто.) Патриотичнее нужно быть.

Заголовок спойлера

И заметье, статью править не придется вообще.

Alexufo 5 фев 2016 в 11:51

А чем не нравится русский саша грей?

evilsprut 7 фев 2016 в 18:02

Хабрахабр — не для односложных публикаций. Мы тоже любим смешные комиксы, весёлые фотожабы и угарные видеоролики. Но мы просматриваем их на других сайтах, потому что они для этого и предназначены, а Хабрахабр — нет. Всевозможные «прикольные ссылки» без развёрнутого комментария тоже лучше оставить за бортом.

Короче говоря, «шуткануть» лучше в другом месте.

Alexufo 7 фев 2016 в 20:06

С Серовым статья для меня выглядела бы куда серьезнее, так какое-то ребячество.

Scratch 5 фев 2016 в 06:35

Зачем эти условности? Мы же все знаем что там под блюром

ice2heart 5 фев 2016 в 06:45

А почему не Лена?

BubaVV 5 фев 2016 в 10:16

Возможно, потому что она уже на пенсии?

elingur 5 фев 2016 в 08:00

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).

kxx 5 фев 2016 в 12:10

Вы правы: с первого взгляда с СКО (к примеру) легче работать, его интерпретация интуитивна, т.к. оно выражено в тех же единицах, что и сама величина. Но тут играют роль и математическая традиция, и некоторый выигрыш от использования дисперсии — мерой разброса случайной величины. У величины во второй степени меняется масштаб — числа проще сравнивать, легче определять выбросы/разброс (у нас же стоит задача выбрать наиболее вариативную величину, правильно?). Есть и еще один аспект: дисперсия — положительная величина, поэтому оперировать с кумулятивной дисперсий проще, достаточно вспомнить свойство аддитивности дисперсии независимых величин: Var(X1 +… + Xn) = Var(X1) +… + Var(Xn).
И действительно, выбирая число главных компонент, главное — с водой не выплеснуть и ребенка.

elingur 5 фев 2016 в 08:02

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

obus 5 фев 2016 в 13:21

Имеется в виду доля объясненной дисперсии (explained variance).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий