Как стать автором
Обновить

Комментарии 11

Слишком толсто.) Патриотичнее нужно быть.
Заголовок спойлера
image

И заметье, статью править не придется вообще.
А чем не нравится русский саша грей?
Хабрахабр — не для односложных публикаций. Мы тоже любим смешные комиксы, весёлые фотожабы и угарные видеоролики. Но мы просматриваем их на других сайтах, потому что они для этого и предназначены, а Хабрахабр — нет. Всевозможные «прикольные ссылки» без развёрнутого комментария тоже лучше оставить за бортом.

Короче говоря, «шуткануть» лучше в другом месте.
С Серовым статья для меня выглядела бы куда серьезнее, так какое-то ребячество.
Зачем эти условности? Мы же все знаем что там под блюром
А почему не Лена?
Возможно, потому что она уже на пенсии?
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Вы правы: с первого взгляда с СКО (к примеру) легче работать, его интерпретация интуитивна, т.к. оно выражено в тех же единицах, что и сама величина. Но тут играют роль и математическая традиция, и некоторый выигрыш от использования дисперсии — мерой разброса случайной величины. У величины во второй степени меняется масштаб — числа проще сравнивать, легче определять выбросы/разброс (у нас же стоит задача выбрать наиболее вариативную величину, правильно?). Есть и еще один аспект: дисперсия — положительная величина, поэтому оперировать с кумулятивной дисперсий проще, достаточно вспомнить свойство аддитивности дисперсии независимых величин: Var(X1 +… + Xn) = Var(X1) +… + Var(Xn).
И действительно, выбирая число главных компонент, главное — с водой не выплеснуть и ребенка.
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории