Как стать автором
Обновить

Комментарии 11

Слишком толсто.) Патриотичнее нужно быть.
Заголовок спойлера
image

И заметье, статью править не придется вообще.
А чем не нравится русский саша грей?
Хабрахабр — не для односложных публикаций. Мы тоже любим смешные комиксы, весёлые фотожабы и угарные видеоролики. Но мы просматриваем их на других сайтах, потому что они для этого и предназначены, а Хабрахабр — нет. Всевозможные «прикольные ссылки» без развёрнутого комментария тоже лучше оставить за бортом.

Короче говоря, «шуткануть» лучше в другом месте.
С Серовым статья для меня выглядела бы куда серьезнее, так какое-то ребячество.
Зачем эти условности? Мы же все знаем что там под блюром
А почему не Лена?
Возможно, потому что она уже на пенсии?
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Вы правы: с первого взгляда с СКО (к примеру) легче работать, его интерпретация интуитивна, т.к. оно выражено в тех же единицах, что и сама величина. Но тут играют роль и математическая традиция, и некоторый выигрыш от использования дисперсии — мерой разброса случайной величины. У величины во второй степени меняется масштаб — числа проще сравнивать, легче определять выбросы/разброс (у нас же стоит задача выбрать наиболее вариативную величину, правильно?). Есть и еще один аспект: дисперсия — положительная величина, поэтому оперировать с кумулятивной дисперсий проще, достаточно вспомнить свойство аддитивности дисперсии независимых величин: Var(X1 +… + Xn) = Var(X1) +… + Var(Xn).
И действительно, выбирая число главных компонент, главное — с водой не выплеснуть и ребенка.
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории