Lexxo 27 июн 2016 в 16:06

Как работает метод главных компонент (PCA) на простом примере

10 мин

267K

Python*Алгоритмы*Машинное обучение*

Из песочницы

+17

Комментарии 23

darkAlert 27 июн 2016 в 17:51

Вы забыли упомянуть, что PCA (как и другие классические методы редукции многомерных данных) ищет только линейные зависимости, в отличие от тех же нейронных сетей, которые могут находить и нелинейные зависимости. Это очень важный аспект.

Stas911 27 июн 2016 в 20:57

А насколько хорошо работает на больших размерностях — типа векторов по 100к фич (было такое в одном из курсов)? Вроде там только матричные операции, не должно быть проблем?

Lexxo 28 июн 2016 в 12:55

На сколько мне известно, действительно, при большом количестве фич описанный выше метод (реализация через ковариационную матрицу) будет работать неэффективно — учитывая размеры полученной ков. матрицы.
PCA, основанный на SVD должен работать лучше, но все равно для больших размерностей есть лучшие алгоритмы, типа Random SVD или Random Projection

yorko 28 июн 2016 в 13:37

Существуют модификации в виде приближенного сингулярного разложения и, соответственно, RandomizedPCA.

nikolay_karelin 28 июн 2016 в 14:38

В конкурсе Нетфликс (а там данных было много: 480.189 клиентов [=признаков] поставили оценки 17.770 фильмам) победил именно подход основанный на разновидности SVD, правда адаптированный для неполных матриц.

На Хабре была серия статей по rSVD.

gaki 28 июн 2016 в 04:50

Стиль изложения напомнил анекдот про студента, жалующегося профессору, что ему трудно представить себе объекты в трёхмерном пространстве, на что профессор советует ему сначала представить их в N-мерном пространстве, а потом представить, что N = 3.

Lexxo 28 июн 2016 в 13:11

Я отчасти согласен с профессором — было желание написать все в общем виде для n-измерений, а потом сказать «в нашем случае n=2, так что очевидно, что...» и просто вставить результат :)

nikolay_karelin 28 июн 2016 в 11:28

Хочу добавить: с математической точки зрения PCA основан на сингулярном разложении матрицы (SVD). Поэтому по большинству ограничений, свойств, алгоритмов и т.п. советую смотреть и на SVD.

Lexxo 28 июн 2016 в 12:48

Я представил наиболее простой (как для понимания, так и по структуре) метод, но, действительно, современные алгоритмы PCA реализованы через сингулярное разложение, а не ковариационные матрицы.
Мне, наверное, стоило посвятить отдельный раздел обзору реализации алгоритма через SVD. Как будет время, постараюсь дополнить.

sp0ck 28 июн 2016 в 12:38

Можно ли привести жизненные примеры, в которых был использован этот метод?

iroln 28 июн 2016 в 12:47

Например, метод применяется при построении статистических моделей формы и активных моделей формы и внешнего вида. Эти модели применяются, в частности, для распознавания лиц. Если интересно, вот лекция на эту тему на русском и статья на хабре.

Lexxo 28 июн 2016 в 13:07

Самый интересный пример — действительно распознавание схожих изображений (к примеру, лиц). Есть даже так называемое понятие «собственные лица» (eigenfaces) по аналогии с собственными векторами (Wikipedia).
Большинство статей, посвященных PCA так или иначе приводят пример графической реализации (вот здесь про платья, и тут еще совсем простой пример)

sp0ck 28 июн 2016 в 13:45

Статья про платья повеселила, спасибо!

Я почему интересуюсь предметной стороной применения метода?
У меня есть прикладная задача, которую я бы хотел решить с помощью ML. Однако не знаю, с какой стороны к ней подойти.

Вот описание задачи:
Есть целевой «Товар А» с определенными характеристиками (Х1, Х2,… Хn). Нужно проанализировать множество товаров (Т с характеристиками) и найти в нем аналоги «Товара А», опираясь на названия товаров и характеристики.
Как названия товаров, так и названия характеристик могут не соответствовать названиям целевого товара. Но название товара + его характеристики с очень высокой вероятностью определяют искомый товар. Это контекстный анализ текстового окружения анализируемой единицы.

Например, целевой товар «Куртка зимняя пуховая красная» (Товар: «Куртка», Х1: «Зимняя», Х2: «Пуховая», Х3: «Красная»), товар из множества аналогов «Пуховик зимний красный» (Товар: «Пуховик», Х1: «Зимний», Х2: «Красный»).

Адепты ML могут что-нибудь посоветовать? :)

Fafnir 28 июн 2016 в 17:39

Если не хотите заморачиваться, то можете загнать все в ElasticSearch и просто использовать его фичи.
Заодно и полнотекстовый получите по своим товарам.

sp0ck 29 июн 2016 в 09:13

Спасибо за комментарий, но, конечно, я проблему решил. Сейчас же я хочу решить задачу с помощью ML.

Fafnir 29 июн 2016 в 11:23

Понимаю, но тут вы немного не туда смотрите.
Эта конкретная задача уже давно решается в анализе текстовых документов, поэтому я вам порекомендовал ES.
Текстовые документы — это, по сути, вектора из слов.
Также и у вас для каждого товара есть свой вектор признаков.
Вы хотите найти среди этих векторов максимально похожий.
Для этого понадобиться некая метрика «похожести», например, косинусное расстояние над TF-IDF представлением.
Плюс некое пороговое значение, которое будет определять достаточную «похожесть», его вы можете вычислить экспериментально.
Если у вас очень много данных, то есть хитрые алгоритмы, которые не сравнивают все подряд, например:
https://blog.twitter.com/2014/all-pairs-similarity-via-dimsum

Надеюсь, это вам как-то поможет, удачи.

darkAlert 28 июн 2016 в 18:06

смотрите на PCA не как на отдельный алгоритм, а как на инструмент для уменьшения размерности данных. В чистом виде, пожалуй, он сейчас нигде не применяется. Но как вспомогательный инструмент может быть использован везде, где есть многомерные данные.

enabokov 1 мар 2019 в 03:01

Хорошая статья. Есть замечание: пишите комментарии в коде, буквально для каждой строки что в ней происходит. Не очевидно без гугления и изучения функций понять что происходит.

enabokov 3 мар 2019 в 20:24

В чём разница между выборочной дисперсией и несмещённой дисперсией?

enabokov 3 мар 2019 в 21:00

Википедия говорит, что выборочная дисерсия (a.k.a дисперсия расчитанная на основе данных выборки) бывает смещённой и несмещённой.

svr_91 4 мар 2019 в 18:34

Несмещенная — это та, у которой матожидание равно дисперсии (не выборочной)
То есть, ты можешь придумать много формул для дисперсии, но не все из них будут несмещенными

enabokov 3 мар 2019 в 21:10

Итак, возьмем единичный вектор на который будем проецировать наш случайный вектор X

Если я не путаю, X — не вектор, а матрица. Соответственно, что такое проекция матрицы на вектор?

herase 19 апр в 14:41

Eigen - это и есть "собственный" по-немецки. В те времена немцы были лидерами в науке, англоязычная наука просто заимствовала у них этот термин. Писать по-русски айген ... кмк так себе идея, хотя конечно у нас язык набит под завязку таким суржиком...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как работает метод главных компонент (PCA) на простом примере

Комментарии 23

Публикации

Истории