Lexxo Jun 27 2016 at 13:06

Как работает метод главных компонент (PCA) на простом примере

10 min

301K

Python*Algorithms*Machine learning*

From sandbox

+17

Comments 23

darkAlert Jun 27 2016 at 14:51

Вы забыли упомянуть, что PCA (как и другие классические методы редукции многомерных данных) ищет только линейные зависимости, в отличие от тех же нейронных сетей, которые могут находить и нелинейные зависимости. Это очень важный аспект.

Stas911 Jun 27 2016 at 17:57

А насколько хорошо работает на больших размерностях — типа векторов по 100к фич (было такое в одном из курсов)? Вроде там только матричные операции, не должно быть проблем?

Lexxo Jun 28 2016 at 09:55

На сколько мне известно, действительно, при большом количестве фич описанный выше метод (реализация через ковариационную матрицу) будет работать неэффективно — учитывая размеры полученной ков. матрицы.
PCA, основанный на SVD должен работать лучше, но все равно для больших размерностей есть лучшие алгоритмы, типа Random SVD или Random Projection

yorko Jun 28 2016 at 10:37

Существуют модификации в виде приближенного сингулярного разложения и, соответственно, RandomizedPCA.

nikolay_karelin Jun 28 2016 at 11:38

В конкурсе Нетфликс (а там данных было много: 480.189 клиентов [=признаков] поставили оценки 17.770 фильмам) победил именно подход основанный на разновидности SVD, правда адаптированный для неполных матриц.

На Хабре была серия статей по rSVD.

gaki Jun 28 2016 at 01:50

Стиль изложения напомнил анекдот про студента, жалующегося профессору, что ему трудно представить себе объекты в трёхмерном пространстве, на что профессор советует ему сначала представить их в N-мерном пространстве, а потом представить, что N = 3.

Lexxo Jun 28 2016 at 10:11

Я отчасти согласен с профессором — было желание написать все в общем виде для n-измерений, а потом сказать «в нашем случае n=2, так что очевидно, что...» и просто вставить результат :)

nikolay_karelin Jun 28 2016 at 08:28

Хочу добавить: с математической точки зрения PCA основан на сингулярном разложении матрицы (SVD). Поэтому по большинству ограничений, свойств, алгоритмов и т.п. советую смотреть и на SVD.

Lexxo Jun 28 2016 at 09:48

Я представил наиболее простой (как для понимания, так и по структуре) метод, но, действительно, современные алгоритмы PCA реализованы через сингулярное разложение, а не ковариационные матрицы.
Мне, наверное, стоило посвятить отдельный раздел обзору реализации алгоритма через SVD. Как будет время, постараюсь дополнить.

sp0ck Jun 28 2016 at 09:38

Можно ли привести жизненные примеры, в которых был использован этот метод?

iroln Jun 28 2016 at 09:47

Например, метод применяется при построении статистических моделей формы и активных моделей формы и внешнего вида. Эти модели применяются, в частности, для распознавания лиц. Если интересно, вот лекция на эту тему на русском и статья на хабре.

Lexxo Jun 28 2016 at 10:07

Самый интересный пример — действительно распознавание схожих изображений (к примеру, лиц). Есть даже так называемое понятие «собственные лица» (eigenfaces) по аналогии с собственными векторами (Wikipedia).
Большинство статей, посвященных PCA так или иначе приводят пример графической реализации (вот здесь про платья, и тут еще совсем простой пример)

sp0ck Jun 28 2016 at 10:45

Статья про платья повеселила, спасибо!

Я почему интересуюсь предметной стороной применения метода?
У меня есть прикладная задача, которую я бы хотел решить с помощью ML. Однако не знаю, с какой стороны к ней подойти.

Вот описание задачи:
Есть целевой «Товар А» с определенными характеристиками (Х1, Х2,… Хn). Нужно проанализировать множество товаров (Т с характеристиками) и найти в нем аналоги «Товара А», опираясь на названия товаров и характеристики.
Как названия товаров, так и названия характеристик могут не соответствовать названиям целевого товара. Но название товара + его характеристики с очень высокой вероятностью определяют искомый товар. Это контекстный анализ текстового окружения анализируемой единицы.

Например, целевой товар «Куртка зимняя пуховая красная» (Товар: «Куртка», Х1: «Зимняя», Х2: «Пуховая», Х3: «Красная»), товар из множества аналогов «Пуховик зимний красный» (Товар: «Пуховик», Х1: «Зимний», Х2: «Красный»).

Адепты ML могут что-нибудь посоветовать? :)

Fafnir Jun 28 2016 at 14:39

Если не хотите заморачиваться, то можете загнать все в ElasticSearch и просто использовать его фичи.
Заодно и полнотекстовый получите по своим товарам.

sp0ck Jun 29 2016 at 06:13

Спасибо за комментарий, но, конечно, я проблему решил. Сейчас же я хочу решить задачу с помощью ML.

Fafnir Jun 29 2016 at 08:23

Понимаю, но тут вы немного не туда смотрите.
Эта конкретная задача уже давно решается в анализе текстовых документов, поэтому я вам порекомендовал ES.
Текстовые документы — это, по сути, вектора из слов.
Также и у вас для каждого товара есть свой вектор признаков.
Вы хотите найти среди этих векторов максимально похожий.
Для этого понадобиться некая метрика «похожести», например, косинусное расстояние над TF-IDF представлением.
Плюс некое пороговое значение, которое будет определять достаточную «похожесть», его вы можете вычислить экспериментально.
Если у вас очень много данных, то есть хитрые алгоритмы, которые не сравнивают все подряд, например:
https://blog.twitter.com/2014/all-pairs-similarity-via-dimsum

Надеюсь, это вам как-то поможет, удачи.

darkAlert Jun 28 2016 at 15:06

смотрите на PCA не как на отдельный алгоритм, а как на инструмент для уменьшения размерности данных. В чистом виде, пожалуй, он сейчас нигде не применяется. Но как вспомогательный инструмент может быть использован везде, где есть многомерные данные.

enabokov Mar 1 2019 at 00:01

Хорошая статья. Есть замечание: пишите комментарии в коде, буквально для каждой строки что в ней происходит. Не очевидно без гугления и изучения функций понять что происходит.

enabokov Mar 3 2019 at 17:24

В чём разница между выборочной дисперсией и несмещённой дисперсией?

enabokov Mar 3 2019 at 18:00

Википедия говорит, что выборочная дисерсия (a.k.a дисперсия расчитанная на основе данных выборки) бывает смещённой и несмещённой.

svr_91 Mar 4 2019 at 15:34

Несмещенная — это та, у которой матожидание равно дисперсии (не выборочной)
То есть, ты можешь придумать много формул для дисперсии, но не все из них будут несмещенными

enabokov Mar 3 2019 at 18:10

Итак, возьмем единичный вектор на который будем проецировать наш случайный вектор X

Если я не путаю, X — не вектор, а матрица. Соответственно, что такое проекция матрицы на вектор?

herase Apr 19 2024 at 11:41

Eigen - это и есть "собственный" по-немецки. В те времена немцы были лидерами в науке, англоязычная наука просто заимствовала у них этот термин. Писать по-русски айген ... кмк так себе идея, хотя конечно у нас язык набит под завязку таким суржиком...