viktorpanasiuk May 29 2014 at 10:43

Факторный анализ для чайников

3 min

97K

Algorithms*Mathematics*

+43

Comments 17

alexeygrigorev May 29 2014 at 12:16

Спасибо за статью, интересное чтиво.
Только я не понял, описанный алгоритм — это что? PCA? Или это интуитивное описание того, как именно нейронные сети учатся выявлять самое важное во входных данных?

kometa_triatlon May 29 2014 at 20:36

Скорее feature selection.
Статья дает представление о некоторых фундаментальных проблемах машинного обучения, хотя ничего похожего на описанный алгоритм не делается ни в PCA, ни в алгоритме обучения нейронной сети.

viktorpanasiuk May 29 2014 at 12:39

Собственные размышления. В жизни ведь точно также. Вы смотрите на что-то, а мозг выделяет те параметры, которые полностью интерпретируют объект. Например как мы отличаем мужчину от женщины? У мозга есть собственный скрытый алгоритм, возможно он выделяет нос, рот, уши, глаза, брови и т.д., и в каждом таком объекте ищет нечто, что в совокупности позволяет сделать однозначный выбор. Хотя вместо всех этих сложностей достаточно взглянуть на грудь, один лишь этот фактор дает нам ответ, вместо десятка других.

Arcpool Jun 3 2014 at 11:44

А потом поднять глаза и увидеть (внезапно) бороду!

viktorpanasiuk Jun 3 2014 at 13:45

Именно поэтому наш выбор основывается не на одном параметре. У параметров есть веса. Грудь весьма «весомый» фактор в принятии решения. А вот наличие бороды введет нас в замешательство. Поневоле мы начнем искать менее весомые факторы, чтобы чашу весов выбора перевесить в какую-нибудь одну сторону. Иначе у нас будет когнитивный диссонанс.

ZlodeiBaal May 29 2014 at 13:17

Да, мы примерно таким методом делаем нормировку по областям перед сравнением цифр. Чем реже корреляция какой-то области цифры с другими цифрами, тем важнее она при корреляции образца с этой цифрой.
Только не знал, что оно «Факторным анализом» зовётся:)
Вроде здравая логика)

viktorpanasiuk May 29 2014 at 13:23

Я сам до конца не уверен можно ли отнести данный метод к факторному анализу и методу главных компонент, но по описанию похоже)

stemm May 29 2014 at 14:06

Спасибо за интересную статью.

Когда-то я для себя придумал следующую визуализацию для метода главных компонент: представьте, что мы хотим показать человеку фотографию чайника. Какую из следующих фотографий лучше выбрать для показа?

фото 1

фото 2

В большинстве случаев, фото 1 воспринимается людьми как более информативное (в качестве подтверждения: в поиске картинок Google, по запросу «чайник», довольно редко встречаются фотографии чайников со стороны дна).

Таким образом, выбирая наиболее информативную фотографию (проекцию 3х мерного объекта на 2х мерную плоскость) — наш мозг, фактически, выполняет метод главных компонент (в данном случае — поиск ортогональной проекции с наибольшим рассеянием)

viktorpanasiuk May 29 2014 at 14:14

Интересная точка зрения. Возможно так оно и есть. Чтобы анализировать объект, наши руки крутят его, а мозг выбирает ту проекцию, в которой наблюдается максимальный разброс параметров. Нужно это, скорее всего, для дальнейшей классификации. Например белый, фарфоровый нам еще ни о чем не говорит, а белый с носиком и ручкой уже похож на чайник)

UFO just landed and posted this here

stemm May 29 2014 at 15:12

Относительно привычки — хочу обратить внимание на немного другой факт: чаще всего мы привыкли брать чайник той рукой, которая у нас «главная» («правши» — правой, «левши» — левой). Отсюда могу предположить гипотезу: фотографируя чайник, мы будем поворачивать его в наиболее привычный для нас ракурс (носик влево — для правши, или носик вправо — для левши).

Используя Google картинки — можно посчитать процент различных ракурсов чайников: для примерно 100 первых картинок, можно насчитать 12 изображений чайников носиком вправо, и примерно 80 — носиком влево, что коррелирует с процентным соотношением «правшей» и «левшей».

viktorpanasiuk May 29 2014 at 15:50

Забавно. Меня даже коробить начало, когда я представил чайник повернутый вправо))

viktorpanasiuk May 29 2014 at 15:56

Для распознавания объекта большую роль играют атрибуты. Носик как раз является таким атрибутом. Если чайник, по форме своей не будет схож на обыденный чайник, но будет иметь носик, мы с большой вероятностью сможем предположить что это все-таки чайник. А вот если носик будет спрятан из виду, мы бросимся искать иные атрибуты. Впрочем, свой домашний чайник вы узнаете без носика с ручкой да еще и в темной комнате)

blackstrip May 30 2014 at 09:08

Напомнило советскую детскую книжку дремучих годов про разработку перцептрона из доступных радиодеталей для определения индекса на конверте.

alexeygrigorev May 30 2014 at 18:55

А что за книжка, не подскажите?

blackstrip Jun 1 2014 at 08:53

Помоему, называлась она просто «Перцептрон». На обложке несколько цифр индекса, лежащие на столе, и, кажется, красные лучи сквозь них. А так, авторов точно не вспомню, к сожалению. Дома где-то она валяется)

pavlick May 31 2014 at 16:34

факторным анализом именно данный пример назвать нельзя, потому что число наблюдений должно быть как минимум в 2 раза больше числа переменных. То есть для матрицы 5х7 должно быть 70 наблюдений. Можно ли опустить это правило в связи с тем, что мы за 10 наблюдений перебрали все возможные варианты, не знаю

Show the best of all time