Pull to refresh
  • by relevance
  • by date
  • by rating

Распознавание изображений. Алгоритм Eigenface

Artificial Intelligence

Введение



Я продолжаю серию статей посвящённую тематике pattern recognition, computer vision и machine learning. Сегодня я вам представляю обзор алгоритма, который носит название eigenface.



В основе алгоритма лежит использование фундаментальных статистических характеристик: средних (мат. ожидание) и ковариационной матрицы; использование метода главных компонент. Мы также коснёмся таких понятий линейной алгебры, как собственные значения (eigenvalues) и собственные вектора (eigenvectors) (wiki: ru, eng). И вдобавок, поработаем в многомерном пространстве.
Как бы страшно всё это не звучало, данный алгоритм, пожалуй, является одним из самых простых рассмотренных мною, его реализация не превышает нескольких десятков строк, в тоже время он показывает неплохие результаты в ряде задач.

Мне не страшно.
Total votes 132: ↑127 and ↓5+122
Views41K
Comments 48

Реализация метода главных компонент на C#

.NETData MiningAlgorithms
Всем привет. На этой неделе в курсе по машинному обучению профессор Andrew Ng рассказал слушателям про метод главных компонент, с помощью которого можно уменьшить размерность пространства признаков ваших данных. Но к сожалению он не рассказал про метод вычисления собственных векторов и собственных чисел матрицы, просто сказал, что это сложно и посоветовал использовать матлаб/октавовскую функцию [U S V] = svd(a).

Для моего проекта мне понадобилась реализация этого метода на c#, чем я сегодня и занимался. Сам метод главных компонент очень элегантный и красивый, а если не понимать математику которая лежит за всем этим, то это можно это все назвать шаманством. Проблема вычисления собственных векторов матрицы в том, что не существует быстрого способа вычисления их точных значений, так что приходится выкручиваться. Я хочу рассказать об одном из таких способов выкрутиться, а так же приведу код на c# выполняющий эту процедуру. Прошу под кат.
кат
Total votes 20: ↑17 and ↓3+14
Views31K
Comments 18

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

PythonData MiningAlgorithmsMachine learning
Мотивированный статьей пользователя BubaVV про предсказание веса модели Playboy по ее формам и росту, автор решил углубиться if you know what I mean в эту будоражащую кровь тему исследования и в тех же данных найти выбросы, то есть особо сисястые модели, выделяющиеся на фоне других своими формами, ростом или весом. А на фоне этой разминки чувства юмора заодно немного рассказать начинающим исследователям данных про обнаружение выбросов (outlier detection) и аномалий (anomaly detection) в данных с помощью реализации одноклассовой машины опорных векторов (One-class Support Vector Machine) в библиотеке Scikit-learn, написанной на языке Python.
Читать дальше →
Total votes 84: ↑77 and ↓7+70
Views116K
Comments 36

Об одной задаче Data Science

MLClass corporate blogProgrammingData MiningBig DataMathematics
Привет, хабр!



Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели
Читать дальше →
Total votes 20: ↑17 and ↓3+14
Views22K
Comments 7

Разбор задачи Digit Recognizer соревнования Kaggle

MLClass corporate blogProgrammingData MiningBig DataMathematics
Привет, хабр!



Как и обещал, продолжаю публикацию разборов задач, которые я прорешал за время работы с ребятами из MLClass.ru. В этот раз мы разберем метод главных компонент на примере известной задачи распознавания цифр Digit Recognizer с платформы Kaggle. Статья будет полезна новичкам, которые еще только начинают изучать анализ данных. Кстати, еще не поздно записаться на курс Прикладной анализ данных, получив возможность максимально быстро прокачаться в данной области.
Читать дальше →
Total votes 21: ↑19 and ↓2+17
Views12K
Comments 5

Как уменьшить количество измерений и извлечь из этого пользу

ProgrammingData MiningBig DataRMachine learning
Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.
Читать дальше →
Total votes 31: ↑28 and ↓3+25
Views36K
Comments 11

Как работает метод главных компонент (PCA) на простом примере

PythonAlgorithmsMachine learning
Sandbox


В этой статье я бы хотел рассказать о том, как именно работает метод анализа главных компонент (PCA – principal component analysis) с точки зрения интуиции, стоящей за ее математическим аппаратом. Максимально просто, но подробно.
Читать дальше →
Total votes 17: ↑17 and ↓0+17
Views150K
Comments 22

Открытый курс машинного обучения. Тема 7. Обучение без учителя: PCA и кластеризация

Open Data Science corporate blogData MiningAlgorithmsMachine learning

Привет всем! Приглашаем изучить седьмую тему нашего открытого курса машинного обучения!


Данное занятие мы посвятим методам обучения без учителя (unsupervised learning), в частности методу главных компонент (PCA — principal component analysis) и кластеризации. Вы узнаете, зачем снижать размерность в данных, как это делать и какие есть способы группирования схожих наблюдений в данных.


UPD: теперь курс — на английском языке под брендом mlcourse.ai со статьями на Medium, а материалами — на Kaggle (Dataset) и на GitHub.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →
Total votes 53: ↑52 and ↓1+51
Views137K
Comments 7

Автоэнкодер в задачах кластеризации политических событий

PythonData MiningMachine learning
image
Я не люблю читать статьи, смотрю demo и код
Демо TensorBoard Projector

  1. Работает в Chrome.
  2. Открываем и нажимаем на Bookmarks в нижнем правом углу.
  3. В верхнем правом углу можем фильтровать классы.
  4. В конце статьи есть GIF картинки с примерами использования.

Проект на GitHub

Отступление от темы
В данной статье, пойдет речь о средствах машинного обучения, подходах и практических решениях. Анализ проводится на базе политических событий, что не является предметом обсуждения данной статьи. Убедительная просьба не поднимать тему политики в комментариях к этой статье.

Уже несколько лет подряд алгоритмы машинного обучения находят применение в различных областях. Одной из таких областей может стать и аналитика различных событий в политической сфере, например: прогнозирование результатов голосования, разработка механизмов кластеризации принятых решений, анализ деятельности политических акторов. В этой статье я постараюсь поделиться результатом одного из исследований в этой области.

Постановка задачи


Современные средства машинного обучения позволяют трансформировать и визуализировать большой объем данных. Этот факт позволил провести анализ деятельности политических партий путем трансформирования голосований за 4 года в самоорганизуемое пространство точек отображающее поведение каждого из депутатов.

Каждый политик самовыразился по факту двенадцати тысяч голосований. Каждое голосование может принимать одно из пяти вариантов (не пришел в зал, пришел но пропустил голосование, проголосовал “за”, “против” или воздержался).

Наша задача — трансформировать все результаты голосования в точку в трехмерном евклидовом пространстве отражающую некую взвешенную позицию.
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Views5.5K
Comments 5

Метод главных компонент: аналитическое решение

PythonMathematicsMachine learningStudying in ITArtificial Intelligence
Tutorial


В этой статье мы залезем под капот одному из линейных способов понижения размерности признакового пространства данных, а именно, подробно ознакомимся с математической стороной метода главных компонент (Principal Components Analysis, PCA).
Читать дальше →
Total votes 4: ↑4 and ↓0+4
Views6.8K
Comments 0

Админ, погладь LaMa: как мы прокачали SAP и избавились от рутинных задач

Северсталь corporate blogIT InfrastructureDatabase AdministrationERP-systems

Привет, Хабр! Я Сергей Маслаков из команды администраторов SAP BASIS в «Северсталь-Инфоком». Хочу рассказать о том, как мы научились управлять всеми ландшафтами SAP-систем из единого интерфейса, автоматизировали значительную часть рутинных задач и ускорили их выполнение. Под катом история о нашем опыте внедрения SAP Landscape Management (LaMa) 3.0, а также подробный гайд по оптимизации процесса обновления систем HANA продуктивными данными.

Приручить LaMa
Total votes 6: ↑6 and ↓0+6
Views2.3K
Comments 2