yorko Feb 23 2015 at 00:15

Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn

7 min

130K

Data Mining * Python * Algorithms * Machine learning *

+70

Comments 36

spmbt Feb 23 2015 at 02:33

Заинтересованный читатель найдет и множество других алгоритмов обнаружения аномалий...

Но я так и не нашёл ответа в статье — как по-научному называется заинтересованный человек, ищущий аномалии в выборке данных? Хотя статья — об этом.

yorko Feb 23 2015 at 07:55

Такого человека можно просто назвать исследователем данных. А самый простой способ и наверно часто применяющийся — предположить, что распределение данных нормальное и поставить порог на отклонение от среднего — обозвать выбросом, например, все что лежит вне шара радиуса 2.5 std от центра. Также можно поставить порог на вероятность появление такого редкого объекта — про это Andrew Ng рассказывает в его известном курсе машинного обучения на Coursera. Примерно то же делает метод covariance estimator, который на Scikit-learn сравнивается с One-class SVM. Разновидности covariance estimator рассматриваются в еще одном примере Scikit-learn. И как всегда Википедия подскажет еще немало методов — адапатации нейронных сетей, ансамблей, kNN, ассоциативных правил и алгоритмов кластеризации под эту задачу.

yorko Feb 23 2015 at 08:26

Предлагаю размять мозг и подумать, что еще интересного можно вытащить из этого сета. До меня «первопроходец» BubaVV строил регрессию вида lm(Weight ~ Bust + Waist + Hips + Height), но так же можно предсказывать и рост от других параметров и не только линейной регрессией.
Можно добавлять признаки (см. введение в Feature Engineering на Хабре), например индекс массы тела MI = 10^4 * Weight / Height^2. Поможет ли, подскажет кросс-валидация моделей.
По картинке видно, что кластеры не выделяются, а жаль.
Можно еще ассоциативные правила строить вида «Bust > 90 and Height > 170 => Weight > 62». У деревьев решений на выходе примерно то же.
Что-нибудь еще?

BubaVV Feb 23 2015 at 08:57

Вижу два направления развития.
1. Добавить много-много параметров моделей и выбрать из них самые информативные. Выбирать можно генетическим алгоритмом, он тут бодро справляется
2. Добавить немного параметров и пробовать строить зависимость очень нелинейного вида. Например, из зависимость вида W=Bust*Height, W=Bust+Height и W=Bust+(Height*Hips) выбрать самую правильную. Зависимости генерировать в виде «программы» для маленькой стек-машины

yorko Feb 23 2015 at 09:09

1. Добавить — в смысле породить из имеющихся? Тут можно тогда feature importance считать, например, с помощью прироста информации.
2. Вручную перебирать или автоматически генерить такие комбинации признаков — вряд ли перспективно, хотя точно не знаю. Просто SVM и нейронные сети как раз это и делают — строят очень сложную нелинейную функцию от входных признаков. А нужная комбинация найдется в процессе оптимизации.

BubaVV Feb 23 2015 at 09:13

1. Нет, именно найти новые. Длина волос например, или длина ног, или еще что-то в таком виде.
2. В науке местами штука очень востребованная. Нейросеть функцию сделает и реализует, но в ряде случаев нужно именно уравнение обычного вида.

UFO landed and left these words here

yorko Feb 23 2015 at 22:32

А вот оригинальная статья, в которой, отмечается, что пока обычные американцы и американки толстели с 1950-х годов по 2000-ые, модели Playboy, наоборот, худели. Но и, к сожалению, заодно и худели грудью. Или это результат борьбы с некачественными имплантантами…

dmitrmax Feb 26 2015 at 16:40

девиантофил? )

Galiaf47 Feb 23 2015 at 06:14

Зашел только для того, чтобы посмотреть фото.

alexeygrigorev Feb 23 2015 at 06:45

Пользователям любой ОС можно не мучаться с установкой библиотек и воспользоваться anaconda

yorko Feb 23 2015 at 07:38

Точно, спасибо! Слышал, но давно хотел проверить.

orangeSky Feb 23 2015 at 06:58

Я зашел, чтобы увидеть сиськи. Вы меня разочаровали, автор. :(

UFO landed and left these words here

yorko Feb 23 2015 at 08:15

Для желающих отвлечься от проганья и раскрыть для себя тему сисек в статье приведены ссылки на моделей на playboy.com.

xoposhiy Feb 23 2015 at 07:40

Теперь ждем статью-туториал про анализ видео и алгоритмы рекомендаций!

BubaVV Feb 23 2015 at 07:50

Самое гнусное в оном жанре — когда модель ~~пырится~~ смотрит прямо в камеру. Как учебная задача для распознавания лиц — самое оно, как мне кажется

xoposhiy Feb 23 2015 at 07:52

Но сначала придется разметить тестовую базу. Самая неприятная часть в любой задаче машинного обучения!

BubaVV Feb 23 2015 at 07:54

Взаимное расположение овала лица и глаз. Я абсолютно не в теме, но думал что оно сразу заведется в хоть каком-то виде. А тестовую выборку придется спарсить с какого-нибудь сайта

xoposhiy Feb 23 2015 at 08:03

Похоже на то, что вы действительно не в теме.

Задача распознавания — это задача обучения с учителем (в отличие от темы этой статьи). Можно налабать какой угодно алгоритм на коленке, пафосно назвать его машинным обучением, и убеждать всех, что оно «завелось сразу в каком-то виде».

Но пока вы не измерили точность его работы, это — пффф — никому не интересный кода кусок, вроде сносно работающий на трех конкретных фоточках. А чтобы узнать точность, нужно каким-то более достоверным способом (часто — просто вручную), разметить достаточно большую и разнообразную тестовую базу распознаваемых объектов. А затем сравнивая достоверную разметку с ответом алгоритма судить о точности последнего.

yorko Feb 23 2015 at 08:32

Все верно, только тут стоит отметить, что мы живем уже в мире таких объемов данных, пометить которые бывает нереально или очень дорого. Поэтому современные алгоритмы Semi-supervised learning и deep learning адаптируются для работы с частично или слабо помеченными данными.

xoposhiy Feb 23 2015 at 08:35

Все верно, только я вот пытался пошутить про разметку порно, но юмора что-то никто не оценил ;)

yorko Feb 23 2015 at 09:11

Ниче так предложение было бы для Amazon Mechanical Turk! сразу желающие нашлись бы, и не только домохозяйки

yorko Feb 23 2015 at 09:12

кстати, судя по ответу одного из разработчиков Яндекса, их асессоры отчасти этим и занимаются.

harlov91 Feb 23 2015 at 08:05

Спасибо, почитал.

fshp Feb 23 2015 at 10:40

Если нет, пользователи Windows могут порадоваться и элементарно установить прекомпилированные библиотеки отсюда.
Ну а пользователям никсов и маков (как и автору) придется чуть-чуть помучаться, но статья не об этом.

Вы всё перепутали.

saboteur_kiev Feb 23 2015 at 12:24

Всегда считал, что главное — не конкретные размеры, а их соотношения с другими чертами, наличие некоторой симметрии.

Другими словами, если в музыке, все строится вокруг резонансов, отсюда и идет в конечном счете размер октавы и понятие «тон, полутон», и уже существуют программные «композиторы»,
То было бы интересно увидеть программный алгоритм определения «симпатичный/не симпатичный», возможно даже генерация лиц.

BubaVV Feb 23 2015 at 12:47

18+

Точно надо?

saboteur_kiev Feb 23 2015 at 13:09

Я вам про алгоритмы и духовность, а вы…

Например в макияже (или пластической хирургии), было бы интересно создать алгоритм, когда вносишь отдельные параметры, а софт просчитывает остальные для создания «идеального лица». Или такое уже есть?

Блин, это же идея для стартапа в каком-нить фейсбуке/vk. И возможность отправить скриншот подруге.

int19h Feb 24 2015 at 07:27

Вы только при расчете идеального лица не забудьте про uncanny valley, а то очень забавный эффект может получиться.

Danov Feb 23 2015 at 18:28

Распределения странные. Например, рост. Видны провалы. на 160++ и на 170++. Почему? Дюймы перевели в см и уже потом сантиметры разбили на интервалы для гистограммы. Пожалуй, плохая идея была.

yorko Feb 23 2015 at 22:18

По сути преобразование из дюймов в сантиметры — линейное, и ничего не должно было кардинально поменяться. Где было 25 дюймов, стало 64 см, если правильно округлять (так то 63.5, и если над данными работают разные люди, то кто-то мог взять и «округлить» до 63).
Причина «провалов» таится, во-первых, в округлении, а во-вторых, в слишком подробных гистограммах.
Если посмотреть на изначальные данные в дюймах, то получится вот что:

table(height$V1)

 59   60 60.5   61   62 62.5   63 63.5   64 64.5   65 65.5   66 66.5   67 67.5   68 68.5   69 69.5   70 
   2    4    1    5   29    4   38    1   54   13   85   20   86    5   99   10   78   19   31    5   18 
70.5   71   72   73   74 
   1    9    1    1    1

Как видно, дробные значения люди указывают намного реже. Это известный прикол в статистических исследованиях. Демографы всегда делают поправки на округление данных.

Ну и если рисовать слишком подробные гистограммы, то конечно, они получаются более рваные.

hist(height$V1, breaks= 20, col="Green", xlab = "Height in inches", main = "Height")
> hist(height$V1, breaks= 100, col="Red", xlab = "Height in inches", main = "Height")