Как стать автором
Обновить

Data Mining в футболе: давайте оцифруем матч и всех посчитаем!

Время на прочтение6 мин
Количество просмотров51K

Тренер следит за вами. Тренер помнит. Тренер не забывает и не прощает.

Если вы видели фильм «Человек, который изменил всё», то уже почти всё знаете. Игроков нужно оценивать по массе показателей, причём интуиция работает далеко не всегда. С помощью аналитики можно в разы увеличить эффективность тренировок, найти новых игроков, которые помогут команде и просто повысить уровень игры. Аналитика рулит.

Читать дальше →
Всего голосов 96: ↑94 и ↓2+92
Комментарии30

Немного магии: как взять и сделать call-центр реально эффективным

Время на прочтение5 мин
Количество просмотров70K
Вы звоните провайдеру. Приготовившись к разговору с вымученно-жизнерадостной девушкой о количестве зелёных лампочек на чёрной коробочке, даже немного теряетесь, когда вам отвечает натуральный сисадмин. И сразу же понимает суть проблемы и решает её. Вы кладёте трубку через 25 секунд разговора в лёгком шоке.

Потом перезваниваете с телефона сестры и получаете ласковое «А какого цвета у вас Интернет?», и начинаете понимать, в чём дело.

Да, это реально возможно на практике. Давайте для примера возьмём некий типовой call-центр и покопаемся в его уже собранных данных, а потом подключим немного математики.

Читать дальше →
Всего голосов 58: ↑53 и ↓5+48
Комментарии67

Computer Science Center. Год номер два

Время на прочтение3 мин
Количество просмотров1.9K

Почти год назад мы объявили об открытии Computer Science Center. Сегодня мы начинаем новый набор, и это хороший повод проанализировать наш старт.

Читать дальше →
Всего голосов 31: ↑28 и ↓3+25
Комментарии22

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера

Время на прочтение4 мин
Количество просмотров37K
Если вы знаете, что один из ваших клиентов завтра проснётся с мыслью о покупке нового планшета — можно уже сегодня прислать ему письмо с кодом на скидку. Если вы понимаете, что по всем признакам клиент собирается перейти к другому провайдеру, можно повысить ему скорость, снизить цену или предложить что-то ещё. Это клиентская аналитика.

Если вы не знаете, какой тарифный план из трёх предложенных стоит запустить по всей стране, надо воспользоваться клиентской аналитикой, которая возьмёт каждого отдельного человека из базы, оценит эмоциональные и практические мотивы перехода – и позволит понять, сколько людей будут пользоваться этим тарифом.

Именно так выглядит Data Mining в клиентской аналитике. И именно так это уже работает на практике в сотнях крупных компаний по всему миру и в нашей стране.



Читать дальше →
Всего голосов 36: ↑31 и ↓5+26
Комментарии26

Как получить у инвестора деньги без утюга и резиновой дубинки?

Время на прочтение5 мин
Количество просмотров13K
Джефф Байер и Джон Файбер — умудрённые опытом советники AlmazCapital и Almaz Venture Capital, которым за год приходит около 3500 заявок. Они выбирают из них 5 или 10 штук, а остальные аккуратно опускают в мусорную корзину.

Недавно они рассказали, что именно ждёт инвестор от заявки, и куда сейчас наиболее интересно смотреть в плане развития.


КДПВ: в топике помогают зарабатывать такие штуки

Data Mining необычайно рулит


Самый интересный сегмент сегодня — это «большие данные». Дело в том, что объем данных, который генерируется и используется человечеством, растет в геометрической прогрессии. Эти данные надо уметь обрабатывать. Любая крупная компания так или иначе сталкивается с делом обработки больших массивов данных, потому что только тогда они становятся коммерческой информацией.
Читать дальше →
Всего голосов 32: ↑26 и ↓6+20
Комментарии13

Конкурс рекомендательных систем MSD Challenge

Время на прочтение1 мин
Количество просмотров1K
26 апреля стартовал конкурс рекомендательных систем Million Song Dataset Challenge. Завершение — через три месяца, 9 августа. В ходе конкурса нужно построить систему, которая по 100% истории прослушивания музыки для 1М пользователей и 50% истории для 100К пользователей сможет максимально точно достроить недостающие 50%. При этом доступны не только данные по прослушиванию, но и обширная база метаданных и даных по контенту от The EchoNest, MusicXMatch и Last.fm. При желании можно пользоваться любыми другими данными (у многих других музыкальных сервисов есть API, через который можно выудить ценную информацию).

Организаторы — CAL UCSD, LabROSA CU, IMIRSEL и UIUC.

Как такового приза у конкурса нет, но компания Zvooq решила сделать его чуть более интересным для российских участников. Лучшая команда из России (вне зависимости от абсолютного места) получит $5000 и возможность бесплатно отправить одного участника на ISMIR 2012.

Условия получения этого бонуса — все участники команды должны проживать в РФ, должно быть опубликовано описание используемого подхода (например, на Хабре или arxiv.org), команда должна заявить о себе на challenge@zvooq.com.

Читать дальше →
Всего голосов 10: ↑8 и ↓2+6
Комментарии0

Астрология и Data mining

Время на прочтение4 мин
Количество просмотров23K

Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось
нечто совсем иное.
Всего голосов 104: ↑88 и ↓16+72
Комментарии137

Реализация метода главных компонент на C#

Время на прочтение8 мин
Количество просмотров33K
Всем привет. На этой неделе в курсе по машинному обучению профессор Andrew Ng рассказал слушателям про метод главных компонент, с помощью которого можно уменьшить размерность пространства признаков ваших данных. Но к сожалению он не рассказал про метод вычисления собственных векторов и собственных чисел матрицы, просто сказал, что это сложно и посоветовал использовать матлаб/октавовскую функцию [U S V] = svd(a).

Для моего проекта мне понадобилась реализация этого метода на c#, чем я сегодня и занимался. Сам метод главных компонент очень элегантный и красивый, а если не понимать математику которая лежит за всем этим, то это можно это все назвать шаманством. Проблема вычисления собственных векторов матрицы в том, что не существует быстрого способа вычисления их точных значений, так что приходится выкручиваться. Я хочу рассказать об одном из таких способов выкрутиться, а так же приведу код на c# выполняющий эту процедуру. Прошу под кат.
кат
Всего голосов 20: ↑17 и ↓3+14
Комментарии18

Реализация алгоритма k-means на c# (с обобщенной метрикой)

Время на прочтение6 мин
Количество просмотров34K
Всем привет. Продолжая тему того, что Andrew Ng не успел рассказать в курсе по машинному обучению, приведу пример своей реализации алгоритма k-средних. У меня стояла задача реализовать алгоритм кластеризации, но мне необходимо было учитывать степень корреляции между величинами. Я решил использовать в качестве метрики расстояние Махаланобиса, замечу, что размер данных для кластеризации не так велик, и не было необходимости делать кэширование кластеров на диск. За реализацией прошу под кат.

кат
Всего голосов 20: ↑16 и ↓4+12
Комментарии19

Торговля знает, когда вы ждете ребенка

Время на прочтение5 мин
Количество просмотров71K
Однажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.

«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»

Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.

Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».

Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом. Под катом – обо всем по порядку.
Читать дальше →
Всего голосов 149: ↑130 и ↓19+111
Комментарии164

Сливки IT R&D (выпуск 16) — 3 в 1

Время на прочтение1 мин
Количество просмотров587
Шестнадцатый выпуск подкаста — Сливки IT R&D.
О первом бизнес-акселераторе в Беларуси, Сан-Франциско бойкотирует продукцию Applе, призрак Сталина в рунете, Волож улыбается, 5кг планшет на Андроиде и многое другое.

Читать дальше →
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Маленькие секреты больших графов

Время на прочтение2 мин
Количество просмотров9.1K

Если вам интересно, какие знания можно извлечь из большого массива данных, насколько большими бывают графы и какие задачи по анализу социальных графов предлагают Facebook, Twitter и др., то эта статья именно для вас.
Читать дальше →
Всего голосов 60: ↑53 и ↓7+46
Комментарии11

Кластеризация k-means с расстоянием Евклида и Махаланобиса

Время на прочтение3 мин
Количество просмотров15K
В предыдущей статье я рассказывал, как можно реализовать алгоритм k-means на c# с обобщенной метрикой. В комментах можно почитать обсуждение того, насколько целесообразно использовать разные метрики, о математической природе использования разных метрик и тому прочее. Мне тогда хотелось привести красивый пример, но не было под рукой подходящих данных. И вот сегодня я столкнулся с задачей, которая хорошо иллюстрирует преимущества использования расстояния Махаланобиса в k-means кластеризации. Подробности под катом.

Читать дальше →
Всего голосов 23: ↑19 и ↓4+15
Комментарии26

Как я покупал квартиру

Время на прочтение11 мин
Количество просмотров62K
Я хотел написать статью про линейную регрессию, но потом подумал, да ну её, лучше куплю квартиру. И пошёл искать, что предлагают. А предлагают, как оказалось, много чего. В подходящий мне ценовой диапозон попало больше 500 квартир. И что, мне теперь все это просматривать? Ну нееет, программист я в конце концов или не программист. Надо это дело как-то автоматизировать.
Читать дальше →
Всего голосов 279: ↑272 и ↓7+265
Комментарии182

Предсказание ухода лояльных игроков в ММО

Время на прочтение6 мин
Количество просмотров16K
В прошлой статье я описал, как мы в Иннове используем data mining для предсказания ухода новичков, только начинающих свой путь в ММОРПГ Aion, на основе логов их действий за пару часов или дней, проведенных в игре. Но у нас также есть и ветераны, посвятившие игре месяцы и годы, и они тоже иногда уходят. Мы уже научились с высокой точностью предсказывать угасание их интереса теми же методами data mining.
Заглянуть в будущее
Всего голосов 111: ↑89 и ↓22+67
Комментарии86

Алгоритм предсказывает преступления, отслеживая мобильные телефоны

Время на прочтение2 мин
Количество просмотров5.6K
Уже много лет учёные экспериментируют с алгоритмами, способными предсказывать преступность. Предполагается, что преступники склонны повторять успешные действия — по крайней мере, они не используют ГСЧ для выбора места и времени преступлений, так что их действия предсказуемы по определению.

Например, год назад калифорнийский город Санта-Крус первым в мире внедрил математическую модель расчёта вероятности преступлений, которая каждый день составляет новый маршрут для патрульных машин, основываясь на статистике преступлений по улицам. Учитываются день недели, время суток, наличие/отсутствие футбольных матчей по ТВ и другие факторы.

Исследователь из Бирмингемского университета Мирко Мусолези (Mirco Musolesi) применил совершенно другой подход. Его метод основан не на статистике, а на оперативных данных из сетей сотовой связи. Мусолези начал с того, что научил алгоритм с высокой степенью вероятности прогнозировать перемещения каждого абонента: он даже выиграл конкурс Nokia Mobile Data, наиболее точно предсказав перемещения 25-ти добровольцев по сигналам их телефонов, истории звонков и текстовым сообщениям. Иногда алгоритм прогнозирует координаты пользователя с точностью до 20 м2.
Читать дальше →
Всего голосов 55: ↑51 и ↓4+47
Комментарии70

Программу «научили» определять город по архитектуре

Время на прочтение2 мин
Количество просмотров2.9K


Поколения архитекторов и дизайнеров (раньше, понятно, такого термина, как дизайнер, не было) работали сотни лет, создавая неповторимые очертания разных городов и отдельных зданий. Само собой, у каждого города с течением времени проявились индивидуальные черты (имеются в виду крупные города, вроде Парижа и Нью-Йорка, у мелких промышленных населенных пунктов индивидуальности практически нет). Понятно, что многие из нас, взглянув на фотографию пары зданий какого-либо города, способны сказать, Париж это, Нью-Йорк или Пекин. Теперь на это способно и программное обеспечение.

Читать дальше →
Всего голосов 25: ↑20 и ↓5+15
Комментарии19

Классификатор kNN

Время на прочтение6 мин
Количество просмотров143K
kNN расшифровывается как k Nearest Neighbor или k Ближайших Соседей — это один из самых простых алгоритмов классификации, также иногда используемый в задачах регрессии. Благодаря своей простоте, он является хорошим примером, с которого можно начать знакомство с областью Machine Learning. В данной статье рассмотрен пример написания кода такого классификатора на python, а также визуализация полученных результатов.
Читать дальше →
Всего голосов 30: ↑27 и ↓3+24
Комментарии9

Коллаборативная фильтрация

Время на прочтение6 мин
Количество просмотров68K
В современном мире часто приходится сталкиваться с проблемой рекомендации товаров или услуг пользователям какой-либо информационной системы. В старые времена для формирования рекомендаций обходились сводкой наиболее популярных продуктов: это можно наблюдать и сейчас, открыв тот же Google Play. Но со временем такие рекомендации стали вытесняться таргетированными (целевыми) предложениями: пользователям рекомендуются не просто популярные продукты, а те продукты, которые наверняка понравятся именно им. Не так давно компания Netflix проводила конкурс с призовым фондом в 1 миллион долларов, задачей которого стояло улучшение алгоритма рекомендации фильмов (подробнее). Как же работают подобные алгоритмы?

В данной статье рассматривается алгоритм коллаборативной фильтрации по схожести пользователей, определяемой с использованием косинусной меры, а также его реализация на python.


Читать дальше →
Всего голосов 57: ↑55 и ↓2+53
Комментарии20

Оптимизация размещения купюр в банкоматах

Время на прочтение6 мин
Количество просмотров81K
Внутри у среднего банкомата лежит от 1 до 3 миллионов рублей. Они разложены по 4 кассетам, в каждой из которых – купюры своего номинала. Замена кассет похожа на замену картриджей в принтере: модуль вынимается (и неважно, сколько там осталось денег — инкассаторы этого даже не знают по правилам безопасности), а на его место вставляется другой модуль точно по стрелке, указывающей, какой стороной и как это делать.

Инкассация — дорогая и достаточно рискованная с точки зрения безопасности процедура, поэтому любое обслуживание банкомата обходится довольно дорого. Естественное желание банка – уменьшить количество инкассаций. Получается классическая задача распределения ресурсов: с одной стороны, в банкомате всегда должны быть деньги для клиентов, с другой — в идеале банк хочет, чтобы ровно перед инкассацией из ящика уходила последняя купюра.
Читать дальше →
Всего голосов 106: ↑101 и ↓5+96
Комментарии155