Как стать автором
Поиск
Написать публикацию
Обновить
32.31

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор литературы по Data Mining

Время на прочтение7 мин
Количество просмотров66K
Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Читать дальше →

Очищаем веб-страницы от информационного шума

Время на прочтение5 мин
Количество просмотров3.7K
Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →

Анализ рыночной корзины и ассоциативные правила

Время на прочтение3 мин
Количество просмотров29K
В продолжении темы о Data Mining поговорим о том, с чего все начиналось. А начиналось все с анализа рыночной корзины (market basket analysis).

Из глоссария BaseGroup:

Анализ рыночной корзины — процесс поиска наиболее типичных шаблонов покупок в супермаркетах. Он производится путем анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. Иными словами, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.

Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объемы продаж за счет предложения клиентам сопутствующих товаров. Например, если в результате анализа будет установлено, что совместная покупка макарон и кетчупа является типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное приобретение.

Читать дальше →

Бизнес кейсы использования Data Mining. Часть 1

Время на прочтение3 мин
Количество просмотров13K
Привет, хабр.
Очень рад, что тема Data Mining интересна сообществу.

В данном топике (а если понравится, — в серии топиков) расскажу, какие примеры использования Data Mining есть в Российском и не только бизнесе. Почему я пишу об этом? Я работаю в компании, которая тесно связана с ВЦ РАН (Вычислительный центр Российской академии наук), что позволяет нам иметь отличный научно-исследовательский отдел и разрабатывать новые проекты, применяя отечественные достижения в математике. В данном топике будет больше бизнеса, чем науки, но если последняя все же вас интересует, тогда вам сюда: mmro.ru или сюда: www.machinelearning.ru

Итак, поехали:
Читать дальше →

Извлечение данных или знаний?

Время на прочтение3 мин
Количество просмотров12K
Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных


Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →

Системы рекомендаций: искусственные имунные системы и эффект идиотипов

Время на прочтение4 мин
Количество просмотров2.2K
Системы рекомендаций:
Советы от машины
Холодное начало
Введение в гибридные системы
— Искусственные имунные системы и эффект идиотипов


Читая разные публикации про интеллектуальный анализ данных и системы рекомендаций я случайно наткнулся на один интереснейших подход к реализации таких систем. В его основе лежит концепция искусственной имунной системы (ИИС, Artificial immune system), согласно которой в компьютерной системе реализуются некоторые свойства имунной системы живых организмов, в том числе способность учиться и запоминать. В системах рекомендаций используется модель, которая описывает концентрацию антител, реагирующих на определенный антиген. Особенный интерес представляет так называемый эффект идиотипов (Idiotype), показывающий, что концентрация антител зависит не только от их сходства с антигеном, но и от сходств друг с другом.

Для тех, кто не знаком с биологией, коротко объясню суть дела. Антиген — это вещества, которые при попадании в организм вызывают ответную реакцию имунной системы. В ответ она вырабатывает антитела, определенный класс белков, которые используются для идентификации и нейтрализации раздражителей. В нашем случае, антиген — это пользователь, а антитела — объекты, с которыми вы его сравниваете. Чтобы это легче было представить, предлагаю считать, что мы рассматриваем систему коллективной фильтрации, где антителами являются другие пользователи.
Читать дальше →

Системы рекоммендаций: введение в гибридные системы

Время на прочтение6 мин
Количество просмотров2.9K
Системы рекомендаций:
Советы от машины
Холодное начало
— Введение в гибридные системы
искусственные имунные системы и эффект идиотипов


Продолжим с того момента, на котором мы остановились в прошлый раз: мы рассмотрели несколько способов решения проблемы холодного начала, теперь я предлагаю рассмотреть другие проблемы систем рекомендаций (далее просто СР) и подумать, как разные типы СР могут дополнять друг-друга. Сразу оговорюсь, что я не буду подробно рассматривать способы решения той или иной проблемы. Цель этой статьи — лишь помочь разработчикам ориентироваться в разновидностях СР и в связанных с ними проблемах.

Для начала все-таки придется дополнить классификацию СР. Przemyslaw Kazienko и Pawel Kolodziejski предложили разделить все СР на пять типов: статистические, коллективные, ассоциативные и информационные. Начнем с самых простых.
Читать дальше →
12 ...
62