• Обзор литературы по Data Mining

      Добрый день!

      Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

      Читать дальше →
    • Очищаем веб-страницы от информационного шума

        Приветствую всех!

        Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

        Будем очищать веб-страницы от «информационного шума».

        Читать дальше →
      • Анализ рыночной корзины и ассоциативные правила

          В продолжении темы о Data Mining поговорим о том, с чего все начиналось. А начиналось все с анализа рыночной корзины (market basket analysis).

          Из глоссария BaseGroup:

          Анализ рыночной корзины — процесс поиска наиболее типичных шаблонов покупок в супермаркетах. Он производится путем анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. Иными словами, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.

          Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объемы продаж за счет предложения клиентам сопутствующих товаров. Например, если в результате анализа будет установлено, что совместная покупка макарон и кетчупа является типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное приобретение.

          Читать дальше →
        • Microsoft DreamSpark по студенческому для украинских студентов и аспирантов

            О данной возможности для российских студентов уже писали в декабре прошлого года. В этом сообщении есть такая фраза:

            Очень рад за российских коллег по разгрызанию гранита науки, вряд ли такая же возможность появится в Украине в ближайшие два года, лично я успею закончить ВУЗ :)

            Хочу обрадовать украинских студентов и аспирантов, так как программа DreamSpark по студенческому билету доступна в Украине!!!

            Все, что нужно, это отправить скан вашего студенческого билета (для аспирантов — любой другой документ, который подтверждает ваш академический статус) на адрес GetDreamSparkUa@hotmail.com и вам будет выслан код доступа в программу.

            Более подробно вы можете почитать по ссылке.
          • Извлечение данных или знаний?

              Приветствую!

              Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

              Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
              • извлечение данных
              • извлечение знаний, интеллектуальный анализ данных

              Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

              Извлечение данных


              Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

              Читать дальше →
            • Tips & Tricks: изменяем User Agent в iPhone

                Как известно, User Agent необходим для «идентификации» пользователя, а конкретнее, для определения, каким клиентом или через какое устройство заходит пользователь к вам на сайт. В зависимости от этого, можно «подставлять» необходимый контент (данные, разметку). Это актуально в последнее время по причине большого роста мобильных устройств.

                В продолжении темы iPhone Dev Tips & Tricks расскажу о том, как поменять User Agent на «iPhone».

                Читать дальше →