Data Mining: что внутри

    Уровни информации


    Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки акций более наглядно можно продемонстрировать с помощью графика, а математические формулы опишут законы Ньютона в более компактном виде.


    В процессе развития информационных технологий, а также систем сбора и хранения данных — баз данных (databases), хранилищ данных (data warehousing), и с недавних пор, облачных репозиториев, возникла проблема анализа больших объемов данных, когда аналитик или управленец не в состоянии вручную обработать большие массивы данных и принять решение. Понятно, что аналитику необходимо каким-то образом представить исходную информацию в более компактном виде, с которой может справится человеческий мозг за приемлемое время.

    Выделим несколько уровней информации:
    • исходные данные (сырые данные, исторические данные или просто данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой или объекта и отображающие его состояние в конкретные моменты времени (например, данные о котировках акций за прошедший год);
    • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде (например, результаты поиска);
    • знания — несут в себе некое ноу-хау, отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация); данные с большой энтропией (или мерой неопределенности).
    Рассмотрим пример. Допустим, у нас есть некие данные о валютных операциях на рынке Forex за определенный промежуток времени. Эти данные могут хранится в текстовом виде, в XML формате, в базе данных или в бинарном виде и сами по себе не несут никакой полезной смысловой нагрузки. Далее аналитик загружает эти данные, к примеру, в Excel и строит график изменений, таким образом получая информацию. Дальше он загружает данные (полностью или частично обработанные в Excel), например, в Microsoft SQL Server и с помощью Analysis Services получает знание о том, что завтра акции лучше продать. После этого аналитик может использовать уже полученные знания для новых оценок, таким образом получив обратную связь в информационном процессе.

    Между уровнями нет четких граней, но такая классификация позволит нам в дальнейшем не запутаться с терминологией.

    Data Mining


    Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода (и значений):
    • извлечение, сбор данных, добыча данных (еще используют Information Retrieval или IR);
    • извлечение знаний, интеллектуальный анализ данных (Knowledge Data Discovery или KDD, Business Intelligence).
    IR оперирует первыми двумя уровнями информации, соответственно, KDD работает с третьим уровнем. Если же говорить о способах реализации, то первый вариант относится к прикладной области, где главной целью являются сами данные, второй — к математике и аналитике, где важно получить новое знание из большого объема уже имеющихся данных. Чаще всего извлечение данных (сбор) является подготовительным этапом для извлечения знаний (анализ).

    Осмелюсь ввести еще один термин для первого пункта — Data Extracting, который буду использовать в дальнейшем.

    Задачи, решаемые Data Mining:
    1. Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
    2. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
    3. Сокращение описания — для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
    4. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».
    5. Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)
    6. Анализ отклонений — например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
    7. Визуализация данных.

    Information retrieval


    Information retrieval используется для получения структурированных данных или репрезентативной выборки меньшего размера. По нашей классификации information retrieval оперирует данными первого уровня, а в результате выдает информацию второго уровня.

    Самым простым примером information retrieval является поисковая система, которая на основании неких алгоритмов выводит часть информации из полного набора документов. Кроме того, любая система, которая работает с тестовыми данными, метаинформаций или базами данных тем или иным способом использует инструменты information retrieval. Инструментами могут выступать методы индексации, фильтрации, сортировки данных, парсеры и т.д.

    Text Mining


    Другие названия: text data mining, text analysis, очень близкое понятие – concern mining.

    Text mining может работать как с сырыми данными, так и с частично обработанными, но в отличие от information retrieval, text mining анализирует текстовую информацию с помощью математических методов, что позволяет получать результат с элементами знания.

    Задачи, которые решает text mining: нахождение шаблонов данных, получение структурированной информации, построение иерархий объектов, классификация и кластеризация данных, определение тематики или области знаний, автоматическое реферирование документов, задачи автоматической фильтрации контента, определение семантических связей и другие.

    Для решения задач text mining используют статистические методы, методы интерполяции, аппроксимации и экстраполяции, нечеткие методы, методы контент-анализа.

    Web Mining


    Ну и наконец мы добрались к web mining – наборе подходов и техник для извлечения данных из веб-ресурсов.
    Так как веб-источники, ка правило, не являются текстовыми данными, то и подходы к процессу извлечения данных отличаются в этом случае. В первую очередь необходимо помнить, что информация в вебе хранится в виде специального языка разметки HTML (хотя есть и другие форматы – RSS, Atom, SOAP, но об этом поговорим позже), веб-страницы могут иметь дополнительную метаинформацию, а также информацию о структуре (семантике) документа, каждый веб-документ находится внутри некого домена и к нему могут применяться правила поисковой оптимизации (SEO).

    Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 47

      +15
      Прошу продолжения. Мне интересны инструменты и применения.
        0
        Многие способы применения действительно интересны. Например, правильно настроенная SAS может показать корпоративных клиентов, которые собираются сделать крупные приобретения в ближайшие несколько месяцев.
          0
          извините, а что значит правильно настроенный SAS?
          0
          Обратите свое внимание на QlikView. так же есть еще и опенсорсные решения.
            0
            Интересен в первую очередь личный опыт использования (в формате хабра-статьи).

            Инструментов то очень много и все разные, от бесплатных (по большей части академических) до сильно дорогих от фирм уровня IBM.
          +2
          Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.
          А что собственно будет в статьях? Обзор алгоритмов и/или обзор существующего ПО?
            0
            Вот-вот. Мне тоже очень этот вопрос интересен. Автор — ау?
              0
              Больше сконцентрируемся на web mining и готовых инструментах, библиотеках. Хотя буду смотреть по интересу читателей.
              0
              ПО интереснее.
              +1
              О, снова эта крутая тема, напоминающая мне про мой диплом :)
              Правда тогда, в далеком 2005-м, мной не затрагивался Web Mining — а сейчас для меня это самое интересное, так что ждем продолжения.
                0
                На тему web mining, есть несколько разработок отечественных, например тот же Аваланч.
                www.tora-centre.ru/avalanche.htm

                Они уже лет 5 на рынке предлагают свои услуги по конкурентной разведке. В деталях я не очень, но им известно порядка 19 способов обращения к документам на различного типа веб серверах и просто серверах. 20-й способ — это обращение через систему линков :)

                Многие скептически относятся к их системе, но когда видишь чего они достигли и где используются их наработки… Ну и стоимость, дорого…

                Есть новые системы, коммерческого назначения youscan.ru — сканируют 90% соц. медиа, аналог presscan.ru

                На самом деле не очень ясно, что из этого относится именно к Web Mining, т.к. везде присутствуют элементы Data Mining…

                  0
                  … и Text Mining
                +2
                Академично и бессмысленно, но части будет интересно. Хотя, я хочу посмотреть как вы будете генетический анализ в экселе делать )
                  +2
                  Вы не поверите, но что-то подобное уже есть. Или например, вот.
                    0
                    я знаю, что можно. не скажу что оптимально.
                    все-таки не тот софт и не тот уровень у мс пока что.
                    0
                    Evolver — классная штука, ей уже лет 10, если не больше.
                    +1
                    поддерживаю! хотелось бы практический пример раскопок(mining)
                      0
                      Практическое применение это Микроформаты, Микродата и RDF…
                        +3
                        ну это не IR, это курам на смех какойто
                      +2
                      Прощу продолжения в направлении Web Mining
                        0
                        Обожаю такие вещи. Особенно интересует инструментарий BI
                          0
                          Добавлю, что ведущие исследователи называют BI и облачные вычисления центральными технологиями в приоритетах информационной индустрии этого, и, возможно следующего года.
                            +1
                            Спасибо за комментарии. Дальше более детально будем рассматривать web mining и все, что с ним связано.
                            • UFO just landed and posted this here
                                +3
                                Надеюсь, что ваши статьи будут более информативны. А пока я обнаружил блок «Задачи, решаемые Data Mining», чуть ли не дословно повторяющий мною вбитый в википедию три года назад.
                                  +1
                                  Да, этот блок был взят из вики, но для списка задач, думаю, это не критично.
                                    0
                                    Рассмотрите примеры задач, только плз, не из учебников, а лучше из реальной жизни. В открытом доступе опубликовано очень мало реальных примеров.

                                    В учебных примерах, обычно, все решается очень красиво. В реальности такое редкость.
                                  0
                                  В списке решаемых задач классификация — это слишком узко. Например, незаслуженно забыта регрессия. Я бы предложил заменить на что-то типа «восстановление неизвестной зависимости по ее реализациям».
                                    0
                                    Добавлю от себя:

                                    Классификация — сопоставление вектора признаков элементам (элементу) множества, возможно, с выводом степени похожести.

                                    Регрессия — сопоставление входного вектора (скаляра) другому вектору (скаляру), т.е. построение модели вида Y = f(X).
                                    +1
                                    Хорошая тема.

                                    Давайте про конкретные реализации, BI решения (OLAP, data mining, индикаторы, отчёты, ETL). Лучше всего — на примере opensource систем. :-)
                                      +1
                                      Более бестолковой фразы чем эта «Для сокращения избыточности информации были придуманы математические формулы», я еще не встречал.
                                        +1
                                        Как, по вашему, должна звучать фраза?
                                          –1
                                          Очевидно, это операция поиска закономерностей, то есть сжатия информации.
                                            0
                                            Как относится операция поиска закономерностей к сжатию информации?
                                              0
                                              Это прикладной анализ данных (ПАД), который основан на применении гипотезы компактности.

                                              В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше, а избыточности меньше.
                                                0
                                                Спасибо, но разве ваше объяснение очевидно?
                                                  0
                                                  Вполне очевидное объяснение для всех специалистов, которые занимаются Data Mining.
                                                    0
                                                    Легкий поиск по интернетах показал, что сочетание гипотезы компактности и data mining встречается крайне редко. Это, конечно, не говорит о том, что вы не правы, просто я действительно не слышал об этом. Если можно, дайте ссылку (и), где об этом написано более детально.
                                                      0
                                                      В ВУЗах Украины и России нет такого понятия, как data mining — в основном его называют прикладным анализом данных. А гипотеза компактности относится к задачам классификации — посмотрите в google.
                                        +1
                                        Сейчас пишу диплом как раз связанный с data mining, используя ассоциативные правила с нечёткой дискретизацией и ограничениями. Теперь вот размышляю как бы это всё дальше развить из учёбной задачи, ибо в стол писать не хочется) Если кто-нить тоже занимается и есть планы то стучитесь, могу и сам присоединиться к проекту =)

                                        з.ы. Могу кстати про парочку алгоритмов написать если хабрасообществу интересно, хотя часть из них и так не плохо освещены)
                                        +1
                                        Математические формулы (и в общем-то вся математика) придуманы для аналитического описания окружающей нас действительности. Сокращение избыточности информации — это конкретная задача, решаемая конкретными способами, в том числе и математическими. Из ваших слов складывается впечатление, что кроме избыточности математика не решает больше никаких задач. Извините задело за живое
                                          –1
                                          Вы очень буквально восприняли фразу. Описание закона притяжение в словесной форме и с помощью математической формулы, по сути, несут в себе одинаковую смысловую нагрузку для человека. Но словесное описание занимает гораздо больше байт информации чем формула. Соответственно, математическая формула позволяет сократить описание закона без потери смысловой нагрузки. Поэтому в данном случае словесное описание является избыточным.
                                          0
                                          Какая наука может быть более буквальной нежели математическая? (вопрос риторический)
                                            0
                                            Где найти продолжение?
                                              0
                                              Скоро будет.

                                            Only users with full accounts can post comments. Log in, please.