Многие способы применения действительно интересны. Например, правильно настроенная SAS может показать корпоративных клиентов, которые собираются сделать крупные приобретения в ближайшие несколько месяцев.
Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.
А что собственно будет в статьях? Обзор алгоритмов и/или обзор существующего ПО?
О, снова эта крутая тема, напоминающая мне про мой диплом :)
Правда тогда, в далеком 2005-м, мной не затрагивался Web Mining — а сейчас для меня это самое интересное, так что ждем продолжения.
Они уже лет 5 на рынке предлагают свои услуги по конкурентной разведке. В деталях я не очень, но им известно порядка 19 способов обращения к документам на различного типа веб серверах и просто серверах. 20-й способ — это обращение через систему линков :)
Многие скептически относятся к их системе, но когда видишь чего они достигли и где используются их наработки… Ну и стоимость, дорого…
Есть новые системы, коммерческого назначения youscan.ru — сканируют 90% соц. медиа, аналог presscan.ru
На самом деле не очень ясно, что из этого относится именно к Web Mining, т.к. везде присутствуют элементы Data Mining…
Добавлю, что ведущие исследователи называют BI и облачные вычисления центральными технологиями в приоритетах информационной индустрии этого, и, возможно следующего года.
Надеюсь, что ваши статьи будут более информативны. А пока я обнаружил блок «Задачи, решаемые Data Mining», чуть ли не дословно повторяющий мною вбитый в википедию три года назад.
В списке решаемых задач классификация — это слишком узко. Например, незаслуженно забыта регрессия. Я бы предложил заменить на что-то типа «восстановление неизвестной зависимости по ее реализациям».
Это прикладной анализ данных (ПАД), который основан на применении гипотезы компактности.
В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше, а избыточности меньше.
Легкий поиск по интернетах показал, что сочетание гипотезы компактности и data mining встречается крайне редко. Это, конечно, не говорит о том, что вы не правы, просто я действительно не слышал об этом. Если можно, дайте ссылку (и), где об этом написано более детально.
В ВУЗах Украины и России нет такого понятия, как data mining — в основном его называют прикладным анализом данных. А гипотеза компактности относится к задачам классификации — посмотрите в google.
Сейчас пишу диплом как раз связанный с data mining, используя ассоциативные правила с нечёткой дискретизацией и ограничениями. Теперь вот размышляю как бы это всё дальше развить из учёбной задачи, ибо в стол писать не хочется) Если кто-нить тоже занимается и есть планы то стучитесь, могу и сам присоединиться к проекту =)
з.ы. Могу кстати про парочку алгоритмов написать если хабрасообществу интересно, хотя часть из них и так не плохо освещены)
Математические формулы (и в общем-то вся математика) придуманы для аналитического описания окружающей нас действительности. Сокращение избыточности информации — это конкретная задача, решаемая конкретными способами, в том числе и математическими. Из ваших слов складывается впечатление, что кроме избыточности математика не решает больше никаких задач. Извините задело за живое
Вы очень буквально восприняли фразу. Описание закона притяжение в словесной форме и с помощью математической формулы, по сути, несут в себе одинаковую смысловую нагрузку для человека. Но словесное описание занимает гораздо больше байт информации чем формула. Соответственно, математическая формула позволяет сократить описание закона без потери смысловой нагрузки. Поэтому в данном случае словесное описание является избыточным.
Data Mining: что внутри