Pull to refresh

Comments 47

Прошу продолжения. Мне интересны инструменты и применения.
Многие способы применения действительно интересны. Например, правильно настроенная SAS может показать корпоративных клиентов, которые собираются сделать крупные приобретения в ближайшие несколько месяцев.
извините, а что значит правильно настроенный SAS?
Обратите свое внимание на QlikView. так же есть еще и опенсорсные решения.
Интересен в первую очередь личный опыт использования (в формате хабра-статьи).

Инструментов то очень много и все разные, от бесплатных (по большей части академических) до сильно дорогих от фирм уровня IBM.
Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.
А что собственно будет в статьях? Обзор алгоритмов и/или обзор существующего ПО?
Вот-вот. Мне тоже очень этот вопрос интересен. Автор — ау?
Больше сконцентрируемся на web mining и готовых инструментах, библиотеках. Хотя буду смотреть по интересу читателей.
О, снова эта крутая тема, напоминающая мне про мой диплом :)
Правда тогда, в далеком 2005-м, мной не затрагивался Web Mining — а сейчас для меня это самое интересное, так что ждем продолжения.
На тему web mining, есть несколько разработок отечественных, например тот же Аваланч.
www.tora-centre.ru/avalanche.htm

Они уже лет 5 на рынке предлагают свои услуги по конкурентной разведке. В деталях я не очень, но им известно порядка 19 способов обращения к документам на различного типа веб серверах и просто серверах. 20-й способ — это обращение через систему линков :)

Многие скептически относятся к их системе, но когда видишь чего они достигли и где используются их наработки… Ну и стоимость, дорого…

Есть новые системы, коммерческого назначения youscan.ru — сканируют 90% соц. медиа, аналог presscan.ru

На самом деле не очень ясно, что из этого относится именно к Web Mining, т.к. везде присутствуют элементы Data Mining…

Академично и бессмысленно, но части будет интересно. Хотя, я хочу посмотреть как вы будете генетический анализ в экселе делать )
я знаю, что можно. не скажу что оптимально.
все-таки не тот софт и не тот уровень у мс пока что.
Evolver — классная штука, ей уже лет 10, если не больше.
поддерживаю! хотелось бы практический пример раскопок(mining)
Практическое применение это Микроформаты, Микродата и RDF…
ну это не IR, это курам на смех какойто
Прощу продолжения в направлении Web Mining
Обожаю такие вещи. Особенно интересует инструментарий BI
Добавлю, что ведущие исследователи называют BI и облачные вычисления центральными технологиями в приоритетах информационной индустрии этого, и, возможно следующего года.
Спасибо за комментарии. Дальше более детально будем рассматривать web mining и все, что с ним связано.
UFO landed and left these words here
Надеюсь, что ваши статьи будут более информативны. А пока я обнаружил блок «Задачи, решаемые Data Mining», чуть ли не дословно повторяющий мною вбитый в википедию три года назад.
Да, этот блок был взят из вики, но для списка задач, думаю, это не критично.
Рассмотрите примеры задач, только плз, не из учебников, а лучше из реальной жизни. В открытом доступе опубликовано очень мало реальных примеров.

В учебных примерах, обычно, все решается очень красиво. В реальности такое редкость.
В списке решаемых задач классификация — это слишком узко. Например, незаслуженно забыта регрессия. Я бы предложил заменить на что-то типа «восстановление неизвестной зависимости по ее реализациям».
Добавлю от себя:

Классификация — сопоставление вектора признаков элементам (элементу) множества, возможно, с выводом степени похожести.

Регрессия — сопоставление входного вектора (скаляра) другому вектору (скаляру), т.е. построение модели вида Y = f(X).
Хорошая тема.

Давайте про конкретные реализации, BI решения (OLAP, data mining, индикаторы, отчёты, ETL). Лучше всего — на примере opensource систем. :-)
Более бестолковой фразы чем эта «Для сокращения избыточности информации были придуманы математические формулы», я еще не встречал.
Как, по вашему, должна звучать фраза?
Очевидно, это операция поиска закономерностей, то есть сжатия информации.
Как относится операция поиска закономерностей к сжатию информации?
Это прикладной анализ данных (ПАД), который основан на применении гипотезы компактности.

В основе гипотезы компактности положена идея сжатия данных, состоящая в том, что если найден способ сжатого описания множества объектов, то получены эмпирические закономерности, существующие между объектами, а значит и сходство между ними. Соответственно, чем сильнее удается сжать данные, тем это сходство больше, а избыточности меньше.
Спасибо, но разве ваше объяснение очевидно?
Вполне очевидное объяснение для всех специалистов, которые занимаются Data Mining.
Легкий поиск по интернетах показал, что сочетание гипотезы компактности и data mining встречается крайне редко. Это, конечно, не говорит о том, что вы не правы, просто я действительно не слышал об этом. Если можно, дайте ссылку (и), где об этом написано более детально.
В ВУЗах Украины и России нет такого понятия, как data mining — в основном его называют прикладным анализом данных. А гипотеза компактности относится к задачам классификации — посмотрите в google.
Сейчас пишу диплом как раз связанный с data mining, используя ассоциативные правила с нечёткой дискретизацией и ограничениями. Теперь вот размышляю как бы это всё дальше развить из учёбной задачи, ибо в стол писать не хочется) Если кто-нить тоже занимается и есть планы то стучитесь, могу и сам присоединиться к проекту =)

з.ы. Могу кстати про парочку алгоритмов написать если хабрасообществу интересно, хотя часть из них и так не плохо освещены)
А напишите что-нибудь в свое резюме?
Математические формулы (и в общем-то вся математика) придуманы для аналитического описания окружающей нас действительности. Сокращение избыточности информации — это конкретная задача, решаемая конкретными способами, в том числе и математическими. Из ваших слов складывается впечатление, что кроме избыточности математика не решает больше никаких задач. Извините задело за живое
Вы очень буквально восприняли фразу. Описание закона притяжение в словесной форме и с помощью математической формулы, по сути, несут в себе одинаковую смысловую нагрузку для человека. Но словесное описание занимает гораздо больше байт информации чем формула. Соответственно, математическая формула позволяет сократить описание закона без потери смысловой нагрузки. Поэтому в данном случае словесное описание является избыточным.
Какая наука может быть более буквальной нежели математическая? (вопрос риторический)
Only those users with full accounts are able to leave comments. Log in, please.