Есть такая замечательная книжка — «Программируем коллективный разум» за авторством Сегарана. В ней изложены очень интересные и актуальные примеры реализации тех или иных алгоритмов, рассказывается зачем это все нужно в бизнесе и ИТ, приводится масса примеров из использования datamining крупными организациями. Очень рекомендую.
Книжка и вправду отличная.
Кстати, сам термин «data mining» в ней не помню чтоб даже упоминался) Алгоритмы-алгоритмы (местами сложные), понятным и интересным языком.
Я, в основном, использовал книгу Барсегян А.А., Куприянов М.С., Степаненко В.В. «Методы и модели анализа данных: OLAP и Data Mining». По нечетким системам рекомендую С. Д. Штовба «Проектирование нечетких систем средствами MATLAB».
Извините, не внимательно прочитал :-). В данный момент одна из тем исследований — это кластеризация результатов веб-поиска, но есть и другие задачи. О реальных примерах внедрения и использования только читал, у нас не видел, чтобы эти методики использовались в реальных условиях. Хотя Data Mining можно прицепить везде, где есть слово «данные», «знания», «аналитика», «оптимизация», «экстраполяция» и т.д.
Тема интересна.
О чем подробнее? О чем нибудь интересном ))
Но только с реальными примерами.
Например, берем котировки Форекс за такое-то время. Анализируем такимим-то алгоритмами, прогоняем через такую-то штуковину, фильтруем, усредняем. И получаем определенный результат. Например нейронную сеть, обученную зарабатывать от 0 до 10% в день.
Тема интересна, сам занимался на одном из курсов универа Data mining'ом. Даже когда работал, один из заказчиков, видимо услышав где то про OLAP куб, захотел себе «куда нибудь его применить». Ессно его отговорили, т.к. ему это было совсем не нужно, но у меня интерес остался, пока в армию не забрали. Прочитав ваш пост, вспомнил, что когда то это было мне интересно. С удовольствием прочитаю следующие ваши заметки.
BaseGroup, кстати, неплохой продукт продвигают уже достаточно давно — Deductor. Тем, кто начинает заниматься DataMining'ом рекомендую — основные алгоритмы реализованы достаточно просто и наглядно. Быстро понимаешь суть. Правда, там нет генетических алгоритмов, на да они не самые используемые. Что немаловажно — есть бесплатная версия Dedactor — Academic. ))
Первую статью даже пришлось использовать когда то в образовательных целях.
Надо бы чтобы ввели термин Knowledge Mining чтобы не было двусмысленность какой подход применяется. Сейчас для многих проектов связанных с хобби либо организацией инфомрации на винте активно использую извлечение данных(возможно потом на основе этого будет извлечение знаний, но не уверен, ибо смысла пока нет, да и области немного не те).
Хотелось бы почитать статьи посвященный различным методам извлечения знаний, желательно как с математической основой, так и с примерами кода
Очень нужная и важная тема, хотелось бы ее развития.
Сам работал в области извлечения знаний — обрабатывал данные собираемые по стране для антикоррупционного комитета, потом занимался анализом «внутренней копилки» одной консалтинговой компании.
Рабочими инструментами были Spss clementine и кое-какой самописный софт.
Если интересно, могу рассказать об этих проектах поподробнее.
В принципе я бы определил «извлечение знаний» как нахождение взаимосвязей и паттернов из объемов данных при отсутствующей или нечетко сформулированной гипотезе. Если гипотеза есть вся задача сводится к классическому статистическому анализу.
За Data miningом будущее… Главное, что применить эти методы возможно где угодно, главное наличие больших объёмов информации. Вот допустим в спорте:
Имеется большой объём максимально возможной упорядоченной информации по проведённым матчам одной команды (обычная статистика + какая погода, кто судил, кто на каких позициях стоял, и т.д. и т.п.). Используя средства интеллектуального анализа можно было бы обнаружить много интересных вещей. Например после исследования могло выясниться, что когда игрок А и игрок Б стоят вместе, процент ударов по воротам больше чем в среднем… А это уже реальные знания, дающие конкурентные преимущества.
Вообще, было бы интересно услышать реальные примеры применения систем анализа данных.
Всем привет, могу рассказать про коммерческое применения data mining (как говорится, на примерах), если кому интересно? Примеры где используется прогнозирование, кластеризация, анализ клиентских сред и пр.
Так что если тема интересная — дайте знать — напишу пост.
Работаю в московском представительстве крупнейшей компании занимающей именно Advanced Analytics-компания называется SAS Institute-занимаюсь непосредственно технологиями Data Mining'а и прогнозированием-поэтому могу поделиться довольно большим опытом в этой области в России-как с точки зрения бизнеса, так и с точки зрения аналитической составляющей!
Извлечение данных или знаний?