Все потоки
Поиск
Написать публикацию
Обновить
18.03

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Process Mining: знакомство

Время на прочтение5 мин
Количество просмотров63K
Приветствую, Хабрахабр!

В этой статье я постараюсь приоткрыть завесу над интересной технологией из области управления бизнес-процессами (eng wiki BPM). Интеллектуальный анализ процессов (eng wiki Process Mining) фокусируется на обнаружении, анализе и оптимизации бизнес-процессов на основе данных из журналов событий (англ. event logs), представляя недостающее звено между классическим анализом бизнес-процессов с использованием их моделей и интеллектуальным анализом данных (eng wiki Data Mining).

Disclaimer
Статья подготовлена на основе материалов онлайн курса coursera Process Mining: Data Science in Action, являющихся собственностью Технического университета Эйндховена. Использование материалов статьи возможно только с разрешения авторов курса и с указанием ссылок на источник.



Рисунок 1. Позиционирование Process Mining.

Далее мы разовьем тему позиционирования, коснемся вариантов использования, поговорим об исходных данных и рассмотрим различные типы интеллектуального анализа процессов.
Читать дальше →

InterSystems iKnow. Часть вторая. Создание простого домена

Время на прочтение11 мин
Количество просмотров3.7K
Это продолжение моего рассказа про Natural Language Processing технологию Intersystems iKnow, начало здесь. Во второй части вы найдете описание практической работы с iKnow. Мы создадим домен, настроим его, загрузим текст. Затем, посмотрим и проанализируем результаты. Подробнее об этом под катом…
Читать дальше →

Java-конференция Joker 2014 глазами докладчика из Сибири

Время на прочтение4 мин
Количество просмотров16K
Недавно в Санкт-Петербурге прошла Java — конференция Joker 2014. На мой взгляд, самая технически насыщенная и масштабная из всех подобных в России.

Доклады прошлого года мне понравились, и я решил принять участие в Java — вакханалии этого года в качестве докладчика. В статье я предлагаю свой взгляд на события, качество докладов, а также мнение тов. Джигурды о выходе Java 9.



За несколько месяцев до конференции я послал заявку, чтобы выступить с докладом на ней. После отбора длиною в пару месяцев мне пришло долгожданное подтверждение, а также приятная новость, что выступать я буду первым на одном из треков.

Казалось бы, после принятия заявки я как обычно смогу дудеть в дуду и ничего не делать, ваять потихоньку презентацию. Но не тут-то было! Мне пришлось пройти строгое предпрослушивание и пару тренингов, перед тем как сдать окончательный вариант доклада организаторам. Имейте это ввиду, когда сами будете посылать заявки этой команде маньяков!
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)

Время на прочтение4 мин
Количество просмотров14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Анализ тональности текста с помощью Azure Machine Learning

Время на прочтение8 мин
Количество просмотров25K
В этом посте я расскажу, как можно использовать Microsoft Azure Machine Learning для анализа тональности текста, а также с какими проблемами можно столкнуться в процессе использования Azure ML и как их можно обойти.

Что такое анализ тональности хорошо описано в статье «Обучаем компьютер чувствам (sentiment analysis по-русски)».
Нашей целью будет являться построение веб-сервиса, который принимает на вход некоторый текст и возвращает в ответ 1, если этот текст носит позитивный характер, и -1 — если негативный. Microsoft Azure Machine Learning идеально (почти) подходит для этой задачи, так как там есть встроенная возможность опубликовать результаты вычислений как веб-сервис и поддержка языка R — это избавляет от необходимости писать свои костыли и настраивать свою виртуальную машину/веб-сервер. В общем, все преимущества облачных технологий. К тому же, совсем недавно было объявлено, что все желающие могут попробовать Azure ML даже без аккаунта Azure и кредитной карточки — необходим только Microsoft Account.
Читать дальше →

И ещё раз про распознавание номеров

Время на прочтение6 мин
Количество просмотров48K
Весной администрация хабра любезно предоставила нам блог, чтобы мы рассказали о нашем экзерсисе с распознаванием номеров. Всё поддержание этой системы делалось просто из интереса и на энтузиазме, зато позволило пообщаться с интересными людьми, некоторым людям помочь, а самим найти подработку по совершенно другим тематикам.



В любых задачах обработки изображений 90% успеха — хорошая база данных. Репрезентативная и большая. Весной мы обещали выложить полную базу изображений того, что нам придёт. Подписка блога заканчивается, поэтому время выполнить обещание (блог может продлят, а может и нет). Наш сервер работал 95% времени, начиная с первого поста. Всё что пришло теперь доступно + мы сделали отдельные базы по вырезанным номерам и нарезанным символам.

Под катом ссылки на базу + её анализ + немного кода + небольшой рассказ о том, что будет сделано дальше с нашим сервером/жизнью проекта.
Читать дальше →

InterSystems iKnow. Часть первая. iKnow и пляжный отдых

Время на прочтение8 мин
Количество просмотров5.1K
Мне давно хотелось написать свою статью о технологии iKnow. Прошло уже три года с момента её появления, но публикаций о применениях этой технологии в русскоязычных решениях до сих пор не было. Объяснение этому довольно простое – не было полноценной поддержки русского языка. Но с каждым новым релизом, начиная с Cache 2013.1, ситуация менялась в лучшую сторону. И вот, наконец, мы решили реализовать первый проект на iKnow. О том, как это было, что получилось, а что нет, читайте далее в моей статье.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №23 (17 — 23 ноября 2014)

Время на прочтение3 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

DataTalks 25.10.14: первая встреча

Время на прочтение4 мин
Количество просмотров8.3K
Добрый вечер! Сегодня вперые говорим об анализе данных в нашем блоге. Для многих это крайне актуальная тема. Однако в Беларуси не так много действительно полезных встреч и конференций, посвященных аналитике.
25 октября 2014 года в Минске состоялся первый DataTalks. DataTalks – это неформальные встречи специалистов в области анализа данных. Для участников это отличная возможность узнать об опыте применения аналитики в компаниях, работающих на мировом и местном рынках, а также познакомиться со специалистами в области анализа данных из различных индустрий.

Докладчики из Wargaming, Yandex, Dmlabs.org и Нанотех, на примерах решаемых ими задач, объясняли общие закономерности и применимость алгоритмов, которые важно знать и использовать при анализе данных в любой индустрии. Вопросы спикерам перерастали в профессиональные дискуссии, остановить которые не могло даже начало следующего доклада.

DataTalks
Читать дальше →

Неигровое применение Unity3D

Время на прочтение7 мин
Количество просмотров50K
Всем привет!

В Unity3D версии 5.0 (сейчас в состоянии beta) компания-разработчик официально анонсировала возможность применения своего продукта не только для разработки игр, но и для чего-то не менее приятного — для бизнеса.

Для вдохновения аудитории был выпущен видеоролик:



Ролик целиком состоит из ссылок на реализованные проекты (никто ведь и раньше не запрещал неигровое применение), но, похоже, только сейчас накопилась критическая масса таких референс-проектов, а версия 5.0 (в комплексе с другими вспомогательными продуктами) достигла той солидности, которая широкий поход в индустрии обосновывает и оправдывает. Тут тебе и многоплатформенная среда разработки с еще более многоплатформенной системой публикации и деплоймента, и поддержка всех мобильных платформ, и клауд-платформа, и развитый asset store для быстрого обмена наработками, и инструменты обмена знаниями через форумы и базы знаний. Создан целый мир и шансы на дальнейшее расширение границ у этого мира действительно высоки.

Итак, что же делают на Unity3D полезного (кроме игр конечно) и какие новые возможности Unity 5.0 будут особо полезны в неигровом направлении?
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)

Время на прочтение5 мин
Количество просмотров11K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №21 (3 — 9 ноября 2014)

Время на прочтение5 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №20 (27 октября — 2 ноября 2014)

Время на прочтение4 мин
Количество просмотров13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Ближайшие события

Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF

Время на прочтение9 мин
Количество просмотров16K
В прошлой статье мы уже рассказывали о новой NLP библиотеке. Однако тогда мы рассказали «обовсем» и не о чем конкретном. Сегодня мы поговорим о теоретических аспектах разбития предложения на токены лингво-независимыми алгоритмами. Теоретические выкладки будут подкреплены практической реализацией в библиотеке AIF. Поехали…
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)

Время на прочтение5 мин
Количество просмотров14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Марковские случайные поля

Время на прочтение4 мин
Количество просмотров47K
Статья посвящена описанию метода CRF (Conditional Random Fields), являющимся разновидностью метода Марковских случайных полей (Markov random field). Данный метод нашел широкое применение в различных областях ИИ, в частности, его успешно используют в задачах распознавания речи и образов, обработки текстовой информации, а также и в других предметных областях: биоинформатики, компьютерной графики и пр.
Читать дальше →

Как заставить данные говорить

Время на прочтение8 мин
Количество просмотров14K
Как только Google Analytics или Яндекс.Метрика публикуют новость о новом отчёте, метрике или обновлении интерфейса и всё сообщество ликует, я испытываю лёгкое головокружение. Но не от радости. Для меня это сигнал о том, что в ближайшее время вместо того, чтобы работать над качеством продукта, мы начнем изучать системы аналитики. Погоня за количеством данных вытеснила стремление к качеству анализа на задворки потребностей. Точность стала важнее тренда, а на сайтах теперь стоят по 3-5 счётчиков от разных систем аналитики.



Данных много не бывает? Ещё как бывает. Вспомните про парадокс данных, который отлично сформулировал Авинаш Кошик. Недостаток данных не позволяет принимать решения, но и изобилие не даёт представление о том, что происходит.

Так не пора ли приступить к поискам ответов? Я расскажу об универсальном методе, который помогает мне делать выводы, а еще приносит огромное удовольствие в работе с информацией. Чтобы далекие от интернет-маркетинга и веб-аналитики пользователи не заскучали, для примера я взяла тему из нашей с вами повседневной реальности.

Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №18 (13 — 19 октября 2014)

Время на прочтение5 мин
Количество просмотров16K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Как мы кластеризуем подарки в ОК

Время на прочтение4 мин
Количество просмотров18K
Всем привет! Меня зовут Артур, я аналитик в отделе анализа данных департамента рекламных технологий Mail.Ru Group. И я попробую рассказать о том, как мы используем кластеризацию в своей работе.

Чего в этой статье не будет: я не буду рассказывать об алгоритмах кластеризации, об анализе качества или сравнении библиотек. Что будет в этой статье: я покажу на примере конкретной задачи, что такое кластеризация (с картинками), как ее делать если данных действительно много (ДЕЙСТВИТЕЛЬНО много) и что получается в результате.


Читать дальше →

Латентно-семантический анализ: реализация

Время на прочтение6 мин
Количество просмотров26K
Как упоминалось в предыдущей статье, латентно-семантический анализ (ЛСА / LSA) позволяет выявлять латентные связи изучаемых явлений или объектов, что является немаловажным критерием при моделировании процессов понимания и мышления.

Теперь я напишу немного о реализации ЛСА.
Читать дальше →