Как стать автором
Обновить
50.65

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

5 трендов в области анализа и обработки данных в 2015 году

Время на прочтение 4 мин
Количество просмотров 30K
image

Начало года самое время для прогнозов и предсказаний. В этом посте я собрал обзор трендов в области аналитики и систем обработки данных на 2015 год.
Читать дальше →
Всего голосов 16: ↑13 и ↓3 +10
Комментарии 10

Обзор наиболее интересных материалов по анализу данных и машинному обучению №30 (5 — 11 января 2015)

Время на прочтение 3 мин
Количество просмотров 8.6K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 23: ↑22 и ↓1 +21
Комментарии 1

Обзор наиболее интересных материалов по анализу данных и машинному обучению №29 (29 декабря 2014 — 4 января 2015)

Время на прочтение 3 мин
Количество просмотров 13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Комментарии 0

Анализ тональности текста в Excel с помощью Azure Machine Learning и Power Query

Время на прочтение 3 мин
Количество просмотров 13K
Возможно, вы видели пост Joseph Sirosh на прошлой неделе о возможности опубликовать модели Azure Machine Learning в Azure Marketplace, и что MS уже опубликовало некоторое количество API. Для Excel есть специальный аддон, который может используется для доступа к этим API, но я заметил, что как минимум одно API (Sentiment Analysis API) может использоваться напрямую через Power Query.

Для того, чтобы сделать это, сперва вам необходимо зайти в Azure Marketplace, войти под вашим Microsoft-аккаунтом и подписаться на Lexicon Based Sentiment Analysis API. В документации говориться, что у вас есть 25000 транзакций в месяц бесплатно. API как таковое очень простое: передайте предложение для оценки, и вам в ответ придет оценка от -1 до 1, где 1 означает положительную тональность, а -1 отрицательную. Для примера, выражение «I had a good day» возвращает значение 1:


Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 6

Истории

Обзор наиболее интересных материалов по анализу данных и машинному обучению №28 (22 — 28 декабря 2014)

Время на прочтение 4 мин
Количество просмотров 9.1K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 0

Построение словаря текста на примере NLP библиотеки AIF

Время на прочтение 6 мин
Количество просмотров 7.8K
Так уж повелось, что каждый релиз лингво-независимой библиотеки обработки естественных текстов AIF сопровождается заметкой о том, что было сделано и как   все работает. Подобные тексты о предыдущих двух релизах Alpha1 и Alpha2 можно найти вот тут и тут. Не исключением из этого правила стал и текущей релиз Alpha3, в котором появилась возможность строить словарь токенов для входного текста. О том, как все работает под капотом и как это можно использовать в своём проекте и пойдёт сегодня речь.
Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 8

Обзор наиболее интересных материалов по анализу данных и машинному обучению №27 (15 — 21 декабря 2014)

Время на прочтение 4 мин
Количество просмотров 8.8K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 0

Нефтяные ряды в R

Время на прочтение 6 мин
Количество просмотров 43K
«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч



С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 30

Обзор наиболее интересных материалов по анализу данных и машинному обучению №26 (8 — 14 декабря 2014)

Время на прочтение 4 мин
Количество просмотров 12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 32: ↑28 и ↓4 +24
Комментарии 2

Яндекс открывает новое направление своей деятельности — Yandex Data Factory

Время на прочтение 4 мин
Количество просмотров 56K
Только что в Париже на конференции LeWeb Яндекс объявил об открытии нового важного направления своей деятельности — по коммерческой обработке больших данных — Yandex Data Factory.

Мы верим, что обработка больших данных — это часть нового витка технической революции, который сделает всё человечество ещё более эффективным и приведёт нас к будущему, которое мы сейчас ещё даже не можем до конца представить. И в нём работа с большими объёмами данных будет не менее важной и распространённой, чем выработка электричества или железные дороги сегодня.



Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов с компаниями-партнёрами. Для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.
Читать дальше →
Всего голосов 95: ↑84 и ↓11 +73
Комментарии 32

Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)

Время на прочтение 4 мин
Количество просмотров 13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 34: ↑32 и ↓2 +30
Комментарии 1

Немцы создали библиотеку пьяных аудиозаписей

Время на прочтение 1 мин
Количество просмотров 21K
Эпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.


Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.



Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
Читать дальше →
Всего голосов 65: ↑46 и ↓19 +27
Комментарии 33

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

Время на прочтение 8 мин
Количество просмотров 19K


Любой интернет-проект можно сделать лучше. Реализовать новые фичи, добавить серверов, переделать интерфейс или выпустить новую версию API. Вашим пользователям это понравится. Или нет? И вообще, что это за люди? Молодые или в возрасте? Обеспеченные или скорее наоборот? Из Москвы? Питера? Сан-Франциско, штат Калифорния? И почему, в конце концов, те сто теплых пледов, что вы закупили еще в мае, пылятся на складе, а футболки с октокотами расходятся, как горячие пирожки? Получить ответы поможет проект Рейтинг Mail.Ru. Эта статья о том, как мы применяем data mining, чтобы ответить на самые сложные вопросы.
Читать дальше →
Всего голосов 35: ↑27 и ↓8 +19
Комментарии 15

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Исследование причин аномального голосования на сайте РОИ или особенности электронной демократии в России

Время на прочтение 7 мин
Количество просмотров 126K
За сайтом «Российские общественные инициативы» я наблюдаю давно, примерно с 29 мая 2013 года. Как и другие наблюдатели, я замечал аномалии в ходе голосований за различные инициативы. Но это мало кого беспокоило, пока аномалии приводили по нашим оценкам к росту числа голосов. Видимо, никто не считал чем-то плохим, если очередная инициатива наберет 100 000 голосов раньше срока. Всё изменилось, когда аномалии стали замедлять голосование.

Отзывы голосов на РОИ

Это началось 24 ноября в 13:35 по московскому времени. Счетчик голосов за принятие инициативы 9376 уменьшился на 2. Потом еще на 1 и еще на 2. Вечером уменьшение значения счетчика стало происходить всё чаще и чаще. Кто-то заметил это и сообщил автору инициативы. С этого момента начался тщательный мониторинг хода голосования.

Я расскажу про некоторые странности голосования, которые мы (наблюдатели) заметили за последнюю неделю. Также я попытаюсь сделать предположения о причинах некоторых из них. Выводов довольно мало, т.к. не всегда есть возможность получить нужные данные о ходе голосования.
Читать дальше →
Всего голосов 244: ↑233 и ↓11 +222
Комментарии 261

Process Mining: знакомство

Время на прочтение 5 мин
Количество просмотров 59K
Приветствую, Хабрахабр!

В этой статье я постараюсь приоткрыть завесу над интересной технологией из области управления бизнес-процессами (eng wiki BPM). Интеллектуальный анализ процессов (eng wiki Process Mining) фокусируется на обнаружении, анализе и оптимизации бизнес-процессов на основе данных из журналов событий (англ. event logs), представляя недостающее звено между классическим анализом бизнес-процессов с использованием их моделей и интеллектуальным анализом данных (eng wiki Data Mining).

Disclaimer
Статья подготовлена на основе материалов онлайн курса coursera Process Mining: Data Science in Action, являющихся собственностью Технического университета Эйндховена. Использование материалов статьи возможно только с разрешения авторов курса и с указанием ссылок на источник.



Рисунок 1. Позиционирование Process Mining.

Далее мы разовьем тему позиционирования, коснемся вариантов использования, поговорим об исходных данных и рассмотрим различные типы интеллектуального анализа процессов.
Читать дальше →
Всего голосов 22: ↑21 и ↓1 +20
Комментарии 2

Java-конференция Joker 2014 глазами докладчика из Сибири

Время на прочтение 4 мин
Количество просмотров 15K
Недавно в Санкт-Петербурге прошла Java — конференция Joker 2014. На мой взгляд, самая технически насыщенная и масштабная из всех подобных в России.

Доклады прошлого года мне понравились, и я решил принять участие в Java — вакханалии этого года в качестве докладчика. В статье я предлагаю свой взгляд на события, качество докладов, а также мнение тов. Джигурды о выходе Java 9.



За несколько месяцев до конференции я послал заявку, чтобы выступить с докладом на ней. После отбора длиною в пару месяцев мне пришло долгожданное подтверждение, а также приятная новость, что выступать я буду первым на одном из треков.

Казалось бы, после принятия заявки я как обычно смогу дудеть в дуду и ничего не делать, ваять потихоньку презентацию. Но не тут-то было! Мне пришлось пройти строгое предпрослушивание и пару тренингов, перед тем как сдать окончательный вариант доклада организаторам. Имейте это ввиду, когда сами будете посылать заявки этой команде маньяков!
Читать дальше →
Всего голосов 43: ↑28 и ↓15 +13
Комментарии 7

Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)

Время на прочтение 4 мин
Количество просмотров 14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 32: ↑31 и ↓1 +30
Комментарии 0

Анализ тональности текста с помощью Azure Machine Learning

Время на прочтение 8 мин
Количество просмотров 25K
В этом посте я расскажу, как можно использовать Microsoft Azure Machine Learning для анализа тональности текста, а также с какими проблемами можно столкнуться в процессе использования Azure ML и как их можно обойти.

Что такое анализ тональности хорошо описано в статье «Обучаем компьютер чувствам (sentiment analysis по-русски)».
Нашей целью будет являться построение веб-сервиса, который принимает на вход некоторый текст и возвращает в ответ 1, если этот текст носит позитивный характер, и -1 — если негативный. Microsoft Azure Machine Learning идеально (почти) подходит для этой задачи, так как там есть встроенная возможность опубликовать результаты вычислений как веб-сервис и поддержка языка R — это избавляет от необходимости писать свои костыли и настраивать свою виртуальную машину/веб-сервер. В общем, все преимущества облачных технологий. К тому же, совсем недавно было объявлено, что все желающие могут попробовать Azure ML даже без аккаунта Azure и кредитной карточки — необходим только Microsoft Account.
Читать дальше →
Всего голосов 35: ↑29 и ↓6 +23
Комментарии 16

И ещё раз про распознавание номеров

Время на прочтение 6 мин
Количество просмотров 47K
Весной администрация хабра любезно предоставила нам блог, чтобы мы рассказали о нашем экзерсисе с распознаванием номеров. Всё поддержание этой системы делалось просто из интереса и на энтузиазме, зато позволило пообщаться с интересными людьми, некоторым людям помочь, а самим найти подработку по совершенно другим тематикам.



В любых задачах обработки изображений 90% успеха — хорошая база данных. Репрезентативная и большая. Весной мы обещали выложить полную базу изображений того, что нам придёт. Подписка блога заканчивается, поэтому время выполнить обещание (блог может продлят, а может и нет). Наш сервер работал 95% времени, начиная с первого поста. Всё что пришло теперь доступно + мы сделали отдельные базы по вырезанным номерам и нарезанным символам.

Под катом ссылки на базу + её анализ + немного кода + небольшой рассказ о том, что будет сделано дальше с нашим сервером/жизнью проекта.
Читать дальше →
Всего голосов 39: ↑37 и ↓2 +35
Комментарии 21

Обзор наиболее интересных материалов по анализу данных и машинному обучению №23 (17 — 23 ноября 2014)

Время на прочтение 3 мин
Количество просмотров 12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Комментарии 4

Вклад авторов

Работа

Data Scientist
66 вакансий