Все потоки
Поиск
Написать публикацию
Обновить
18.03

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Chart Wars: Диаграммы наносят ответный удар

Время на прочтение4 мин
Количество просмотров31K
Что может быть хуже круговой диаграммы?
Две круговые диаграммы! Эдвард Тафти
Все мы уже не раз видели, что может пойти не так с визуализацией данных. Сегодня обсудим несколько важных принципов, лежащих в основе качественной графики, и что гораздо интересней, узнаем, что произойдет, если эти правила НЕ соблюдать.



Структура статьи
  1. Восприятие измерений
  2. Соотношение чернила-данные
  3. Фактор обмана
  4. Парадокс Симпсона
  5. Джон Сноу всё-таки что-то знает — пример классики визуализации
  6. Что еще посмотреть-почитать
  7. Круговая диаграмма в реальной жизни

(*осторожно трафик*)
Читать дальше →

Когда никто не читает Хабр

Время на прочтение3 мин
Количество просмотров31K
Давным давно у меня родилась гипотеза: «Все айтишники, так же как и я, читают новости и статьи на работе за чашкой чая-кофе в самом начале дня и где-то после обеда».

Чтобы проверить эту гипотезу (ну и не только для этого, конечно) в прошлом году написал и опубликовал монитор Хабра под названием Пульс Хабра. Так как гипотезы необходимо проверять, я занялся сбором данных и анализом закономерностей поведения Хабра-жителей.



Сегодня решил поделиться основными наблюдениями.

Структура статьи:

  1. Недельные пики активности и неактивности
  2. Сезонные эффекты — новогодние праздники
  3. Фундаментальные факторы, влияющие на поведение
  4. Падение количества читателей от разделения Хабра
  5. Опрос: когда вы читаете Хабр?
  6. Выводы
Читать дальше →

5 трендов в области анализа и обработки данных в 2015 году

Время на прочтение4 мин
Количество просмотров30K
image

Начало года самое время для прогнозов и предсказаний. В этом посте я собрал обзор трендов в области аналитики и систем обработки данных на 2015 год.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №30 (5 — 11 января 2015)

Время на прочтение3 мин
Количество просмотров8.7K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №29 (29 декабря 2014 — 4 января 2015)

Время на прочтение3 мин
Количество просмотров13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Анализ тональности текста в Excel с помощью Azure Machine Learning и Power Query

Время на прочтение3 мин
Количество просмотров13K
Возможно, вы видели пост Joseph Sirosh на прошлой неделе о возможности опубликовать модели Azure Machine Learning в Azure Marketplace, и что MS уже опубликовало некоторое количество API. Для Excel есть специальный аддон, который может используется для доступа к этим API, но я заметил, что как минимум одно API (Sentiment Analysis API) может использоваться напрямую через Power Query.

Для того, чтобы сделать это, сперва вам необходимо зайти в Azure Marketplace, войти под вашим Microsoft-аккаунтом и подписаться на Lexicon Based Sentiment Analysis API. В документации говориться, что у вас есть 25000 транзакций в месяц бесплатно. API как таковое очень простое: передайте предложение для оценки, и вам в ответ придет оценка от -1 до 1, где 1 означает положительную тональность, а -1 отрицательную. Для примера, выражение «I had a good day» возвращает значение 1:


Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №28 (22 — 28 декабря 2014)

Время на прочтение4 мин
Количество просмотров9.1K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Построение словаря текста на примере NLP библиотеки AIF

Время на прочтение6 мин
Количество просмотров8K
Так уж повелось, что каждый релиз лингво-независимой библиотеки обработки естественных текстов AIF сопровождается заметкой о том, что было сделано и как   все работает. Подобные тексты о предыдущих двух релизах Alpha1 и Alpha2 можно найти вот тут и тут. Не исключением из этого правила стал и текущей релиз Alpha3, в котором появилась возможность строить словарь токенов для входного текста. О том, как все работает под капотом и как это можно использовать в своём проекте и пойдёт сегодня речь.
Читать дальше →

Самые горячие темы года

Время на прочтение1 мин
Количество просмотров15K
Настало время подводить итоги года, и мы в Surfingbird – решили не выбиваться из тренда.

Все пользователи разные, и мы, как никто другой, об этом знаем. Но всегда можно тыкнуть пальцем в небо и сравнить какую-нибудь фигню с другой фигней, и иногда даже получается забавно.

Итак, мы решили сравнить то, что волновало нас в этом году, а наш дизайнер даже нарисовал инфографику. На диаграмме распределены темы по убыванию популярности:

image
Читать дальше →

Персонализация в электронной коммерции

Время на прочтение3 мин
Количество просмотров11K
Привет, Хабр!

Сегодня мы начинаем цикл статей о том, как мы строим сервис Retail Rocket. За без малого три года работы, мы собрали солидный технологический стек, разочаровались в большом количестве «модных» технологий и построили очень сложную систему.

Вкратце, Retail Rocket – платформа для мультиканальной персонализации интернет­-магазина на основе Big Data. Наш сервис анализирует поведение посетителей интернет-магазина, выявляет потребности и в нужный момент показывает интересные именно им предложения на сайте, в email и display кампаниях, увеличивая доход интернет­-магазина за счет роста конверсии, среднего чека и частоты повторных покупок.

Этой статьей мы открываем инженерный блог Retail Rocket (маркетинговый блог мы ведем почти два года) с рассказом об используемых подходах в области анализа данных и кратким перечнем используемых технологий. Ко всему описанному в статье мы пришли итеративно и в следующих статьях постараемся подробно описать наш путь в каждой из областей.
Подробности

InterSystems iKnow. Загружаем данные из Вконтакте

Время на прочтение14 мин
Количество просмотров7.7K
Эта статья продолжает цикл рассказов (раз, два) об основных способах/сценариях использования iKnow — инструмента Natural Language Processing'а из стека технологий InterSystems.
Предыдущие посты на эту тему были в основном посвящены работе с данными уже после того, как те были помещены в домен (место, в котором и проходит весь анализ текста). Эта же статья будет о том, как правильно и удобно загрузить информацию в iKnow. В качестве примера рассмотрим загрузку информации о пользователях Вконтакте: их личных данных, постах и т.д.
Статья подразумевает некий базовый бэкграунд в области технологий InterSystems (в частности, Caché ObjectScript).
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №27 (15 — 21 декабря 2014)

Время на прочтение4 мин
Количество просмотров8.9K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Нефтяные ряды в R

Время на прочтение6 мин
Количество просмотров43K
«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч



С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.
Читать дальше →

Ближайшие события

Обзор наиболее интересных материалов по анализу данных и машинному обучению №26 (8 — 14 декабря 2014)

Время на прочтение4 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Яндекс открывает новое направление своей деятельности — Yandex Data Factory

Время на прочтение4 мин
Количество просмотров56K
Только что в Париже на конференции LeWeb Яндекс объявил об открытии нового важного направления своей деятельности — по коммерческой обработке больших данных — Yandex Data Factory.

Мы верим, что обработка больших данных — это часть нового витка технической революции, который сделает всё человечество ещё более эффективным и приведёт нас к будущему, которое мы сейчас ещё даже не можем до конца представить. И в нём работа с большими объёмами данных будет не менее важной и распространённой, чем выработка электричества или железные дороги сегодня.



Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов с компаниями-партнёрами. Для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)

Время на прочтение4 мин
Количество просмотров13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Немцы создали библиотеку пьяных аудиозаписей

Время на прочтение1 мин
Количество просмотров21K
Эпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.


Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.



Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
Читать дальше →

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

Время на прочтение8 мин
Количество просмотров20K


Любой интернет-проект можно сделать лучше. Реализовать новые фичи, добавить серверов, переделать интерфейс или выпустить новую версию API. Вашим пользователям это понравится. Или нет? И вообще, что это за люди? Молодые или в возрасте? Обеспеченные или скорее наоборот? Из Москвы? Питера? Сан-Франциско, штат Калифорния? И почему, в конце концов, те сто теплых пледов, что вы закупили еще в мае, пылятся на складе, а футболки с октокотами расходятся, как горячие пирожки? Получить ответы поможет проект Рейтинг Mail.Ru. Эта статья о том, как мы применяем data mining, чтобы ответить на самые сложные вопросы.
Читать дальше →

Информационные технологии и большие деньги

Время на прочтение6 мин
Количество просмотров10K
Банковские услуги существенны. Банки – нет.
Билл Гейтс

За несколько десятилетий информационные технологии изменили мир до неузнаваемости. Применительно к банковскому сектору и финансовым институтам чаще всего поднимаются вопросы государственного регулирования и защиты информации, а также вопросы противодействия отмыванию доходов, полученных преступным путем. Однако это не единственные вызовы, стоящие перед финансовым сектором. Клиентские потребности и привычки меняются с течением времени, и информационные технологии – один из важнейших драйверов.

Так, обеспеченные клиенты уже сейчас используют мобильные устройства не только для доступа к информации по счету и оплаты счетов, но и для заключения сделок.



Но дело не только в ежедневном использовании планшетов и смартфонов. Новое поколение клиентов требует новых каналов коммуникации и современных форм взаимодействия. При этом подобный запрос поступает, в том числе и от старшего поколения.
Читать дальше →

Исследование причин аномального голосования на сайте РОИ или особенности электронной демократии в России

Время на прочтение7 мин
Количество просмотров126K
За сайтом «Российские общественные инициативы» я наблюдаю давно, примерно с 29 мая 2013 года. Как и другие наблюдатели, я замечал аномалии в ходе голосований за различные инициативы. Но это мало кого беспокоило, пока аномалии приводили по нашим оценкам к росту числа голосов. Видимо, никто не считал чем-то плохим, если очередная инициатива наберет 100 000 голосов раньше срока. Всё изменилось, когда аномалии стали замедлять голосование.

Отзывы голосов на РОИ

Это началось 24 ноября в 13:35 по московскому времени. Счетчик голосов за принятие инициативы 9376 уменьшился на 2. Потом еще на 1 и еще на 2. Вечером уменьшение значения счетчика стало происходить всё чаще и чаще. Кто-то заметил это и сообщил автору инициативы. С этого момента начался тщательный мониторинг хода голосования.

Я расскажу про некоторые странности голосования, которые мы (наблюдатели) заметили за последнюю неделю. Также я попытаюсь сделать предположения о причинах некоторых из них. Выводов довольно мало, т.к. не всегда есть возможность получить нужные данные о ходе голосования.
Читать дальше →