Все потоки

Визуализация данных *

Облекаем данные в красивую оболочку

СтатьиПостыНовостиАвторыКомпании

@XVadim 12 ноя 2015 в 09:54

Программирование умного индикатора LaMetric

3 мин

9.7K

Визуализация данных * Ненормальное программирование *

Целый ряд Kickstarter-проектов, запущенных гражданами стран бывшего СССР, оказались успешными.
В этой статье перечислена часть из них. Пожалуй, одним из самых успешных украинских проектов является умный индикатор LaMetric. Изюминкой данного индикатора является возможность написания дополнительных программ для него (на то он и «умный»).

Разработаем что-нибудь полезное

+12

@alexanderkuk 11 ноя 2015 в 15:46

Исследование результатов ЕГЭ, ГИА и олимпиад для московских школ. Из каких школ в какие ВУЗы поступают

4 мин

34K

Открытые данные * Визуализация данных * VK API * Data Mining * Big Data *

Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:

Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
Естественно-научные дисциплины посередине.

Читать дальше →

+37

@jinxu 10 ноя 2015 в 10:32

Анализ покупательских корзин в ритейле

7 мин

20K

Блог компании datawiz.ioBig Data * Data Mining * Алгоритмы * Визуализация данных *

Задача № 1 для ритейлера — понять, кто конкретно совершает покупки в магазине, изучить поведение покупателей, выделить типичные модели, и с помощью этих знаний влиять на количество и качество покупок.

Решение возможно, используя такие подходы:

анализ данных из программ лояльности и другие формы изучения персон и поведения покупателей;
анализ данных о покупках и транзакциях.

Перефразируя второй подход — какие товары покупатель положил в свою корзину?

Читать дальше →

+7

@yuryemeliyanov 10 ноя 2015 в 10:15

Impact анализ на примере инфраструктуры корпоративного хранилища данных

8 мин

14K

Блог компании Т-БанкSQL * Анализ и проектирование систем * Визуализация данных *

В этой статье я хочу рассказать, как можно решать задачу impact анализа или анализа влияния в сложной, многоуровневой инфраструктуре корпоративного хранилища данных на примере нашего DWH в Тинькофф Банке.

Работая с DWH все наверняка задавались хоть раз вопросами:

«Что будет, если поменять поле в таблице?»
«На каких ETL процессах это скажется?»
«Какие отчеты будут затронуты?»
«Какие бизнес процессы могут пострадать?»

Ответить на этот вопрос как правило непросто, т.к. нужно просмотреть дюжину ETL процессов, потом залезть в BI инструмент, найти нужные отчеты, что-то держать в голове, помнить о том, что что-то там строится ручным кодом и всё это выливается в большую головную боль.
Даже самое порой безобидное изменение может сказаться, например, на отчете, который каждое утро приходит на почту к председателю правления банка. Немного утрирую, конечно:)

Далее в статье я расскажу, как и с помощью чего можно уменьшить головную боль и быстро проводить impact-анализ в инфраструктуре DWH.

Читать дальше →

+11

@Z80A 10 ноя 2015 в 10:00

Как найти самый длинный непрерывный ряд событий с помощью SQL

5 мин

38K

Data Mining * SQL * Визуализация данных *

Перевод

Задача поиска непрерывных последовательностей событий довольно легко решается с помощью SQL. Давайте уточним, что из себя представляют эти последовательности.

Для примера возьмём Stack Overflow. Он использует клёвую систему репутации с наградами за определенные достижения. Как и во многих социальных проектах, они поощряют пользователей ежедневно посещать ресурс. Обратим внимание на эти две награды:

Нетрудно понять, что они означают. Зайдите на сайт в первый день. Затем на второй день. Затем на третий (возможно несколько раз, это не имеет значения). Не зашли на четвёртый? Начинаем считать заново.

Как отследить это с помощью SQL?

+19

@jzha 4 ноя 2015 в 20:45

Конкурс kaggle по анализу данных анкетирования населения

4 мин

8.8K

Data Mining * R * Визуализация данных * Открытые данные *

На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).

infographics: American Housing Survey Factsheets

Читать дальше →

+8

@qc-enior 3 ноя 2015 в 06:37

Визуализация статических и динамических сетей на R, часть 7, последняя

8 мин

6.4K

Блог компании Инфопульс УкраинаData Mining * R * Визуализация данных *

Перевод

В первой части:

визуализация сетей: зачем? каким образом?
параметры визуализации
best practices — эстетика и производительность
форматы данных и подготовка
описание наборов данных, которые используются в примерах
начало работы с igraph

Во второй части: цвета и шрифты в графиках R.

В третьей части: параметры графов, вершин и ребер.

В четвертой части: размещения сети.

В пятой части: акцентирование свойств сети, вершин, ребер, путей.

В шестой части: интерактивная визуализация сетей, другие способы представления сети.

В этой части: анимированная визуализация сетей, эволюция сети во времени.

Читать дальше →

+10

@diakin 2 ноя 2015 в 12:32

Практическое применение преобразования Фурье для анализа сигналов. Введение для начинающих

9 мин

318K

Математика * Визуализация данных *

Из песочницы

Recovery Mode

1. Преобразование Фурье и спектр сигнала

Во многих случаях задача получения (вычисления) спектра сигнала выглядит следующим образом. Имеется АЦП, который с частотой дискретизации Fd преобразует непрерывный сигнал, поступающий на его вход в течение времени Т, в цифровые отсчеты — N штук. Далее массив отсчетов подается в некую программку, которая выдает N/2 каких-то числовых значений (программист, который ~~утянул из инета~~ написал программку, уверяет, что она делает преобразование Фурье).

Чтобы проверить, правильно ли работает программа, сформируем массив отсчетов как сумму двух синусоид sin(10*2*pi*x)+0,5*sin(5*2*pi*x) и подсунем программке. Программа нарисовала следующее:

рис.1 График временной функции сигнала

рис.2 График спектра сигнала

На графике спектра имеется две палки (гармоники) 5 Гц с амплитудой 0.5 В и 10 Гц — с амплитудой 1 В, все как в формуле исходного сигнала. Все отлично, программист молодец! Программа работает правильно.

Это значит, что если мы подадим на вход АЦП реальный сигнал из смеси двух синусоид, то мы получим аналогичный спектр, состоящий из двух гармоник.

Итого, наш реальный измеренный сигнал, длительностью 5 сек, оцифрованный АЦП, то есть представленный дискретными отсчетами, имеет дискретный непериодический спектр.

С математической точки зрения — сколько ошибок в этой фразе?

Теперь ~~начальство решило~~ мы решили, что 5 секунд — это слишком долго, давай измерять сигнал за 0.5 сек.

Читать дальше →

+40

@akardapolov 30 окт 2015 в 09:36

Настраиваем связку Apache Zeppelin + Oracle

6 мин

15K

Блог компании Инфосистемы ДжетOpen source * Oracle * Визуализация данных *

Давно ищу удобный инструмент для выполнения ad hoc SQL-запросов в БД Oracle, с возможностью быстрого построения различных типов графиков на полученных данных. Все, что может облегчить оперативное создание отчетов, как говорится «на лету». Совсем недавно наткнулся на вот такой инструмент как Apache Zeppelin. Короткий обзор возможностей в документации на сайте и демо-видео показал, что это штука достаточно интересная и имеет смысл более плотно исследовать ее и настроить доступ из Apache Zeppelin к СУБД Oracle.

Читать дальше →

+7

@Sergei2003 28 окт 2015 в 08:43

Подход к реализации больших форматированных отчетов в SAP BW

7 мин

24K

Визуализация данных *

Из песочницы

На проектах внедрения отчетности с использованием хранилища данных SAP BW многим архитекторам и консультантам приходится решать задачи подготовки больших форматированных отчетов: разнообразных ведомостей, выписок и т.п. Такие отчеты обычно характеризуются:

Нестандартными относительно инструментов SAP требованиями к форматированию;
Фиксированным числом столбцов;
Значительным количеством столбцов и строк (соответственно, десятки и десятки тысяч и более);
Требованием наличия Excel-представления;
Требованием к времени выполнения не более нескольких минут

К сожалению, нередко приходится наблюдать ситуацию, когда архитекторы BW-проектов выбирают стандартный для BW подход реализации таких отчетов. Кратко суть этого подхода изложена ниже.

Консультантом создается рабочая книга BW-BEx, которая содержит один или несколько BW-BEx-отчетов. Отчеты выгружаются на отдельные листы этой книги, которые обычно скрывают от пользователей. Видимым оставляют лишь один лист книги, содержащий целевую форму отчета с необходимым форматированием.

Работа пользователя с таким отчетом выглядит следующим образом:

в зависимости от используемого Excel-инструмента SAP BW, пользователь запускает BW-BEx Analyzer или SBOP Analysis for Office, подключается к серверу SAP BW, выбирает из роли рабочую книгу и запускает ее на выполнение.
Через несколько секунд (иногда – десятка секунд) появляется селекционный экран.
На экране пользователь выбирает значения параметров. Например, год-месяц, балансовую единицу, группу материала и т.п. Затем нажимает кнопку «выполнить».
Теперь настала очередь «поработать» для SAP BW: все BW-BEx-отчеты рабочей книги выполняются последовательно, отчет за отчетом, передавая на рабочие листы Excel свои данные.
После получения в Excel данных каждого отчета запускается VBA-макрос. Логика работы макроса такова, что он ничего не делает, пока данные всех отчетов не будут получены на Excel-листы.
Когда данные последнего отчета поступили на Excel-лист, VBA-макрос выполняет основную работу по подготовке форматирования отчета.
Когда VBA-макрос завершил работу, пользователь может увидеть результат отчета в своем Excel.

У стандартного подхода есть ряд преимуществ: он прост в реализации и им хорошо владеют большинство специалистов на рынке. Но определенные ограничения не позволяют эффективно реализовывать большие отчеты. А неэффективная реализация получается (если вообще получается) очень неудобной в работе, что негативно сказывается на отношении пользователей к проекту внедрения вообще и к SAP BW в частности. Основное ограничение – максимальное количество ячеек (число строк, умноженное на число столбцов) в отчете. Если их число приближается к эмпирическим 750000, то вероятность сбоя из-за нехватки памяти практически 100%. Т.е. отчет из всего 18 колонок и чуть более 40000 строк уже попадает под это ограничение. А ведь лимиты у Excel намного больше.

Чего только не придумывают консультанты, чтобы, оставаясь в рамках стандартного подхода, качественно сделать-таки большой отчет. Но почти всегда ничего не получается. «Почти» означает компромиссы, послабления в требованиях. Бизнес-пользователи либо соглашаются применять более ограничивающие фильтры и отчет возвращает меньше данных, либо ждать выполнения подольше, либо вручную сводить несколько фрагментов отчета в один.

Чтобы все-таки не говорить клиенту «нет, мы не можем этого реализовать при таких требованиях», необходимо для начала сделать правильные выводы из очевидного: каждый инструмент предназначен для своей задачи.

Читать дальше →

+7

@jinxu 20 окт 2015 в 14:30

Совмещенный АВС и XYZ анализ в Ритейле

7 мин

52K

Блог компании datawiz.ioАлгоритмы * Big Data * Визуализация данных *

Когда-то давно владелец магазина, он же продавец, мог легко запомнить все товары своего ассортимента. Рассказать об особенностях каждого, историю, насколько товар эффективен, знал точно как он продается, когда заказать еще…

С развитием ритейла управление движением товаров требует других подходов. Системы учета и аналитики продаж, управления ассортиментом дополняют опыт работников магазина или торговой сети.

Серьезные решения, например, о выведении товара из ассортимента, принимаются не так просто. И категорийному менеджеру, и управляющему магазином нужны обоснования для таких действий.

Поэтому одного вида анализа недостаточно. Применяют совмещение нескольких видов (по-другому, кросс-анализ).

В статье мы на примере товарной группы “Кондитерских изделий” рассмотрим основные подходы к организации кросс-анализа. А еще узнаем, кто виноват в том, что Рафаэлло — товар с нестабильными продажами.

Читать дальше →

+13

@qc-enior 17 окт 2015 в 10:46

Визуализация статических и динамических сетей на R, часть 6

5 мин

11K

Блог компании Инфопульс УкраинаВизуализация данных * R * Data Mining *

Туториал

Перевод

В первой части:

визуализация сетей: зачем? каким образом?
параметры визуализации
best practices — эстетика и производительность
форматы данных и подготовка
описание наборов данных, которые используются в примерах
начало работы с igraph

Во второй части: цвета и шрифты в графиках R.

В третьей части: параметры графов, вершин и ребер.

В четвертой части: размещения сети.

В пятой части: акцентирование свойств сети, вершин, ребер, путей.

В этой части: интерактивная визуализация сетей, другие способы представления сети.

Читать дальше →

+6

@KoGor 16 окт 2015 в 08:34

Тематическая картография: общие вопросы

26 мин

30K

Визуализация данных * Геоинформационные сервисы * Открытые данные *

Туториал

Хочу поделиться с вами переводом руководства по тематической картографии от ребят из axismaps.

Рекомендую к прочтению информационным дизайнерам, журналистам (данных), аналитикам, начинающим картографам, а также всем, кто хочет научиться читать тематические карты и отличать хорошую карту от плохой, вводящей читателя в заблуждение. Всех заинтересовавшихся приглашаю под кат.

Читать дальше →

+20

@jinxu 7 окт 2015 в 09:25

Ищем стабильность в ритейле, XYZ–анализ ассортимента

7 мин

56K

Блог компании datawiz.ioBig Data * Алгоритмы * Визуализация данных *

XYZ–анализ — одна из форм анализа товарного ассортимента магазина, сети или отдельной товарной группы в ритейле.

XYZ–анализ определяет стабильность продаж товара за определенный период. Полезен для управления ассортиментом и поставками товаров, организации работы с поставщиками. Результаты позволяют разделить товары по категориям и выделить для них место на складе, уровень запасов и организацию доставки.

Как отдельный метод анализа в ритейле XYZ используется не так уж часто, чаще его можно встретить как совмещенный с АВС анализом.
Но, в любом случае, как метод для принятия решений по управлению ассортиментом товарной группы или магазина может принести несомненную пользу.

Начнем с рассмотрения его особенностей и возможностей применения.

Читать дальше →

+8

@qc-enior 1 окт 2015 в 05:51

Визуализация статических и динамических сетей на R, часть 5

3 мин

6.5K

Блог компании Инфопульс УкраинаData Mining * R * Визуализация данных *

Туториал

Перевод

В первой части:

визуализация сетей: зачем? каким образом?
параметры визуализации
best practices — эстетика и производительность
форматы данных и подготовка
описание наборов данных, которые используются в примерах
начало работы с igraph

Во второй части: цвета и шрифты в графиках R.

В третьей части: параметры графов, вершин и ребер.

В четвертой части: размещения сети.

В этой части: акцентирование свойств сети, вершин, ребер, путей.

Читать дальше →

+8

@alguryanow 25 сен 2015 в 18:12

Перенаправление данных из COM-порта в web. Доработка

10 мин

24K

Ajax * JavaScript * Python * Веб-разработка * Визуализация данных *

Недавно я опубликовал статью «Перенаправление данных из COM-порта в web», в которой описал прототип системы, транслирующей строки из последовательного порта компьютера в веб-браузер. В той статье я указал направления, в которых надо доработать прототип, чтобы приблизить его к продакшен-стадии:
— никакой дизайн веб-страницы
— в каждый момент времени данные получит только один веб-клиент
— очень ограниченный набор браузеров, с помощью которых можно получить доступ. Например, не работает ни в Internet Explorer 8, ни в браузере из Android 2.3.5
— требуется установка python

Через некоторое время я решил не оставлять его в таком виде и доработать. Под катом результат доработки и описание того, как я устранил все перечисленные недостатки.

Читать дальше →

+9

@KoGor 25 сен 2015 в 14:17

Дизайн карты: как и почему

6 мин

31K

Геоинформационные сервисы * Визуализация данных * OpenStreetMap *

Туториал

В сети можно найти достаточно материалов по созданию стилей карт (и на хабре в том числе), но в основном они показывают техническую сторону создания стиля в tilemill/mapbox studio. А вот с теорией дела обстоят гораздо хуже, в основном пишут о каких-нибудь отдельных аспектах дизайна, и то не всегда объясняют почему нужно делать так, а не иначе. В этой статье я постараюсь исправить эту ситуацию и поделиться опытом с начинающими картостроителями.

Картостиль вибрант

Картостиль вибрант

Всех интересующихся прошу под кат.

Изучить основы картостроения

+27

@jinxu 23 сен 2015 в 07:13

Как мы ABC анализ для ритейла делали, или «без пол-литра не разберешься»

11 мин

62K

Блог компании datawiz.ioBig Data * Алгоритмы * Визуализация данных *

Пословицы сами по себе не появляются… Иногда в такие дебри аналитики залезаешь, что поневоле рука к шкафчику с горячительными тянется (да ладно, мы знаем он есть в каждом офисе).

Но будем говорить немного о другом.

В ритейле, логистике, управлении складом и запасами есть такая вещь как АВС анализ. О нем уже написано немало теоретических публикаций. И вроде бы все относительно просто и понятно, но так ли это на самом деле?

Когда категорийный менеджер или маркетолог торговой сети вплотную подходит к проведению АВС анализа у него неизбежно возникает целый ворох вопросов, колебаний и сомнений. Именно с ними мы и будем работать в данной статье!

Пройдемся по алгоритму действий при АВС-анализе в продуктовых торговых сетях, исключениях из правил, которые обязательно нужно учитывать, покажем пример проведения анализа по товарной группе Алкогольных напитков (да-да, именно те пол-литра).

Читать дальше →

+5

@kokorins 22 сен 2015 в 08:44

Гистограмма и ящик с усами на пальцах

4 мин

110K

Алгоритмы * Визуализация данных *

Туториал

В этой заметке я хочу описать два типа графиков для одномерных данных, а именно

гистограмма
ящик с усами

Читать дальше →

+10

@DanmerZ 22 сен 2015 в 07:12

Спектральный метод на примере простых задач матфизики

6 мин

18K

Алгоритмы * Визуализация данных * Математика *

Из песочницы

В этой статье описан псевдоспектральный метод численного решения уравнений матфизики, используемый в вычислительной гидродинамике, геофизике, климатологии и во многих других областях.

Читать дальше →

+8

1 2 ...

91

92 93 ...