Обновить
46.53

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

R в руках маркетолога. Когортный анализ своими руками

Время на прочтение4 мин
Охват и читатели3.7K

В маркетинге очень популярен когортный анализ. Его популярность вызвана, скорее всего, легкостью алгоритма и вычислений. Никаких серьезных математических концепций в основе нет, элементарная математика, выполняемая в excel. С точки зрения получения инсайтов гораздо интереснее анализ дожития.


Тем не менее, считаем, что есть такая задача и ее надо решить. Искать какие-либо пакеты и готовые функции неинтересно — математика проста, параметров настройки масса. Ниже возможный пример реализации (без особой фиксации на скорость исполнения), всего кода на пару десятков строк.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Первые шаги в BI-аналитике. Роль Data Engineering

Время на прочтение8 мин
Охват и читатели12K

Добрый день, уважаемые читатели! Материал носит теоретический характер и адресован исключительно начинающим аналитикам, которые впервые столкнулись с BI-аналитикой.

Что традиционно понимается под этим понятием? Если говорить простым языком, то это комплексная система (как и, например, бюджетирование) по сбору, обработке и анализу данных, представляющая конечные результаты в виде графиков, диаграмм, таблиц.

Это требует слаженной работы сразу нескольких специалистов. Дата-инженер отвечает за хранилища и ETL/ELT-процессы, аналитик данных помогает в заполнении базы данных, аналитик BI разрабатывает управленческие панели, бизнес-аналитик упрощает коммуникации с заказчиками отчетов. Но такой вариант возможен, только если фирма готова оплачивать работу команды. В большинстве случаев небольшие компании для минимизации затрат делают ставку на одного человека, который зачастую вообще не обладает широким кругозором в области BI, а имеет лишь шапочное знакомство с платформой для отчетов.

В таком случае происходит следующее: сбор, обработка и анализ данных происходит силами единственного инструмента – самой BI-платформой. При этом данные предварительно никак не очищаются, не проходят компоновки.  Забор информации идет из первичных источников без участия промежуточного хранилища. Результаты такого подхода можно легко лицезреть на тематических форумах. Если постараться обобщить все вопросы касательно BI-инструментов, то в топ-3 попадут, наверное, следующие: как загрузить в систему плохо структурированные данные, как по ним рассчитать требуемые метрики, что делать, если отчет работает очень медленно. Что удивительно, на этих форумах вы практически не найдете обсуждений ETL-инструментов, описания опыта применения хранилищ данных, лучших практик программирования и запросов SQL. Более того, я неоднократно сталкивался с тем, что опытные BI-аналитики не очень лестно отзывались о применении R/Python/Scala, мотивируя это тем, что все проблемы можно решить только силами BI-платформы. Вместе с тем всем понятно, что грамотный дата инжиниринг позволяет закрывать массу проблем при построении BI-отчетности.

Читать далее

Использование геолокационных данных в машинном обучении: основные методы

Время на прочтение10 мин
Охват и читатели9.7K

Данные о местоположении — это важная категория данных, с которыми часто приходится иметь дело в проектах машинного обучения. Они, как правило, дают дополнительный контекст к данным используемого приложения. Специально к старту нового потока курса по Machine Learning, делимся с вами кратким руководством по проектированию и визуализации элементов с геопространственными данными.

Читать далее

Визуализируем коммуникации с клиентами для застройщика на карте

Время на прочтение6 мин
Охват и читатели7.7K

Любому проекту на начальных этапах работы требуется внимание к клиентам, жёсткое планирование и неисчерпаемая сила. А если речь о проекте с нюансами отрасли, важность настройки коммуникаций с клиентами возрастает. Расскажу, как мы настраивали email- и другие коммуникации с клиентами в недвижимости.

В новом проекте логично ставить цели для его дальнейшего развития. Чтобы достичь поставленных целей, нужно продумать все точки контакта с пользователем. С этим как раз и может помочь карта коммуникаций, при составлении которой мы визуализируем все взаимодействия. При визуализации каждого контакта с клиентом меньше вероятность упустить важные детали.

Все коммуникации с клиентами можно оформить в удобном для вас виде: внешне карты могут отличаться, но суть и их назначение не меняются.

Карту коммуникаций по застройщикам мы создавали в платформе Miro — обычно этот сервис используют для создания новых проектов, дизайна интерфейса и других похожих задач. За всё время работы в Email Soldiers я видела несколько платформ, которые можно использовать для создания карт коммуникаций, но ни одна из них не запала мне в душу, как эта:

Читать далее

Сколько стоят ваши социальные данные?

Время на прочтение9 мин
Охват и читатели12K

Человек — это то, что он потребляет. Данное высказывание в современном мире теперь относится не только к еде. Человек жив благодаря не только хлебу насущному. Мы каждый день потребляем гигабайты информации, за один день мы перерабатываем её столько, сколько в средние века люди не получали и за всю жизнь. Только проснулись и сразу проверяем уведомления электронной почты, пока завтракаем пролистываем ленту вКонтакте или любой другой соцсети, в свободное время время смотрим ролики на YouTube и т.д. и т.п. Этими действиями мы не только потребляем, но и создаем информацию. Каждый наш шаг в Интернете, любой наш клик, все перемещения из сайта в сайт фиксируются и записываются. Это называется социальными данными пользователя. Именно они составляют нашу виртуальную личность. И у этой нашей с вами личности есть своя цена, за которую готовы платить большие деньги.
Читать дальше →

Использование проволочных моделей для визуализации научных данных

Время на прочтение6 мин
Охват и читатели4.5K
Что же это такое?

Начну с банальности — никто не будет спорить с утверждением, что каждая научная проблема нуждается во всестороннем рассмотрении. Иногда очень помогает буквальное использование этого подхода — хорошо бы уметь построить модель исследуемого процесса и просто взглянуть на неё с разных сторон. Далее я попробую показать, как это работает в применении к исследованию динамических систем и связанных с ними объектов

Читать дальше →

Визуализация данных в интерфейсе

Время на прочтение8 мин
Охват и читатели15K

Меня зовут Илона, я Senior Experience Designer в EPAM. Я проектирую сложные интерфейсы для зарубежных заказчиков, выступаю с докладами, менторю дизайнеров. В свободное время преподаю проектирование интерфейсов в магистратуре Университета ИТМО и веду Телеграм-канал о UX-дизайне.

В этой статье хочу немного поговорить об истории инфографики и о том, как с точки зрения дизайна визуализировать данные и эффективно отображать их в интерфейсе.

Читать далее

Chipmunk: обновления

Время на прочтение2 мин
Охват и читатели2.1K

Короткий обзор очередных обновлений смотрелки логов chipmunk. Много исправлений, много корректировок и немного фишек, в том числе запрашиваемых сообществом.

Читать далее

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

Время на прочтение7 мин
Охват и читатели7.6K

Мне никогда раньше не приходилось иметь дело с парсингом данных из интернета. Обычно все данные для работы (аналитик данных) приходят из выгрузок компании с использованием простого внутреннего интерфейса, либо формируются sql-запросами к таблицам напрямую из хранилища, если нужно что-то более сложное, чем “посмотреть выручку за предыдущий месяц”. 

Поэтому мне захотелось освоить какой-нибудь несложный инструмент парсинга html-страниц, чтобы уметь собирать данные из интернета с помощью кода в удобной для себя IDE без привлечения сторонних инструментов. 

Сайты для сбора данных были подобраны по принципу “нет блокировщика парсеров” и “из анализа этих данных может выйти что-то интересное”. Поэтому выбор пал на ассортимент блюд на доставку трёх ресторанов Санкт-Петербурга - “Токио City”, “Евразия” и “2 Берега”. У них приблизительно одна направленность кухни и похожий ассортимент, поэтому явно найдется, что сравнить. 

Что из этого получилось?

Как Microsoft Analysis Services финансовым аналитикам жизнь упростил

Время на прочтение8 мин
Охват и читатели15K
Как мало пройдено дорог — как много сделано отчетов ©

Введение


— Василий, мы установили новый BI продукт, наш САМЫЙ ГЛАВНЫЙ от него просто в восторге!
— Да, но я не знаю, как выгрузить данные для анализа из этой системы?! Он, похоже, только в html может что-то показывать.
— Ничего, я думаю ты справишься, сам понимаешь, чем шире улыбка шефа, тем выше премия.
— Но, Иван Васильевич, этот продукт в качестве источника данных использует только PDF файлы.
— Зато он показывает шикарные разноцветные графики, у него анимация как в “Звездных войнах”, а руководство просто в восторге от его интерактивных возможностей. Там ещё и пасхалочка есть. Если три раза кликнуть в правом нижнем углу, появится Дарт Вейдер и споёт Марсельезу. Да и в целом, Вася, будь оптимистом! Хочешь анекдот в тему?
Читать дальше →

10 постулатов по улучшению таблиц

Время на прочтение3 мин
Охват и читатели6.6K

Короткое резюме 10 постулатов по улучшению таблиц, опубликованных в Journal of Benefit Cost Analysis экономистом Jon Schwabish.

Проверьте свои финансовые и ежедневные отчеты - каждое ли из 10 правил Вы соблюдаете?

Читать далее

Аналитический отчёт застройщика: как выглядит и как поможет в работе

Время на прочтение4 мин
Охват и читатели4.2K

Отчёт застройщика о продажах и маркетинге часто связан с трудностями сбора, сводки, аналитики и представления данных.

Застройщики сталкиваются с такими проблемами:

Читать далее

Google Earth Engine (GEE): ищем золото по всему миру с помощью больших данных и машинного обучения

Время на прочтение5 мин
Охват и читатели5.8K

В предыдущих статьях Google Earth Engine (GEE) как общедоступный суперкомпьютер и Google Earth Engine (GEE) как общедоступный каталог больших геоданных мы познакомились со способами удобного и быстрого доступа к каталогу космических снимков и их обработки. Теперь мы можем искать питьевую воду, различные минералы и вообще много всего. А еще можем вооружиться методами машинного обучения (ML) и сделать свою собственную карту сокровищ — прогноз для поиска золотых месторождений в любом месте мира. Как всегда, смотрите код и исходные данные (синтетические, конечно, ведь реальные данные — буквально на вес золота!) на GitHub: AU Prediction (ML)



На острове Западная Сумбава с помощью построенного классификатора выделены прогнозируемые золотоносные участки.

Читать дальше →

Ближайшие события

Открыта программа раннего доступа к JetBrains DataSpell — нашей новой IDE для Data Science

Время на прочтение4 мин
Охват и читатели11K

Не секрет, что Python является одним из самых широко используемых языков для анализа, обработки и визуализации данных, поэтому было логично реализовать функции Data Science в PyCharm. В прошлом году мы собрали много отзывов, и они помогли нам понять, как значительно улучшить поддержку Data Science в IDE. Но при этом стало очевидно, что у специалистов по работе с данными и разработчиков разные сценарии использования и ожидания от своих инструментов.

В итоге мы решили создать на платформе PyCharm совершенно новую IDE, которая заточена исключительно под задачи Data Science. Сегодня мы с удовольствием расскажем подробнее об этой IDE, а также приглашаем вас ее попробовать.

Рабочее название новой IDE — JetBrains DataSpell (но на момент релиза оно может измениться). JetBrains DataSpell — это удобная среда разработки для специалистов по Data Science, которые активно занимаются разведочным анализом данных (Exploratory Data Analysis) и прототипированием моделей машинного обучения.

Чтобы принять участие в EAP, подайте заявку на официальной странице. Учтите, пожалуйста, что мы будем рассылать приглашения поэтапно, а не всем одновременно. И не переживайте: если вы отправили заявку, то в любом случае получите приглашение.

Читать далее

Аналитика возраста воздушного флота российских авиакомпаний

Время на прочтение4 мин
Охват и читатели13K

Аналитика возраста воздушного флота российских авиакомпаний.

Читать далее

100 плагинов для Revit или как мы оптимизировали проектирование систем электроснабжения

Время на прочтение8 мин
Охват и читатели40K

Привет, Хабр! Меня зовут Алексей Новиков, уже 5 лет я занимаюсь информационным моделированием систем электроснабжения в компании STEP LOGIC.  

Раньше основной ценностью работы проектировщика был комплект чертежей, сейчас – это информационная модель, которая является продуктом не конкретного сотрудника, а целой команды. Мы неоднократно сталкивались с ситуациями, когда из-за разного подхода к проектированию информационная модель превращалась в простой набор геометрических форм, параметры и связи в котором были понятны лишь одному проектировщику. Всё это усложняло командную работу. Мы раз за разом задавались вопросом: как сделать процесс проектирования прозрачным для всей команды, а результат более прогнозируемым? Так родилась идея создания системы проектирования электроснабжения, которая должна автоматизировать рутинные процессы и упростить внесение изменений в проект, а значит и нашу жизнь. Выигрывает от этого и заказчик: время подготовки проекта сокращается, а на выходе получается более качественный продукт.

Читать далее

Аналитика алкогольной продукции сети магазинов «Лента»

Время на прочтение4 мин
Охват и читатели8.2K

Сегодня вашему вниманию представлена аналитика (исследование) алкогольной продукции сети магазинов «Лента» (далее - Лента) в каталоге на официальном сайте компании.

Читать далее

Лемма Ито

Время на прочтение6 мин
Охват и читатели23K

Лемма Ито играет ключевую роль в теории случайных процессов и находит свое приложение в моделях оценки справедливой стоимости финансовых инструментов. Так как стоимость любой производной ценной бумаги является функцией, зависящей в том числе от стохастических факторов, исследование и описание свойств таких функций имеет важное значение.

Читать далее

Google Earth Engine (GEE) как общедоступный каталог больших геоданных

Время на прочтение5 мин
Охват и читатели5.8K

В прошлой статье Google Earth Engine (GEE) как общедоступный суперкомпьютер речь шла про работу в облачном редакторе GEE, где для доступа достаточно лишь наличия Google почты. Если потребности ограничиваются разовыми задачами и гигабайтами извлекаемых данных, то этого вполне достаточно. Но для автоматизации множества даже мелких задач облачный редактор не лучший способ работы и, тем более, когда требуется многократно получать растры суммарным размером в терабайты. В таких случаях потребуются другие инструменты и сегодня мы рассмотрим возможности доступа из консольных shell и Python скриптов и Python Jupyter notebook.



На скриншоте Python Jupyter ноутбук, где растр с данными о плотности населения за 2020 год из каталога Earth Engine data Catalog: WorldPop Global Project Population Data отображен на карте OpenStreetMap

Читать дальше →

Process Mining на базе BI — реальные возможности для оптимизации бизнеса

Время на прочтение16 мин
Охват и читатели12K

В каких ситуациях Process Mining может принести организации пользу? Мы уверены, что практически в любой! Я, Иван Лазаревский, руководитель отдела Data Science в Visiology, и коллеги из практики автоматизации процессов компании 7RedLines - Андрей Шкулёв и Владимир Басов, поделимся с вами нашим опытом в области Process Mining, а также реализации этого подхода на базе BI-платформы. Здесь вы найдёте: немного теории о Process Mining, соображения о разных подходах к аналитике, выкладки с преимуществами технологии для бизнеса и мини-гайд по выбору решения, подходящего для конкретной организации.

Читать далее