Обновить
47.22

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Datalore Enterprise 2021.3: ячейки SQL, подключение Jupyter-ноутбуков к БД, интерактивные отчеты и многое другое

Время на прочтение4 мин
Охват и читатели3.6K

Привет, Хабр!

Datalore Enterprise — это data science платформа для совместной работы с Jupyter-ноутбуками. Ее можно установить в частное облако или на приватный сервер компании.

Новая версия 2021.3 позволяет специалистам по анализу и обработке данных работать с базами данных и SQL-кодом внутри Jupyter-ноутбуков, а также легко делиться результатами работы с коллегами. Также мы интегрировали поддержку ноутбуков R и Scala, добавили новый реактивный режим, реализовали конструкторы графиков и множество других функций.

Читайте дальше, чтобы узнать о новых возможностях Datalore Enterprise 2021.3!

Читать далее

Как мы прогнозируем цены на наши продукты с помощью Machine Learning

Время на прочтение5 мин
Охват и читатели4.7K

Привет, Хабр!

Меня зовут Александр Крот, я руководитель по разработке аналитических продуктов СИБУР Диджитал. Сегодня я расскажу о проекте, связанном с цифровизацией процесса ценообразования, – прогнозировании ценовых котировок.

Если кратко, мы создали более 60 моделей, которые прогнозируют цены на наши продукты на разных рынках. Раньше маркетологи собирали эту информацию вручную, эти 60-70 прогнозов занимали у нас несколько дней. На результат влиял человеческий фактор – возникали неточности, прогнозы приходили не вовремя. Сейчас модели пересчитывают котировки автоматически.

Польза от инструмента стала особенно очевидной в прошлом году, когда началась пандемия и связанные с ней карантинные ограничения: вставали и снова запускали целые предприятия, закрывались и открывались границы, цены на продукцию под влиянием большого количества внешних менялись круглосуточно, а нам надо было точно и, главное, быстро управлять материальными потоками.

Как прогнозирование цен позволяет компании получать дополнительные сотни миллионов рублей; как просчитать влияние множества событий на эти цены; почему даже при хорошем ML-фреймворке без человека всё равно никак. Все подробности – в посте.

Читать далее

Gnuplot. Пакуем выходной svg — в один файл

Время на прочтение12 мин
Охват и читатели5.6K

Старый мем на новый лад.

Предыдущая моя статья "Gnuplot и с чем его едят" получила большой отклик и даже была переведена на несколько языков (видел на медиуме, встречал на немецком). Поэтому, раз тема актуальная, решил продолжить.

У меня появилась задача получать данные, а затем на удалённом сервере строить по ним графики и отправлять по почте. Причём графики должны иметь возможность отключать оси, приближать отдельные области графика, включать-выключать сетку. И вы знаете, gnuplot умеет выдавать подобные графики. Он даёт их в формате html или svg. Но вот незадача, вместе с этим файлом надо тащить ещё багаж данных в виде кучи javascript-файликов, картинок, css (в случае html), что сильно сужает применимость при отправке их по почте.

В результате, нашёл-таки решение данной проблемы и продемонстрирую её решение на примере svg-файла, для html будет аналогично. Поскольку нет возможности привести график реальных данных, где было использовано это решение, в пример взял шуточный мем про студентов
Читать дальше →

Как компьютеры рисуют странные формы: метаболы, marching squares, электрические поля

Время на прочтение15 мин
Охват и читатели9.3K

Пару месяцев назад я наткнулся на очень красивые анимации. В основе этих анимаций лежат несколько простых окружностей, но выделяет их то, насколько органично они сливаются друг с другом. Мне стало любопытно, как это работает, и моё исследование оказалось гораздо интереснее, чем я ожидал. Выяснилось, что соединяющиеся друг с другом круглые объекты называются метаболами (metaballs) и с ними связано множество математических и вычислительных понятий. Если вы в чём-то похожи на меня, то посмотрев на эти анимации, вы бы сразу задались вопросом, как подойти к решению такой задачи. Допустим, нам поручили разобраться с тем, как генерировать метаболы. Как сформулировать эту задачу? Что означает возможность органичного слияния окружностей? Как компьютер рендерит нечто подобное на экране? Всё это очень сложные вопросы.

В этой статье мы совершим путешествие и узнаем, как люди решают эту задачу. Базовый алгоритм, играющий неотъемлемую роль в генерации таких анимаций, называется marching squares. Он используется во многих сферах графики, а также медицинской визуализации. Но каким бы полезным ни был алгоритм, самым важным в нашем путешествии будет то, насколько изящен этот подход при решении подобной задачи. Есть истинная красота в том, что мы берём расплывчатую задачу и преобразуем её в конкретный решаемый вид. Главная цель этой статьи — дать вам ощущение радости при исследовании смены точек зрения, превращающих подобные сложные задачи в решаемые.
Читать дальше →

Красивые визуализации GitHub с помощью PyGraphistry

Время на прочтение7 мин
Охват и читатели9.1K

В чёрную пятницу, пока у нас стартует флагманский курс Data Science, делимся интерактивными графами подписок веб-разработчиков и разработчиков моделей ML, а также знакомим читателей с инструментом визуализации больших графов — PyGraphistry.

Такие данные — косвенный индикатор конкуренции языков и технологий. К примеру, можно попробовать выяснить, сколько разработчиков C++ следят за разработчиками Rust и наоборот. За подробностями и кодом приглашаем под кат.

Читать далее

Визуализация данных с помощью Oracle Apex

Время на прочтение6 мин
Охват и читатели6.2K

Oracle Apex – компонент для разработки конечных приложений, входящий в состав поставки СУБД Oracle, позволяющий быстро «доставать» данные из базы и доставлять их через веб-интерфейс конечному пользователю. Как правило, данные для просмотра и редактирования выдаются в табличном виде и Apex предоставляет богатые возможности для настраивания отчета: можно накладывать фильтры, делать сортировку и группировку, скрывать имеющиеся столбцы и добавлять расчетные новые, делать сводные отчеты, выгружать данные в формате csv, pdf и даже Excel. Каждый пользователь может сохранить предпочитаемые им настройки каждого отчета как индивидуально, так и для совместного использования. В таком формате Apex функционирует у большинства наших заказчиков.

Однако мало кто использует довольно широкие возможности Apex’а для построения графиков. Эта тема, на наш взгляд, довольно интересна и мало освещена в интернете.

В этой статье будем предполагать, что читатель имеет представление о разработке приложений с помощью Oracle Apex.

Читать далее

«Хотим дашборд» — что на самом деле это значит и как создавать дашборды, которыми реально будут пользоваться

Время на прочтение8 мин
Охват и читатели14K

Гибкая аналитическая отчетность — звучит интересно, выглядит как светлое будущее и интригует бизнес-пользователей. Но когда они сталкиваются с реальными гибкими инструментами, то понимают, что работать с ними не так-то уж просто. И что они скорее предпочли бы статичную, но грамотно созданную визуализацию.

Я, Табулина Светлана, старший консультант по управлению данными в компании «Северсталь». Я расскажу, как мы используем SAP Analytics Cloud для создания дашбордов, как выясняем настоящие потребности бизнеса и как научились создавать аналитику, которой реально пользуются.

Хочу дашборд!

Костыли и колеса (не от велосипеда) — как я структурировала прием таблеток

Время на прочтение5 мин
Охват и читатели12K

Так уж получилось, что в последнее время я много и долго болею ?

Мой стандартный способ лечения "если простуду лечить — она пройдет за 7 дней, а если не лечить — за неделю" перестал работать (ох уж эта старость).

Пришлось обращаться к врачу и прибегать к особенному лечению.

Под особенным лечением — я имею ввиду гигантский список из таблеток, уколов и других препаратов со всякими особенностями.

Запомнить это все невозможно - поэтому пришлось визуализировать с помощью костылей и велосипедов.

Читать далее

Визуализация данных с помощью веб-фреймворка Dash

Время на прочтение4 мин
Охват и читатели12K

Dash является довольно интересным Веб-фреймворком для визуализации данных и имеет в семе довольно много полезных функций в сочетании с простотой их применения.

Читать далее

Фильтрация шума сигнала

Время на прочтение7 мин
Охват и читатели67K

Фильтрация шума очень важная вещ, при работе с различными датчиками. Сигнал, получаемый от них всегда приходит с шумами, и важно уметь их грамотно отфильтровать. Качественная фильтрация шума способна уменьшить погрешность и увеличить качество измерения датчика. Этим мы сегодня и займемся.

Читать далее

Заметки по языку R | Часть 1: Построение нетипичных диаграмм, и подписи данных в ggplot2

Время на прочтение5 мин
Охват и читатели6.6K

В ноябре 2018 года я запустил телеграм канал R4marketing. Канал посвящён языку R, посты канала разделены по рубрикам, одна из таких рубрик "Заметки по R". В эту рубрику входят небольшие публикации, с интересным или полезными советами по использованию R.

Этой статьёй я начинаю серию публикаций состоящих из подборок наиболее полезных заметок канала R4marketing.

Первая статья будет посвящена визуализации данных.

Читать далее

Находим аномалии в российской статистике COVID-19

Время на прочтение10 мин
Охват и читатели54K

Несмотря на рост заболеваемости covid-19 и горячих споров насчет принимаемых мер, разговоры про достоверность статистики немного поутихли. Кто-то согласен с руководством страны и считает, что с официальными данными все хорошо и они объективно описывают текущую ситуацию. Другие считают, что статистика безбожно врет и показатели, скорее всего, очень сильно занижены.

Последние часто ссылаются на совместное расследование «Медузы», «Медиазоны» и «Холода», которое утверждает, что в реестре Минздрава в 5 раз больше зарегистрированных случаев коронавируса, чем сообщается официально. Само расследование базируется на исследовании Сергея Шпилькина, который ранее с помощью статистических методов доказал фальсификации на выборах. В чем проблема этого исследования?

Читать далее

И никого не стало: выбрать из нескольких хороших идей одну

Время на прочтение10 мин
Охват и читатели2.7K

В первой статье я придумал сто идей для диплома в качестве развлечения.

Во второй – выбрал из них десять, откинув самые неподходящие.

Теперь пришло время выбрать единственную идею, которой суждено воплотиться в виде моего замечательного диплома. А так же трех-четырех ее заместителей просто на всякий случай.

Читать далее

Ближайшие события

Изучение RPA. Developer Roadmap

Время на прочтение3 мин
Охват и читатели2.9K

Изучая текущие материалы для обучения по RPA технологии, я не нашел среди них проектов в классическом формате Roadmap, который часто используют для визуализации порядка обучения по тому или иному стеку технологий.

Исходя из этого - я решил создать такой проект вместе со своей командой.

О результатах ниже...

Читать далее

Почему на удалении от крупных городов избиратели ходят на участки охотнее и голосуют за партию власти

Время на прочтение9 мин
Охват и читатели4.5K

    Действительно ли электоральные предпочтения сельских жителей существенно отличаются от предпочтений городских жителей?

   Зачем нужно срочно вводить электронное голосование в крупных городах России?

   Как выглядят на графиках и на карте России аномальное голосование?

    Подробные карты окрестностей городов России с результатами голосования на выборах в государственную Думу в 2021 году. 

Читать

Мониторинг HANA DB

Время на прочтение5 мин
Охват и читатели1.9K

Всем привет. Сегодня я хочу рассказать немного о мониторинге СУБД на примере SAP HANA и заодно о своём инструменте RybaFish Charts который для этого и сделан.

Читать далее

Открытые данные: всё, что может пойти не так, идёт не так

Время на прочтение10 мин
Охват и читатели10K

Сейчас множество всяких наборов данных в разных областях выкладывают под лицензией OpenData, то есть скачивай и используй (но не искажай). Но, конечно же, раз эти данные открытые, то все их создают как им угодно. Отсюда — множество проблем при обработке, начиная с получения и заканчивая интерпретацией. Мы работаем с открытыми данными последние пять лет, и за весь опыт работы накопилось немало интересных случаев. Под катом — основные проблемы и примеры ребусов, путешествий во времени и прочей чертовщины, с которой мы ежедневно боремся.

Читать далее

Карта процессов верхнего уровня компании и матрица RACI c помощью drawio и google sheets

Время на прочтение4 мин
Охват и читатели20K

В крупных компаниях фиксируют верхнеуровневые процессы в картах процессов верхнего уровня. Наиболее наглядно это делается с помощью схем бизнес-процессов. На них же обозначают участников и владельцев процессов. Более сжатое представление дает матрица RACI. Встает вопрос, как автоматически строить матрацу по данным схемы процессов верхнего уровня.

Читать далее

Детектив данных

Время на прочтение7 мин
Охват и читатели4K

Ключевые идеи новой книги экономиста и журналиста Тима Харфорда «Детектив данных». Книга рассказывает о правилах работы со статистической информацией, о том, как находить факты, распознавать ложь и полуправду в мире больших данных, как развить критическое мышление.

Читать далее

Делаем визуализацию распределения доходов населения России на основе данных Росстата

Время на прочтение5 мин
Охват и читатели47K

По данным Росстта в среднем житель России имеет доход 35 700 ₽ в месяц. Эта цифра мало что говорит о благосостоянии населения. Если взять двух человек — одного с доходом 70 000 ₽ и 1400 ₽, их средний ежемесячный доход будет равен ровно 35 700 ₽. Чтобы лучше продемонстрировать распределение доходов, я смастерил калькулятор, который позволяет посчитать количество людей с заданным диапазоном дохода и наглядно продемонстрировать их вклад в общий уровень доходов.

В этом посте я расскажу как от довольно скупых данных, которые доступны на сайте Росстата сгенерировать датасет для подробной инфографики.

Поехали!