Обновить
60.97

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение9 мин
Количество просмотров6.9K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее

Уникальные стили визуализации данных в Python: от Cyberpunk до элегантности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров16K

Необычные стили для визуализации данных на Python: от киберпанка до эстетики. В статье рассмотрены 5 малоизвестных стилей для визуализации данных и создания дашбордов.

Читать далее

Простое внедрение аннотаций статистической значимости

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.4K

Привет, Хабр!

Сегодня с вами участница профессионального сообщества NTA Яруллина Ляйсян.

В современном мире визуализация данных используется повсеместно. Она позволяет в сжатые сроки предоставить изображение или видео, описывающее колоссальное количество информации, что делает визуализацию незаменимой в анализе данных.

Но не менее важной в указанном вопросе является статистика. Она позволяет провести качественную обработку данных и сделать выводы на ее основе — без статистической базы графическое представление данных не несет особой ценности. И в наше время океана неподтвержденной информации это куда более серьезная проблема, чем могло бы показаться изначально. Поэтому важно уметь быстро внедрять аннотации статистической значимости в полученную визуализацию и уметь ее расшифровывать.

В последние годы создаются специальные статистические пакеты, которые позволяют реализовать вышеизложенное в жизнь быстро и просто. Например, специально для библиотеки Seaborn, используемой для построения статистических графиков, был создан пакет Statannotations. Он позволяет проводить дополнительные вычисления статистических тестов и добавлять их результаты в виде аннотаций к графикам. Рассмотрю его подробнее и для примера загляну в глубины мозга.

Узнать больше

Статистика на примерах с Python #1

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров21K
Читать далее

Визуализация статистики о том, что и так все знают

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров16K

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям. 

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

Читать далее

Подбор цветов для палитры визуализации данных

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров14K

Для того чтобы упростить восприятие данных в интерфейсе используются инструменты, вроде графиков и диаграмм. Но используя такие элементы практически сразу встает вопрос, а в какие цвета красить тренды графиков и столбики в диаграммах?
Эта статья поможет вам решить эту проблему.

Читать далее

Обратная нормализация (денормализация)

Время на прочтение7 мин
Количество просмотров10K

Привет, Хабр!

Нормализация — это процесс организации данных в базе для минимизации избыточности и зависимостей. Она помогает нам избежать аномалий при вставке, обновлении или удалении данных и, конечно, упрощает схему базы данных.

Но, как и все в этом мире, нормализация не идеальна. Иногда она может привести к чрезмерной комплексности и снижению производительности запросов. И здесь бывает полеза обратная нормализация. Если нормализация - это упорядочивание, то обратная нормализация - это некоторое "ослабление" правил для достижения определенных целей. В БД это означает объединение таблиц, добавление избыточных данных и так далее, чтобы ускорить чтение данных и упростить запросы, даже если это идет в ущерб некоторой "чистоте" схемы.

Читать далее

Изометрическое Черчение в Inkscape

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров12K

Во время инженерной работы постоянно приходится проектировать заказные детали.

Очевидно, что нужен какой-то векторный редактор для быстрого и простого создания статической графики.

Редакторы 3D черчения как правило платные. При этом есть бесплатные программы для 2D черчения. В некоторой степенью работать на плоскости удобнее, чем теряться в 3D комнате.

В этом тексте представлены приёмы для 3D черчения в 2D редакторе Inkscape.

Читать далее

Создание витрины данных для телеком-оператора средствами Apache Airflow

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров10K

Сегодня с вами участница профессионального сообщества NTA Курляндская Владислава.

В современном мире витрины данных становятся неотъемлемой частью любого бизнеса, так как позволяют прогнозировать будущие изменения. В данном посте я рассмотрю процесс создания витрины данных для телеком‑оператора с использованием Apache Airflow.

Читать далее

Агрегатор личных финансов со всех счетов

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров13K

Всем привет!

Примерно год назад мне захотелось проанализировать доходы и расходы со всех своих банковских карт, количество которых начало разрастаться. После ресерча существующих приложений я поняла, что они либо платные, либо нужно ручками вбивать всю информацию. Плюс вопрос сохранения конфиденциальности данных. В этой статье я расскажу про свой мини-проект, как он мне помогает следить за личными финансами и как вы можете покрутить его сами.

Читать далее

Логи из docker compose / docker swarm в Grafana / Loki быстро и просто

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров40K

Хочу показать как развернуть готовый и полностью работающий стек мониторинга Grafana + Loki + Prometheus + Pushgateway + Promtail за пару минут (в прямом смысле этого слова), без необходимости устанавливать на машину дополнительное ПО (плагины docker и плагины логирования) и собирать логи со всех контейнеров машины (или сразу со всех нод, в случае с swarm).

Читать далее

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.3K

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

Читать далее

Как не про…пустить все дедлайны. Таск-трекер в деле

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров14K

Какие подходы к управлению временем вы сейчас используете? Готовы ли вы сказать, что у вас чёткая система по управлению вашими рабочими задачами?

Я готов сказать — да, и поделиться как это работает у меня вот уже много лет.

Читать далее

Ближайшие события

Разработка и интерпретация иерархической кластеризации

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.5K

Привет Хабр!

Иерархическая кластеризация является мощным методом анализа данных, позволяющим группировать схожие объекты в кластеры. В этой статье мы рассмотрим процесс разработки и интерпретации иерархической кластеризации, погружаясь в методы создания кластеров и анализа результатов. Мы изучим этот подход, который визуализирует данные в виде дендрограммы, что позволяет наглядно оценить структуру полученных кластеров. Разберем основные шаги этого метода, включая выбор метрик расстояния, выполнение кластеризации и интерпретацию результатов. Давайте вместе углубимся в этот увлекательный мир анализа данных с использованием иерархической кластеризации.

Читать далее

Как оценивать покрытие практиками ИБ

Время на прочтение6 мин
Количество просмотров1.9K

Всем привет!

Меня зовут Анастасия Арсеньева, я аналитик данных в Swordfish Security. Продолжаем рассказывать вам о метриках безопасной разработки — и показывать их на дашбордах модуля визуализации метрик DevSecOps платформы AppSec.Hub. Напомню, мы уже писали об оценке рисков ИБ, о зрелости подхода Shift Left и об обработке найденных уязвимостей.

В предыдущей статье мы начали говорить о проверках ИБ в контексте принципов DORA, а сегодня разберем вторую часть дашборда по сканированиям ИБ и попробуем ответить на вопрос: «Как оценить покрытие практиками ИБ приложения/всех систем?»

Читать далее

Метод подбора параметров функции за ограниченное время. Торговый симулятор + улучшение стратегии

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.5K

Уважаемые участники сообщества Хабр, добрый день!

Представляем вам инструмент для тестирования торговых стратегий с приближением к реальности и пути улучшения финансовых результатов (это не машинное обучение, не нейросети, не гадание и не астрология).

В первую очередь эта статья будет полезна, тем кто пишет торговых роботов, или разрабатывает стратегию для сигнальных ботов, и даже тем, кто в поисках чего то интересного и нового.

Итак, начнем.

Читать далее

Типизация моделей составных чисел

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.5K

Подход, выбранный в публикуемой работе для исследования составного числа, основан на концепции закона распределения делителей (ЗРД) числа в натуральном ряде чисел (НРЧ). Приводятся общая и каноническая модель числа, сохраняющая основные свойства, присущие большинству реализаций, но имеющая стандартный (наиболее простой) вид. Возвращаясь к прошлым публикациям, перечитал комментарии и принял решение создать эту.

Разнообразие множества исследуемых и различающихся реализациями моделей чисел вынуждает исследователя вводить для них типизацию (не классификацию). Два близких по значению нечетных числа могут иметь разный тип. Дело в том, что разработанная списочная многострочная модель (СММ) составного числа выявляет весьма тонкие, но существенные различия даже в очень близких числах из одного класса.

При введении (загрузке) в модель исходного значения N эти различия при их учете влекут использование отличающихся алгоритмов обработки, которые приспособлены к конкретному типу чисел. В работе приводится пример двух близких  N1 = 1961 и N2 = 1963 чисел, тип которых не совпадает. Это, в свою очередь, приводит к выбору и исполнению соответствующих алгоритмов обработки этих чисел.

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы.  Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного её рассмотрения.

Читать далее

Мониторинг на Python: как сохранить метрики в мультипроцессном режиме

Время на прочтение8 мин
Количество просмотров9K

Привет, Хабр! Меня зовут Никита, я backend-разработчик команды клиентских сервисов. В Selectel мы строим и поддерживаем IT-инфраструктуру для компаний, которые развивают свои цифровые продукты. В нашем департаменте около 20 приложений, большая часть из которых работает на Flask и Gunicorn. Чтобы отслеживать их производительность, мы мониторим параметры системы с помощью Prometheus.

С развитием бизнеса нагрузка на приложения возрастает, один из способов масштабировать его под большее количество запросов — запустить Gunicorn-сервер с несколькими worker-процессами в мультипроцессном режиме. Однако при таком подходе клиент Prometheus не выводит нужные нам метрики CPU и RAM. В статье расскажу, как мы решили эту проблему, сохранив метрики и организовав мониторинг в мультипроцессном режиме.
Читать дальше →

Наблюдаемость качества разработки: от субъективных суждений к объективным данным

Время на прочтение11 мин
Количество просмотров3.6K

Привет, Хабр! Я — Алексей Диянов, технический директор Nedra Digital. Мы — IT в нефтегазовой отрасли. Компании чуть больше трёх лет. Мы быстро выросли как в численности персонала, так и в количестве проектов, но не избежали классических проблем в виде трудностей внутренней коммуникации, регулярного тушения пожаров и принятия управленческих решений на основе субъективного мнения.

Поговорим о наблюдаемости качества разработки. Нужно ли измерять всё, что поддается измерению? И если нужно, то с чего начать, где брать исходные данные и с какими инженерными метриками работать, чтобы повысить управляемость разработки в будущем? 

Читать далее

За кулисами публикации «24 часа невидимой эпидемии»

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров2.7K

Сегодня я расскажу о том, как был подготовлен материал об одиночестве, «24 hours in an invisible epidemic», опубликованный на платформе Pudding.

Всё началось с моей одержимости материалами Американского обследования использования времени (American Time Use Survey, ATUS). Каждый год в ходе соответствующего мероприятия проводится опрос десятков тысяч американцев. Им предлагают проследить за одним днём своей жизни. Полученные данные позволяют получить некие общие показатели и, при желании, добраться до каждого респондента и узнать о том, чем занимался именно он.

Читать далее