Как стать автором
Поиск
Написать публикацию
Обновить
42.13

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Параллельное выполнение в R

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.4K

Привет, Хабр!

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Читать далее

Метрики: их очарование и коварство

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.2K

Максим Лунев

Аналитик отдела аналитики производственного департамента Security Vision

Они окружили нас

Метрики прочно вошли в нашу жизнь. Финансы и спорт, бизнес и социальные сети - практически невозможно найти область, где те или иные количественные характеристики не решали бы много, если не все. Метрики рушат карьеры и возносят на пьедестал, вгоняют в депрессию и сулят золотые горы, могут стать лучшими друзьями или злейшими врагами. Не обошли они стороной и мир информационной безопасности.

 Все больше и больше современных SOC-центров активно внедряют в свою деятельность мониторинг и измерение своей эффективности. Это позволяет быстро выявить и устранить «бутылочные горлышки», оценить качество работы команд по реагированию, определить свои слабые места и составить стратегию развития. И, конечно же, проиллюстрировать свою ценность перед руководством компании, оправдав все вложенные инвестиции.

Читать далее

api2app — быстрое создание графического интерфейса для API

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров19K

Хочу рассказать о своём небольшом проекте с открытым исходным кодом, который создал для своих нужд. Возможно, кому-то он тоже будет полезен или найдутся люди, желающие помочь в его развитии.

При помощи api2app можно быстро создать графический интерфейс для API. Его можно использовать для тестирования или демонстрации работы вашего API. Созданным приложением можно поделиться со всеми желающими или использовать по приватной ссылке.

Читать далее

Графический интерфейс workflow и составные наборы данных

Время на прочтение4 мин
Количество просмотров4.3K

Привет, Хабр! Сегодня поговорим о графическом интерфейсе для работы с составными наборами данных, о том, как он устроен и для чего нужен. Поехали!

Читать далее

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров624

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее

Маленький data-science для большого бизнеса, или В анализ данных со школьной скамьи

Время на прочтение8 мин
Количество просмотров4.3K

Привет, Хабр! В одной из предыдущих статей команда ВТБ обещала подробнее рассказать, как на конкурсе «Большие вызовы» в образовательном центре «Сириус» команда школьников занималась разработкой сервиса геоаналитики для бизнеса. Итак, время пришло, давайте же скорее начинать!

Меня зовут Максим Воля, мне 17 лет, и я один из тех самых школьников, который принял участие в этом конкурсе в составе школьной команды разработки. В статье расскажу, как мы готовились к проекту и создавали его, с какими данными работали, какой стек технологий применяли, с какими сложностями столкнулись и что получилось в итоге. На проекте я был Product-менеджером, также в команду входили Илья Демидов, который занимался машинным обучением, Даниил Ануфриев — компьютерное зрение, Дмитрий Рынин — аналитика, Владислав Секин — фуллстек-разработка. Сейчас подробно все расскажу. Добро пожаловать под кат!

Читать далее

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение9 мин
Количество просмотров6.5K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее

Уникальные стили визуализации данных в Python: от Cyberpunk до элегантности

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров15K

Необычные стили для визуализации данных на Python: от киберпанка до эстетики. В статье рассмотрены 5 малоизвестных стилей для визуализации данных и создания дашбордов.

Читать далее

Простое внедрение аннотаций статистической значимости

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.4K

Привет, Хабр!

Сегодня с вами участница профессионального сообщества NTA Яруллина Ляйсян.

В современном мире визуализация данных используется повсеместно. Она позволяет в сжатые сроки предоставить изображение или видео, описывающее колоссальное количество информации, что делает визуализацию незаменимой в анализе данных.

Но не менее важной в указанном вопросе является статистика. Она позволяет провести качественную обработку данных и сделать выводы на ее основе — без статистической базы графическое представление данных не несет особой ценности. И в наше время океана неподтвержденной информации это куда более серьезная проблема, чем могло бы показаться изначально. Поэтому важно уметь быстро внедрять аннотации статистической значимости в полученную визуализацию и уметь ее расшифровывать.

В последние годы создаются специальные статистические пакеты, которые позволяют реализовать вышеизложенное в жизнь быстро и просто. Например, специально для библиотеки Seaborn, используемой для построения статистических графиков, был создан пакет Statannotations. Он позволяет проводить дополнительные вычисления статистических тестов и добавлять их результаты в виде аннотаций к графикам. Рассмотрю его подробнее и для примера загляну в глубины мозга.

Узнать больше

Статистика на примерах с Python #1

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров21K
Читать далее

Визуализация статистики о том, что и так все знают

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров16K

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям. 

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

Читать далее

Подбор цветов для палитры визуализации данных

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров12K

Для того чтобы упростить восприятие данных в интерфейсе используются инструменты, вроде графиков и диаграмм. Но используя такие элементы практически сразу встает вопрос, а в какие цвета красить тренды графиков и столбики в диаграммах?
Эта статья поможет вам решить эту проблему.

Читать далее

Обратная нормализация (денормализация)

Время на прочтение7 мин
Количество просмотров9.4K

Привет, Хабр!

Нормализация — это процесс организации данных в базе для минимизации избыточности и зависимостей. Она помогает нам избежать аномалий при вставке, обновлении или удалении данных и, конечно, упрощает схему базы данных.

Но, как и все в этом мире, нормализация не идеальна. Иногда она может привести к чрезмерной комплексности и снижению производительности запросов. И здесь бывает полеза обратная нормализация. Если нормализация - это упорядочивание, то обратная нормализация - это некоторое "ослабление" правил для достижения определенных целей. В БД это означает объединение таблиц, добавление избыточных данных и так далее, чтобы ускорить чтение данных и упростить запросы, даже если это идет в ущерб некоторой "чистоте" схемы.

Читать далее

Ближайшие события

Изометрическое Черчение в Inkscape

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров12K

Во время инженерной работы постоянно приходится проектировать заказные детали.

Очевидно, что нужен какой-то векторный редактор для быстрого и простого создания статической графики.

Редакторы 3D черчения как правило платные. При этом есть бесплатные программы для 2D черчения. В некоторой степенью работать на плоскости удобнее, чем теряться в 3D комнате.

В этом тексте представлены приёмы для 3D черчения в 2D редакторе Inkscape.

Читать далее

Создание витрины данных для телеком-оператора средствами Apache Airflow

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров9.8K

Сегодня с вами участница профессионального сообщества NTA Курляндская Владислава.

В современном мире витрины данных становятся неотъемлемой частью любого бизнеса, так как позволяют прогнозировать будущие изменения. В данном посте я рассмотрю процесс создания витрины данных для телеком‑оператора с использованием Apache Airflow.

Читать далее

Агрегатор личных финансов со всех счетов

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров12K

Всем привет!

Примерно год назад мне захотелось проанализировать доходы и расходы со всех своих банковских карт, количество которых начало разрастаться. После ресерча существующих приложений я поняла, что они либо платные, либо нужно ручками вбивать всю информацию. Плюс вопрос сохранения конфиденциальности данных. В этой статье я расскажу про свой мини-проект, как он мне помогает следить за личными финансами и как вы можете покрутить его сами.

Читать далее

Логи из docker compose / docker swarm в Grafana / Loki быстро и просто

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров38K

Хочу показать как развернуть готовый и полностью работающий стек мониторинга Grafana + Loki + Prometheus + Pushgateway + Promtail за пару минут (в прямом смысле этого слова), без необходимости устанавливать на машину дополнительное ПО (плагины docker и плагины логирования) и собирать логи со всех контейнеров машины (или сразу со всех нод, в случае с swarm).

Читать далее

Состязание трех Дедов Морозов: новогодние дашборды на Visiology

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.3K

Привет, друзья! Сегодня уже 31 декабря, все кто еще не нарезал салат — готовятся к нарезке. :) А мы, тем временем, хотим показать вам несколько новогодних красивостей от Visiology и немного поговорить о том, почему BI — это не только данные, но также искусство и даже самовыражение!

Читать далее

Как не про…пустить все дедлайны. Таск-трекер в деле

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров13K

Какие подходы к управлению временем вы сейчас используете? Готовы ли вы сказать, что у вас чёткая система по управлению вашими рабочими задачами?

Я готов сказать — да, и поделиться как это работает у меня вот уже много лет.

Читать далее

Разработка и интерпретация иерархической кластеризации

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.7K

Привет Хабр!

Иерархическая кластеризация является мощным методом анализа данных, позволяющим группировать схожие объекты в кластеры. В этой статье мы рассмотрим процесс разработки и интерпретации иерархической кластеризации, погружаясь в методы создания кластеров и анализа результатов. Мы изучим этот подход, который визуализирует данные в виде дендрограммы, что позволяет наглядно оценить структуру полученных кластеров. Разберем основные шаги этого метода, включая выбор метрик расстояния, выполнение кластеризации и интерпретацию результатов. Давайте вместе углубимся в этот увлекательный мир анализа данных с использованием иерархической кластеризации.

Читать далее