Обновить
46.28

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Визуальное представление разложения числа на множители с помощью тригонометрических функций

Время на прочтение2 мин
Охват и читатели5.7K

В статьях по разложению числа на целые множители для иллюстрации чаще всего используются деревья. Это удобно и наглядно. Существует менее очевидный способ. Он имеет свои недостатки, возможно потому и не так популярен. Но, может будет кому-то интересен.

Как можно показать разложение на множители

Легкие обновления

Время на прочтение2 мин
Охват и читатели1.9K
Напоследок немного новостей о «смотрелке» для логов chipmunk. Ничего особенного, никаких кардинальных изменений или же заметных фитч, а скорее работа над ошибками, да и просто хочется сказать пару слов о прошедшем, настоящем и будущем.
Читать дальше →

Дата-инжиниринг в превосходных условиях

Время на прочтение9 мин
Охват и читатели4.6K

Привет, Хабр!

Меня зовут Артемий, я занимаюсь дата-инжинирингом в команде аналитики Wheely. А конкретнее — построением аналитических решений, начиная с основ и до конечного результата: подключение источников, очистка и трансформация данных, организация хранилища и детального слоя, формирование витрин и дашбордов. 

В этом посте я сделал верхнеуровневый обзор решений, подходов и фреймворков, которые мы используем для развития Wheely: оптимизации операционной деятельности, построения отчетности, планирования и проверки гипотез. И еще немного похвастаться (куда без этого), потому что инструменты, которые мы используем в Wheely, сегодня набирают большую популярность на Западе, но в России пока далеко не каждая компания готова их адаптировать.

Читать далее

Что под капотом у BI? Детальный разбор технологии In-Memory OLAP

Время на прочтение15 мин
Охват и читатели16K
Привет, Хабр! Меня зовут Иван Вахмянин, и сегодня я хочу рассказать о том, что находится “под капотом” у современной BI-системы, от чего зависит ее производительность (и как можно её ненароком убить), и какие технические оптимизации позволяют технологии In-Memory OLAP выигрывать по скорости у других подходов.


Читать дальше →

Моя музыка 2020 года в картинках и графиках

Время на прочтение7 мин
Охват и читатели13K

Я взял плейлист «Мой 2020», который сделала Яндекс-музыка, добавил туда немного метаданных о песнях, а потом посчитал статистику и узнал, какие у меня любимые группы и жанры, песни каких лет мне больше всего нравятся и какие слова встречаются в текстах наиболее часто. Нарисовал результаты на графиках, а ещё оформил статью так, как будто это серьёзное исследование. Помогали мне язык программирования R с пакетами ggplot2, tm и wordcloud2.

Узнать результаты исследования

Разбираемся, безопасно ли стрелять по проду и чем полезны дашборды

Время на прочтение2 мин
Охват и читатели2.6K
На подходе полезные видео с конференции ЮMoneyDay от специалистов по тестированию. Если заглянете под кат, то узнаете:

  • какие задачи помогают решить исследования производительности на продакшене, и как их результаты влияют на развитие крупного платежного сервиса.
  • как команда интеграционного тестирования использует дашборды и какую пользу можно получить от такого инструмента.



Читать дальше →

CoinRoad: Как мы сделали приложение на базе кастомных пушей в Android

Время на прочтение4 мин
Охват и читатели6K

Я хочу рассказать вам об интересном и в некотором смысле новом способе взаимодействия с пользователем – кастомных пушах в Android.

Именно его мы использовали как основу своего мобильного приложения CoinRoad для отображения графиков и котировок криптовалют на биржах в режиме реального времени в виде обновляемых в фоне пушей, которые продолжают работать даже после закрытия приложения.

Скачать из Google Play

Подробнее

Хабрарейтинг 2020: Авторы vs Корпоративные Блоги

Время на прочтение3 мин
Охват и читатели5.6K
Привет, Хабр.

Наверное, практически все постоянные читатели и авторы сайта знают, что статьи здесь на сайте могут публиковаться как индивидуальными авторами, так и корпоративными аккаунтами. Невольно возникает «детский» вопрос — какие лучше? Какие статьи получают больше оценок и комментариев? К чему ближе корпоративные блоги — к надоедливой рекламе, которую можно лишь пролистать, или к полезной информации? Попробуем разобраться.

Для тех кому интересно, продолжение под катом.
Читать дальше →

Хабрарейтинг 2020: статистика и рейтинг лучших статей за 2020 год

Время на прочтение9 мин
Охват и читатели30K
Привет, Хабр.

Заканчивается 2020 год, а значит, настало время подвести статистические итоги и составить уже традиционный рейтинг лучших статей Хабра за этот год. Этот рейтинг не является официальным, данные собираются парсером с помощью Python. Сортируя данные по тем или иным параметрам, можно получать разные выборки, что на мой взгляд, даёт довольно неплохие результаты. Для читателей также может быть интересно перечитать какие-то статьи, которые они пропустили в течении года.



Поехали.
Читать дальше →

Как разработать BI-платформу — наш трудный, но интересный опыт

Время на прочтение18 мин
Охват и читатели11K

Привет, Хабр! Меня зовут Иван Вахмянин, я – один из сооснователей компании Visiology. Мы разрабатываем и развиваем одноименную аналитическую платформу, и теперь будем делиться нашим опытом, открытиями и интересными историями с вами. Это наш первый пост, и мы начнем с откровенного рассказа, как мы создавали компанию и саму корпоративную BI-платформу Visiology — без купюр, со взлетами и падениями. Если вам интересны реалии пути от стартапа до зрелой софтверной компании или тема Business Intelligence в целом — добро пожаловать под кат!

Читать далее

Мы скачали 10 миллионов Jupyter-ноутбуков с Github — и вот что мы выяснили

Время на прочтение4 мин
Охват и читатели14K

Привет, Хабр! 

На связи команда Datalore by JetBrains. Хотим поделиться с вами результатами анализа нескольких миллионов публично доступных репозиториев Github с Jupyter-ноутбуками. Мы скачали ноутбуки, чтобы немного больше узнать в цифрах о текущем статусе, пожалуй, самого популярного инструмента для data science.

Читать далее

Как я анализировал свои поездки на такси

Время на прочтение4 мин
Охват и читатели9.3K

Всякий раз, как я езжу на такси мне на почту приходит отчет о поездке с разной информацией. В частности они содержат дату, время поездки, модель автомобиля и ФИО водителя. Меня посетила идея - проанализировить отчеты от яндекс такси и вытащить из них максимум интересной информации. Вам наверняка тоже всегда было интересно сколько раз вы ездили на одной и той же машине ил сколько раз вас возил один и тот же водитель?

Задача, которая здесь описана может быть хорошим упражнением для начинающих аналитиков. Тут будет всё: и python c pandas и парсинг HTML и регулярные выражегия и базы данных c SQL.

Читать далее

Как облегчить жизнь маркетологу: новый self-service инструмент для работы c данными

Время на прочтение3 мин
Охват и читатели2K

Привет, Хабр! Мы тут начали разбираться с нашим новым облачным сервисом SAP Data Warehouse Cloud и хотим поделиться, для чего он будет полезен. Если вам интересно поразбираться в задачах для аналитического маркетинга и как начать принимать эффективные решения на анализе данных, продолжайте читать :)

Читать далее

Ближайшие события

Бесполезный паттерн в полярных координатах, открывающий полезное свойство простых чисел

Время на прочтение2 мин
Охват и читатели22K
Началось всё с обсуждение на математическом StackOverflow: Meaning of Rays in Polar Plot of Prime Numbers
«Недавно я начал экспериментировать с gnuplot и быстро сделал интересное открытие. Я построил все простые числа ниже 1 миллиона в полярных координатах, так что для каждого простого p (r, θ) = (p, p). Ничего особенного не ожидал, просто пробовал. Результаты впечатляют».

image

Если посмотреть на простые числа ниже 30000, можно увидеть спиральный узор.

Как трансформировать предприятие с помощью собственной методики и интеграционной платформы

Время на прочтение13 мин
Охват и читатели4.4K
image

Во все времена для предприятия, разрабатывающего и производящего технически сложные изделия, необходимо было организовать в равной степени и инженерные, и управленческие процессы, на всём жизненном цикле изделия. Без должной организации таких процессов невозможно вывести изделие на рынок в разумные сроки и с разумной себестоимостью.
Читать дальше →

Визуализация данных по акциям дивидендных аристократов США в формате веб-приложения

Время на прочтение8 мин
Охват и читатели5.1K

В этой статье я поделюсь некоторым опытом на простом примере. Мне повезло проработать в Банке в течение пяти лет в качестве руководителя направления, аналитика, математика, где-то программиста и т.п. Прямым текстом рассказывать о своей работе в Банке не могу, так как какие-то сведения могут быть конфиденциальными, а что-то рассказывать может быть просто неэтично или неправильно. Поэтому изложу свои взгляды и опыт на почти игрушечном примере.


Пример смотрите по ссылке https://www.emarkoff.com/dividend_aristocrats_sp500/



Читать дальше →

Визуализация Пи, Тау и простых чисел

Время на прочтение10 мин
Охват и читатели8.8K


источник изображения


Возможно, вы видели предыдущий пост, где были предоставлены визуализации первых 1000 цифр $\pi, \tau$ и $\sqrt{2}$. Он возник в результате небольшого спора о том, лучше ли $\tau$, чем $\pi$. По этому поводу идут бесконечные дебаты, и я подумал, что могу пошутить по этому поводу. В этом посте я хочу показать, как создать визуализации, и надеюсь, что вы захотите попробовать удивительный пакет Luxor.jl после прочтения. Вчера я начал читать туториал, и это потрясающе! В прошлый раз визуализация делалась на Javascript, и я подумал, что этот аккуратный маленький проект сойдет, чтобы начать изучать Луксор. Как уже упоминалось в let me be your mentor: я думаю, что очень важно иметь такие маленькие проекты, чтобы освоить новый инструмент.

Читать дальше →

Что не так с коронавирусной статистикой?

Время на прочтение2 мин
Охват и читатели10K
image

Вообще-то, известно, что с ней не так — она радикально не согласуется с показателями избыточной смертности (если говорить о России).

Но здесь речь о другом — о том, что подаваемые показатели совершенно не удобны для анализа и даже способствуют искажению реальной картины эпидемии.

Если я хочу оценить риск переезда из региона А в регион B, то мне надо будет разделить абсолютные цифры (повсеместно сообщаемые) на население регионов.

Или — рост числа зараженных в процентах, который учитывает всю историю пандемии. Если в начале процесса 100 человек при 1000 человек накопленных означает 10% роста за день, то в дальнейшем 1000 инфицированных в день при общем числе заражений 100000 образуют всего 1%, но интенсивность заражений отнюдь не уменьшилась в 10 раз, а увеличилась!

Также и с летальностью — если рассчитывать ее за весь период пандемии, то совершенно не понятна текущая ситуация.

Уставший от мыслей типа «вчера большие, но по пять...», я создал сайт RusCovid.com.
Читать дальше →

Thank you points: сетевой анализ социальных связей внутри DataArt

Время на прочтение5 мин
Охват и читатели2.6K


Святослав Зборовский из BI-команды DataArt изучил, кого из коллег чаще всего благодарят с помощью корпоративной системы. В статье для Хабр он рассказал, как быстро построить и оптимизировать граф и какие кластеры ему удалось на нем выделить.
Читать дальше →

Генератор диаграмм таблиц ClickHouse для PlantUML

Время на прочтение4 мин
Охват и читатели6.3K

Когда появляется необходимость документировать схемы баз данных, разные DBMS предоставляют свои инструменты для подобных задач. И большинство из них поддерживает DESC table_name, в том числе и ClickHouse. Однако, результат этой команды не столь выразителен, как хотелось бы.


DESCRIBE TABLE data_lr

name        type      default_type   default_expression   comment   codec_expression   ttl_expression
Path        String                                                  ZSTD(3)
Value       Float64                                                 Gorilla, LZ4
Time        UInt32                                                  DoubleDelta, LZ4
Date        Date                                                    DoubleDelta, LZ4
Timestamp   UInt32                                                  DoubleDelta, LZ4

При этом, системные таблицы tables и columns содержат исчерпывающую информацию, объединив которую, можно получить вот такой симпатичный результат:


Читать дальше →