Обновить
48.77

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Изменение климата: анализируем температуру в разных городах за последние 100 лет

Время на прочтение4 мин
Охват и читатели60K
Привет, Хабр.

Про изменение климата сейчас не говорит только ленивый. И случайно найдя неплохой сайт с историческими данными, стало интересно проверить — как же реально менялась температура с годами. Для теста мы возьмем данные с нескольких городов и проанализируем их с помощью Pandas и Matplotlib. Заодно выясним, действительно ли челябинские морозы настолько суровы, и где теплее, в Москве или Петербурге.



Также обнаружилось еще несколько любопытных закономерностей. Кому интересно узнать подробности, прошу под кат.
Читать дальше →

Руководство по Discovery.js: быстрый старт

Время на прочтение10 мин
Охват и читатели8.3K

Это и последующие руководства проведут вас через процесс создания решения на основе проекта Discovery.js. Наша цель — создать инспектор NPM-зависимостей, то есть интерфейс для исследования структуры node_modules.



Примечание: Discovery.js находится на ранней стадии разработки, поэтому со временем что-то будет упрощаться и становиться полезнее. Если у вас есть идеи, как можно что-то улучшить, напишите нам.

Аннотация


Ниже вы найдёте обзор ключевых концепций Discovery.js. Изучить весь код руководства можно в репозитории на GitHub, или можете попробовать как это работает онлайн.

Читать дальше →

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Время на прочтение39 мин
Охват и читатели487K
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.



Встретимся «внутри»!
Читать дальше →

Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 4: Youtube-канал

Время на прочтение4 мин
Охват и читатели3.2K
Легко посчитать, сколько трафика пришло с ютуб-канала. К примеру, зайти в счетчик Яндекс Метрики или Google Analytics. А вы попробуйте узнать, что происходило с вашим видео на канале. Кто его посмотрел, кто добавил в фавориты, а кто дислайкнул. Вот для выгрузки таких данных и потребуется скрипт на Python.


Динамика Youtube-активностей
Читать дальше →

Проектирование дашбордов для веб-аналитики e-commerce сайта. Часть 3: SEO-канал

Время на прочтение5 мин
Охват и читатели4.6K
В этой статье соберем дашборд для аналитики SEO-трафика. Данные будем выгружать через скрипты на python и через .csv файлы.

Что будем выгружать?


Для аналитики динамики позиций поисковых фраз потребуется выгрузки из Яндекс.Вебмастера и Google Search Console. Для оценки «полезности» прокачивания позиции поисковой фразы будут полезны данные о частотности. Их можно получить из Яндекс.Директа и Google Ads. Ну а для анализа поведения технической стороны сайта воспользуемся Page Speed Insider.


Динамика SEO-трафика
Читать дальше →

Самодельное беспроводное автономное управление инсулиновой помпой

Время на прочтение6 мин
Охват и читатели10K
«Я теперь киборг!» — гордо заявляет австралиец Лиам Зибиди, молодой программист, blockchain/Fullstack engineer и писатель, как он преподносит себя на страницах своего блога. В начале августа он завершил свой DIY-проект по созданию носимого устройства, которое он без ложной скромности окрестил «искусственной поджелудочной железой». Речь скорее идет о саморегулируемой инсулиновой помпе, и наш киборг в некоторых аспектах своего творения не искал легких путей. Подробнее о концепции устройства и open source технологиях, на которые он опирался — далее в статье.

imageиллюстрации за исключением схемы устройства взяты из блога Лиама
Читать дальше →

Визуализация больших графов для самых маленьких

Время на прочтение12 мин
Охват и читатели65K


Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать дальше →

BI: 6 трендов в сфере бизнес-аналитики

Время на прочтение8 мин
Охват и читатели29K
Технологии BI применяются бизнесом уже не один десяток лет. Однако сегодня с развитием облачных технологий, BigData и машинного обучения BI выходит на новый уровень. К чему это ведет и какими станут практики BI в ближайшие годы — читайте в нашем посте. Под катом — немного истории, актуальные тренды и результаты исследований.

Источник
Читать дальше →

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

Время на прочтение5 мин
Охват и читатели20K
Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа


  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных


После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошенных программистов: \n \
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))


Читать дальше →

Time series данные в реляционной СУБД. Расширения TimescaleDB и PipelineDB для PostgreSQL

Время на прочтение21 мин
Охват и читатели77K
Time series данные или временные ряды — это данные, которые изменяются во времени. Котировки валют, телеметрия перемещения транспорта, статистика обращения к серверу или нагрузки на CPU — это time series данные. Чтобы их хранить требуются специфичные инструменты — темпоральные базы данных. Инструментов — десятки, например, InfluxDB или ClickHouse. Но даже у самых лучших решений для хранения временных рядов есть недостатки. Все time series хранилища низкоуровневые, подходят только для time series данных, а обкатка и внедрение в текущий стек — дорого и больно.



Но, если у вас стек PostgreSQL, то можете забыть о InfluxDB и всех остальных темпоральных БД. Ставите себе два расширения TimescaleDB и PipelineDB и храните, обрабатываете и проводите аналитику time series данных прямо в экосистеме PostgreSQL. Без внедрения сторонних решений, без недостатков темпоральных хранилищ и без проблем их обкатки. Что это за расширения, в чем их преимущества и возможности, расскажет Иван Муратов (binakot) — руководитель отдела разработки в «Первой Мониторинговой Компании».

Алгорейв: как программисты устраивают вечеринки

Время на прочтение5 мин
Охват и читатели16K

Источник

Разработчики будущего пишут не просто код — они создают алгоритмический рейв. Алгорейв — это написание и использование алгоритмов, генерирующих танцевальную музыку в режиме реального времени перед физически присутствующей аудиторией.

Генеративная музыка — явление не новое. Известно, что даже нейросеть способна создавать музыку, которую сложно отличить от творчества талантливого композитора. Однако алгорейв имеет свои отличительные особенности.

Если работа традиционного диджея строится вокруг правильного сведения треков (конечно, если он не крутит с флешки готовый микс), то алгорейверы импровизируют, допускают и исправляют ошибки прямо во время представления. При этом лайвкодеры транслируют происходящее на экране ноутбука.

Облако точек. Как мы развиваем цифровые технологии в строительстве

Время на прочтение6 мин
Охват и читатели12K
Возможно, вы в курсе, а может быть и нет, но мы плотно занимаемся разработкой технологий Индустрии 4.0. IoT, машинное обучение на реальном производстве, цифровые двойники предприятий – со всеми этими вещами мы знакомы не понаслышке. Другими словами, мы знаем, как подружить «цифру» с брутальным тяжёлым машиностроением или нефтедобычей.

Но сегодня мы хотим рассказать о чуть менее героических разработках для не менее суровой строительной отрасли. Мы решили озаглавить свой рассказ «Облако точек», и совсем скоро вы поймёте, почему именно так.
Читать дальше →

Новые карты CUBA

Время на прочтение10 мин
Охват и читатели3.8K

maps


Работа с геопространственными данными и отображение карт являются неотъемлемыми составляющими множества бизнес-приложений. Это могут быть городские и региональные информационные системы, приложения для нефтегазовой отрасли, системы управления транспортной инфраструктурой, а также службы доставки и многие другие. У нас в CUBA Platform для построения подобных приложений помимо базовых возможностей, предоставляемых из коробки, существует довольно обширный набор дополнений и компонентов. Одним из них является Charts and Maps, которое помимо отображения графиков позволяет интегрировать в визуальную часть приложения Google-карты. В прошлом году Google обновил условия использования своих картографических сервисов, что повлекло за собой рост стоимости, а также ввел условие обязательного наличия платежного профиля для использования API. Эти обстоятельства заставили большинство наших клиентов задуматься об альтернативных поставщиках карт, а нас подтолкнули к разработке нового компонента карт.

Читать дальше →

Ближайшие события

Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером]

Время на прочтение4 мин
Охват и читатели7.7K
Как собрать когорты пользователей в виде графиков в Grafana [+docker-образ с примером]

Как мы решили задачу визуализации когорт пользователей в сервисе Promopult c помощью Grafana.


Promopult — мощный сервис с большим числом пользователей. За 10 лет работы число регистраций в системе перевалило за миллион. Те, кто сталкивался с подобными сервисами, знают, что этот массив юзеров далеко не однороден.


Кто-то зарегался и «уснул» навеки. Кто-то забыл пароль и зарегался еще пару раз за полгода. Кто-то несет деньги в кассу, а кто-то пришел за халявными инструментами. И хорошо бы с каждого получить некий профит.


На таких больших массивах данных, как у нас, анализировать поведение отдельного юзера и принимать микро-решения бессмысленно. А вот отлавливать тренды и работать с большими группами — можно и нужно. Что мы, собственно, и делаем.

Читать дальше

UX Резюме: Перезагрузка

Время на прочтение6 мин
Охват и читатели12K
Практически у каждого из вас есть резюме, не так ли? Так как это важная часть вашего основного набора инструментов используемого при поиске работы, точно такая же, как и портфолио (если у вас еще есть проблемы с этим — то вам сюда). Однако, уверены ли вы, что оно проходит через элементарные автоматические проверки при подаче заявки на вакансию своей мечты?



Читать дальше →

Как визуализировать звук в вебе: подборка тематических материалов и видеолекций с теорией и практикой

Время на прочтение3 мин
Охват и читатели6.2K
В прошлый раз мы подготовили для вас дайджест с открытыми библиотеками для визуализации аудиоконтента и решили найти материалы о том, как со всем этим работать. Получилась подборка руководств по теме для разработчиков веб-приложений или игр.

Sampler. Консольная утилита для визуализации результата любых shell команд

Время на прочтение5 мин
Охват и читатели89K

В общем случае с помощью shell команды можно получить любую метрику, без написания кода и интеграций. А значит в консоли должен быть простой и удобный инструмент для визуализации.


Sampler


Наблюдение за изменением состояния в базе данных, мониторинг размера очередей, телеметрия с удаленных серверов, запуск деплой скриптов и получение нотификации по завершению — конфигурируется за минуту простым YAML файлом.


Код доступен на гитхабе. Инструкции по установке — для Linux, macOS и (экспериментально) Windows.

Читать дальше →

Умер нобелевский лауреат Кэри Муллис — изобретатель полимеразной цепной реакции ДНК

Время на прочтение6 мин
Охват и читатели15K
В Калифорнии в возрасте 74 лет умер американский нобелевский лауреат по химии Кэри Муллис. По словам его супруги, смерть наступила 7 августа. Причина — сердечная и дыхательная недостаточность из-за пневмонии.

О том, какой вклад он внес в биохимию и за что получил Нобелевскую премию, нам расскажет сам Джеймс Уотсон — первооткрыватель молекулы ДНК.

Отрывок из книги Джеймса Уотсона, Эндрю Берри, Кевина Дэвиса

ДНК. История генетической революции


Глава 7. Геном человека. Сценарий жизни


Читать дальше →

Портфолио UX-дизайнеров: лучшие практики

Время на прочтение6 мин
Охват и читатели37K
Сегодня мы хотим поделиться мыслями о том, что необходимо для создания хорошего портфолио UX-дизайнера.

Представим, что Вам необходимо портфолио, чтобы получить заказ на UI/UX работу. Если Вы лишь начинаете работать в этой сфере или взяли достаточно большой перерыв в своей работе, то это может стать настоящим шоком. Даже если у Вас есть портфолио, может быть интересно, сделает ли оно всё возможное от того, что может. На этот счёт, у нас есть некоторые мысли на тему портфолио дизайна – как сделать его целостным и извлечь из него максимальную пользу и выгоду.
Читать дальше →

Построение поведенческих воронок на языке R, на основе данных полученных из Logs API Яндекс.Метрики

Время на прочтение19 мин
Охват и читатели6.9K

Анализ воронки продаж — типичная задача для интернет маркетинга, и в частности электронной коммерции. С её помощью вы можете:


  • Выяснить на каком из шагов к покупке вы теряете потенциальных клиентов.
  • Моделировать объём дополнительного притока выручки, в случае расширения каждого шага на пути к покупке.
  • Оценить качество трафика закупаемого на различных рекламных платформах.
  • Оценить качество обработки входящих заявок по каждому из менеджеров.

В этой статье я расскажу о том, как на языке R запрашивать данные из Logs API Яндекс Метрики, строить и визуализировать на их основе воронку.


Одно из основных преимуществ языка R заключается в наличии огромного количества пакетов, расширяющих его базовый функционал. В данной статье мы рассмотрим пакеты rym, funneljoin и ggplot2.


С помощью rym мы загрузим данные из Logs API, funneljoin используем для построения поведенческой воронки, а с помощью ggplot2 визуализируем полученный результат.


image

Читать дальше →