Визуализация данных *

Облекаем данные в красивую оболочку

Статьи Посты Новости Авторы Компании

pvdubinin 26 сен 2023 в 11:00

BI-инструмент от Яндекса DataLens — теперь в опенсорсе

7 мин

43K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureOpen source*Визуализация данных*

✏️ Технотекст 2023

Сегодня мы опубликовали на GitHub под открытой лицензией Apache 2.0 исходный код Yandex DataLens — сервиса для анализа и визуализации данных. Теперь использовать опенсорс-версию DataLens может любой желающий и в любой инфраструктуре.

Меня зовут Павел Дубинин, вместе с Гаджи Гаджиевым мы в Yandex Cloud занимаемся развитием DataLens. Сегодня расскажем, какие задачи он помогает решать разным пользователям, какие возможности открываются с выходом в опенсорс и что можно развернуть у себя прямо сейчас.

+113

R3EQ 3 авг 2022 в 08:24

Исследование и анализ содержимого неизвестной карты памяти

10 мин

31K

Восстановление данных*Визуализация данных*Реверс-инжиниринг*Хранение данных*Накопители

Недавно мой один знакомый подарил мне старую SD карту памяти фирмы «Canon» на 128 МБ, которую нашёл где-то на улице. Её вполне мог кто-нибудь просто выкинуть, так как обычному пользователю ей очень сложно найти применение в современных технических условиях. Объём 128 МБ по нынешним временам считается очень малым, да и в смартфон её не вставишь ввиду большого размера. В основном распространены карты памяти microSD, которые вставляются в большинство смартфонов, но были также ещё и miniSD. Карты памяти малого объёма (MMC 8 МБ, 16 МБ) я встречал лет 20 назад в miniDV видеокамерах. Они там использовалась в качестве дополнительного носителя для сохранения фотографий.

+121

S0mbre 27 янв 2022 в 04:24

Преступность в США и России: сравнительный обзор

11 мин

121K

Python*Открытые данные*Визуализация данных*Инфографика

В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?

🎩🚬🔫 Да

+127

465

bbrandon 6 ноя 2021 в 16:22

Находим аномалии в российской статистике COVID-19

10 мин

54K

Python*Открытые данные*Визуализация данных*Здоровье

Из песочницы

Несмотря на рост заболеваемости covid-19 и горячих споров насчет принимаемых мер, разговоры про достоверность статистики немного поутихли. Кто-то согласен с руководством страны и считает, что с официальными данными все хорошо и они объективно описывают текущую ситуацию. Другие считают, что статистика безбожно врет и показатели, скорее всего, очень сильно занижены.

Последние часто ссылаются на совместное расследование «Медузы», «Медиазоны» и «Холода», которое утверждает, что в реестре Минздрава в 5 раз больше зарегистрированных случаев коронавируса, чем сообщается официально. Само расследование базируется на исследовании Сергея Шпилькина, который ранее с помощью статистических методов доказал фальсификации на выборах. В чем проблема этого исследования?

+154

394

eleweek 16 июн 2021 в 21:29

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

4 мин

27K

Python*Программирование*Алгоритмы*Визуализация данных*Учебный процесс в IT

Представьте человека, который изучает алгоритмы. Чтобы понять как они работают, приходится разбираться в их коде и представлять, как компьютер будет его выполнять. Это странно — почему мы должны учиться думать как компьютер, вместо того, чтобы заставить его помогать нам? Какая-то сильная технозависимость.

На мой взгляд, потеть должна машина, а человек учиться, не выворачивая мозги наизнанку. Поэтому я подумал, а почему бы не визуализировать работу алгоритмов? Визуализации помогли бы не закапываться в код, а наглядно показали бы как работают алгоритмы и позволили бы понять их. Что у меня получилось — читайте в этой статье.

+107

ilusha_sergeevich 5 фев 2021 в 18:03

На фондовом рынке США сформировался пузырь небывалых размеров

13 мин

163K

Открытые данные*Визуализация данных*Венчурные инвестицииСтатистика в ITФинансы в IT

Оценки напрочь оторвались от фундаментального анализа, мультипликаторы находятся на исторических максимумах, скорость эмиссии ценных бумаг зашкаливает — и всё это сопровождается безумно спекулятивным поведением инвесторов. Большой кризис неизбежен.

+209

775

VladFX 18 авг 2020 в 08:35

Аномалии голосования по поправкам к Конституции России. Часть 2

13 мин

29K

Data Mining*Big Data*Открытые данные*Визуализация данных*

Сcылка на первую часть

Основная цель второй части — это детально исследовать феномен массового рисования (выдумывания) результатов голосования на конкретных примерах.

Как и в первой части, все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

+100

263

VladFX 23 июл 2020 в 12:08

Аномалии голосования по поправкам к Конституции России. Часть 1

5 мин

67K

Data Mining*Big Data*Открытые данные*Визуализация данных*

Из песочницы

Общероссийское голосование по вопросу одобрения изменений, вносимых в Конституцию Российской Федерации, проводилось с 25 июня по 1 июля 2020 года (wikipedia).

Основная цель данной заметки — это продемонстрировать как можно быстро начать работать с данными голосования и показать наличие определенного вида аномалий в них.

Все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

+146

387

m-pilipenko 21 апр 2020 в 11:11

Умирает ли RuTracker? Анализируем раздачи

14 мин

235K

Data Mining*R*Визуализация данных*

Технотекст 2020

Из песочницы

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.

Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.

У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.

Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.

Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

Читать дальше →

+183

296

ilusha_sergeevich 18 мар 2020 в 18:40

Коронавирус: как мы себя обманываем

11 мин

692K

Открытые данные*Визуализация данных*Научно-популярноеБиотехнологииЗдоровье

Я прекрасно понимаю, что степень истерии на фоне коронавируса привела общество к конфликту между последователями и отрицателями всеобщей паники. Достаточно острая групповая поляризации не вызывала особого желания излагать свою точку зрения на широкую публику. Но когда меня всюду начали преследовать конспирологические теории и бездумные толкования данных, то я понял, что утешающих аргументов очень мало и решил восполнить их дефицит.

Искажение смертности

Уверен для многих станет откровением факт того, что количество смертей при наличии коронавируса, зафиксированных в ВОЗ, не является числом смертей от коронавируса.

А как вы думали? Новая для человечества инфекция ещё до конца не изучена, но в больнице из пригорода какого-нибудь Ливорно уже умеют определять смерть от неё? Назвать причину смерти - это же не баг при компиляции отловить. Всё гораздо сложнее.

Есть заключительный клинический диагноз. Основное заболевание может включать несколько нозологических форм. Существует понятие конкурирующих заболеваний, которыми одновременно страдал умерший и каждое из которых в отдельности могло привести к смерти.

Есть ещё заключение о причине смерти по результатам патологоанатомического вскрытия, а также случаи его расхождения с заключительным клиническим диагнозом, которые разрешаются экспертной комиссией.

Именно поэтому ВОЗ чёрным по белому пишет:

Определение истинной смертности от COVID-19 требует дополнительного времени. Сегодняшние данные свидетельствуют о том, что общий коэффициент смертности составляет 3–4%, при этом уровень смертности от инфекции будет ниже.

Читать дальше →

+146

1049

five 12 мар 2020 в 05:02

Коронавирус: почему надо действовать прямо сейчас

19 мин

5.6M

Открытые данные*Визуализация данных*Научно-популярноеБиотехнологииЗдоровье

Туториал

Перевод

Вступление

Учитывая всё, что происходит с коронавирусом, может оказаться очень сложно принять решение, что делать прямо сейчас. Стоит ли подождать, пока станет больше информации? Надо ли предпринять что-то уже сегодня? Если да, то что?

В этой статье со множеством графиков, данных и моделей из большого числа источников мы постараемся ответить на вопросы:

Сколько людей заболеют коронавирусом в вашем регионе?
Что случится, когда они начнут заболевать?
Что вы должны делать?
Когда?

Когда вы закончите читать статью, вы придёте к следующим выводам:

Коронавирус приближается к вам.
Он приближается с экспоненциальной скоростью: сперва постепенно, а потом внезапно.
Это вопрос нескольких дней. Может быть, неделя или две.
Когда это случится, ваша система здравоохранения будет перегружена.
Ваши сограждане будут лечиться в коридорах.
Изможденные медицинские работники сломаются. Некоторые погибнут.
Им придётся решать, кто из пациентов получит лечение, а кто умрет.
Единственный способ предотвратить это — социальная изоляция уже сегодня. Не завтра. Сегодня.
Это значит держать как можно больше людей дома, начиная с сегодняшнего дня.

Если вы политик, общественный деятель или руководитель, у вас есть власть и ответственность, чтобы предотвратить описанное выше.

Сейчас вы можете опасаться: что, если это избыточная реакция? Не станут ли люди смеяться надо мной? Вдруг они разозлятся на меня? Не буду ли я выглядеть глупо? Не лучше ли подождать, пока другие сделают первые шаги? Что, если это слишком навредит бизнесу?

Однако через 2-4 недели, когда весь мир будет закрыт и изолирован, когда окажется, что несколько драгоценных дней социальной изоляции, которые вы организовали, спасли жизни, вас больше не будут критиковать. Люди будут благодарить вас за то, что вы приняли правильное решение.

Итак, давайте разбираться.

Много графиков и длинный текст

+456

2074

DmitrySpb79 15 дек 2019 в 16:45

Хабрарейтинг 2019: статистика и рейтинг авторов за 2019 год

7 мин

13K

Программирование*Визуализация данных*Веб-аналитика*Статистика в ITСоциальные сети и сообщества

Привет Хабр.

В первой части была рассмотрена некоторая статистика и опубликован рейтинг статей этого сайта. Во второй части будут рассмотрены другие статистические закономерности этого года, которые мне показались интересными, а также будет опубликован рейтинг авторов за этот, 2019 год.

Первая часть рассчитана на читателей сайта, эта будет более интересна авторам, но и остальные надеюсь, найдут что-нибудь полезное — статьи авторов, попавших в рейтинг, определенно имеет смысл прочитать.

Продолжение под катом.

Читать дальше →

+104

DreamingKitten 8 ноя 2019 в 16:45

Город засыпает, просыпаются хабровчане

4 мин

24K

HabrData Mining*Визуализация данных*

Если количество комментариев под статьёй стремительным домкратом приближается к 1000, будьте уверены — независимо от заявленной автором темы внутри бушует срач: очаги возгорания политоты, окружённые диванными экспертами по всем вопросам, психиатрические диагнозы на расстоянии по аватарке и никнейму, переходы на личности, саркастические выпады, едкость которых превышает таковую у крови ксеноморфов, и, конечно же, обязательное в таких случаях блюдо — взаимные обвинения в том, что ваш визави с вами дискутирует исключительно за вознаграждение и\или по долгу службы. Которая, видимо, и опасна и трудна, и на первый взгляд как будто не видна, а тридцать серебренников на дороге не валяются.

Самое забавное в такой ситуации это то,

Читать дальше →

+193

173

Sakhar 8 окт 2019 в 12:18

Как выглядело бы Московское метро в трехмерном мире

10 мин

105K

Python*Программирование*Визуализация данных*

Из песочницы

UPD: По просьбам в комментах добавляю ссылку на вращабельную схему на Javascript
К сожалению, код javascript вставить в тело поста не удалось
Добрый день! Недавно я читал блог одного урбаниста, который рассуждал о том, какая должна быть идеальная схема метро.Схему метро можно рисовать исходя из двух принципов:

Схема должна быть удобной и простой для запоминания и ориентирования
Схема должна соответствовать географии города

Очевидно, что эти принципы взаимоисключающие и первый принцип требует существенного искажения географической реальности.

Достаточно вспомнить, как выглядит схема Московского метро с красивыми кольцами и прямыми линиями:

Читать дальше →

+148

sqshq 19 авг 2019 в 07:11

Sampler. Консольная утилита для визуализации результата любых shell команд

5 мин

84K

Open source*Программирование*Go*Визуализация данных*DevOps*

В общем случае с помощью shell команды можно получить любую метрику, без написания кода и интеграций. А значит в консоли должен быть простой и удобный инструмент для визуализации.

Наблюдение за изменением состояния в базе данных, мониторинг размера очередей, телеметрия с удаленных серверов, запуск деплой скриптов и получение нотификации по завершению — конфигурируется за минуту простым YAML файлом.

Код доступен на гитхабе. Инструкции по установке — для Linux, macOS и (экспериментально) Windows.

Читать дальше →

+296

analyticsgroup_ru 15 мар 2019 в 09:56

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

6 мин

125K

Data Mining*Brainfuck*Big Data*Визуализация данных*Исследования и прогнозы в IT*

Из песочницы

Кто мы такие и какие были предпосылки проекта?

Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau.

В BI платформах очень важна визуальная составляющая. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ее не будете внедрять, даже если вас устраивает цена и технические характеристики. Исходя из этого рождается необходимость увидеть одни и те же данные в разных аналитических платформах, чтобы можно было сопоставить.

И желательно, чтобы данные были интересными… :-)

Откуда появилась идея сделать этот отчёт?

Несколько лет назад Высшая школа экономики опубликовала статью о формировании цен на услуги девушек низкой социальной ответственности в Москве. Это были агрегированные данные анализа 1.800 анкет. Нам показались интересными данные, которые стоят за этими выводами социологов ВШЭ. И мы решили проработать эту тематику.

Читать дальше →

+107

165

shurik2533 18 дек 2017 в 10:21

Анализ резюме hh.ru: много графиков и немного сексизма и дискриминации

5 мин

100K

Блог компании hh.ruData Mining*Визуализация данных*Исследования и прогнозы в IT*Карьера в IT-индустрии

Недавно мне на глаза попалась статья про анализ датасета резюме hh.ru, который участвовал в каком-то хакатоне. Это навело меня на мысль самому поиграться с данными резюме. Тем более что у меня их немного больше. Я выбрал самую интересную для меня профобласть, которую можно указать в резюме, — «Информационные технологии, интернет, телеком».

Под катом вас ожидает много графиков, на которых вы узнаете, сколько получают люди в различных айтишных специализациях, выпускники каких вузов хотят больше всего денег, у каких работодателей айтишники задерживаются меньше всего, зарабатывают ли пользователи гуглопочты больше, чем пользователи почты Яндекса или Мейла, и много другой информации.

Читать дальше →

+133

154

m1rko 14 июл 2017 в 22:52

Реверс-инжиниринг одной строчки JavaScript

10 мин

47K

Ненормальное программирование*Занимательные задачкиJavaScript*Визуализация данных*Реверс-инжиниринг*

Перевод

Несколько месяцев назад я получил от друга такое письмо:

Тема: Можешь объяснить мне эту одну строчку кода?

Текст: Считай меня тупым, но… я не понимаю её и буду благодарен, если растолкуешь подробно. Это трассировщик лучей в 128 символах. Мне кажется, он восхитительный.

<pre id=p><script>n=setInterval("for(n+=7,i=k,P='p.\\n';i-=1/k;P+=P[i%2?(i%2*j-j+n/k^j)&1:2])j=k/i;p.innerHTML=P",k=64)</script>

Эта строчка JavaScript отрисует анимацию, которая показана на изображении под катом. В браузере она запускается здесь. Скрипт написан автором www.p01.org, где вы можете найти эту и много других классных демок.

+132

Meklon 14 июл 2017 в 08:38

Как мы упоролись и откалибровали кофе-машину на спектрофотометре

7 мин

62K

Ненормальное программирование*Python*Визуализация данных*

Однажды, посреди рабочего дня мы внезапно осознали, что мы больше не можем так жить. Душа требовала совершить что-то бессмысленное и беспощадное во имя науки. И мы решили откалибровать кофе-машину. Нормальные люди тыкают в дефолтную кнопку и пьют все, что вытечет из кофеварки. Чуть более продвинутые для этого открывают инструкцию и тщательно ей следуют. Может быть еще читают рекомендации обжарщика, если конечно это не прогорклые noname зерна, которые пару лет лежали на безымянном складе. Нас к нормальным можно отнести с большой натяжкой, поэтому мы решили идти своим путем. Короче говоря, под легкой кофеиновой интоксикацией от седьмой чашки эспрессо мы решили задействовать весь возможный арсенал лаборатории, чтобы получить эталонный напиток.

Добро пожаловать в мир безумия, ультрацентрифуг, спектрофотометрии кофе в специальных планшетах и небольшого количества python, pandas и seaborn, чтобы визуализировать все это безобразие.

+178

132

varagian 3 фев 2016 в 13:04

Хабра-граф, -сообщества и куда же делась вся карма

7 мин

29K

Data Mining*Big Data*Математика*Визуализация данных*

Вступление

Cегодня мы вместе с анализом графов, data mining, subgroup discovery и всеми веселыми штуками взглянем на Хабр. Весь код и данные прилагаются — каждый может взглянуть на них самостоятельно, легко повторить рассчеты из статьи и найти что-то интересное самостоятельно.

(это не просто картинка для привлечения внимания, а — граф связей ~45000 пользователей Хабра по тому, кто на кого подписан; размер вершины пропорционален числу подписчиков; все картинки кликабельны; подробности далее)

Обсуждаемые проблемы возникли, конечно же, далеко не вчера, но некоторые их аспекты кажутся мне достаточно новыми и поэтому достойными дискуссии, основанной на непредвзятых и репрезентативных данных. Например в комментариях этой статьи, увидел интересное утверждение:

Тут проблема в том, что на всем хабре за сегодня не насчитать больше 50-80 человек, которые вообще могут голосовать. У 90% пользователей карма просто ниже 5. Как итог оценивают комментарии и статьи только избранные. Это как жюри выходит такое.

И решил, что стоить его сформулировать в виде гипотезы и проверить:

Q1: Правда ли, что Хабр превратился в жюри-based сообщество, где два с половиной человека голосуют за статьи?

Вот в этой статье к нам вернулись "железные" Хабы и стало интересно, а как вообще представлены разные сообщества внутри Хабра? Формулируем в виде гипотезы:

Q2: Как сегментировано сообщество, или проще говоря сколько у нас здесь групп по интересам и соотвествуют ли они имеющимся хабам?

Последнее, но не менее интересное наблюдение, что активность на Хабре упала (по данным Хабра-пульса и моим субъективным наблюдениям), что даже решили ввести аккаунты "read & comment". Поэтому решил оценить активность сообщества и продумать, как информация о структуре сообщества может нам помочь:

Q3: Насколько активно сообщество и как нам может помочь структура внутренних групп?

За подробностями добро пожаловать под кат.

Структура статьи

Читать дальше →

+160

238

Визуализация данных *

BI-инструмент от Яндекса DataLens — теперь в опенсорсе

Новости

Исследование и анализ содержимого неизвестной карты памяти

Преступность в США и России: сравнительный обзор

Находим аномалии в российской статистике COVID-19

Истории

Как я пытался придумать новый подход к изучению алгоритмов через интерактивные визуализации

На фондовом рынке США сформировался пузырь небывалых размеров

Аномалии голосования по поправкам к Конституции России. Часть 2

Аномалии голосования по поправкам к Конституции России. Часть 1

Умирает ли RuTracker? Анализируем раздачи

Коронавирус: как мы себя обманываем

Искажение смертности

Коронавирус: почему надо действовать прямо сейчас

Вступление

Хабрарейтинг 2019: статистика и рейтинг авторов за 2019 год

Город засыпает, просыпаются хабровчане

Ближайшие события

Как выглядело бы Московское метро в трехмерном мире

Sampler. Консольная утилита для визуализации результата любых shell команд

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Кто мы такие и какие были предпосылки проекта?

Откуда появилась идея сделать этот отчёт?

Анализ резюме hh.ru: много графиков и немного сексизма и дискриминации

Реверс-инжиниринг одной строчки JavaScript

Как мы упоролись и откалибровали кофе-машину на спектрофотометре

Хабра-граф, -сообщества и куда же делась вся карма

Вступление

Вклад авторов