Обновить
47.78

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Безумные логи

Время на прочтение5 мин
Охват и читатели17K
Утром, не сделав и глотка кофе, открываешь почту и видишь баг репорты по тому, что вполне себе нормально работало, не сбоило и особо не беспокоило. Идей с ходу ноль, подозреваемых нет, больших изменений в коде тоже не было — нужно лезть в логи.

А туда ты не ходил так давно, что раздало файл с логами аж до 100 мб. или до 500 мб. Черт! А может и до 10 Гб (*). И лежат драгоценные улики где-то там среди 10 737 418 240 байтов, что надо срочно пробежать, дабы выяснить, что ж вообще происходит, меж тем как кофе уже остывает.

А может к рапорту прицепом шёл и архив с двумя сотнями файлами (скажем по 5 Мб каждый) разбитых логов и надо их как-то клеить, а потом смотреть, копать и думать.

Знакомо?

В общем все мы так или иначе сталкиваемся с необходимостью анализа «следов жизнедеятельности» наших творений и хорошо если файл весит пару Мб, потому как открыть лог в 1 Гб блокнотом, да ещё и попытаться поиск сделать — занятие весьма сомнительное.

Под катом поведаю об одном инструменте, не имеющим лимитов (**) по размерности открываемых файлов, зато обладающим весьма шустрым поиском.

А ещё приглашу к разработке присоединиться.

И да, будет много интересных картинок.
Читать дальше →

Плоды изоляции: интерактивная карта COVID-19 с историческими графиками и миграционными ограничениям

Время на прочтение5 мин
Охват и читатели9.1K

image


Три недели назад мы с командой в Routitude переключились с наших привычных задач на создание сервиса для мониторинга распространения вируса COVID-19. За это время мы реализовали:


  • дашборд с регулярно обновляющимися данными для всех стран (а также административных субъектов России и штатов США);
  • интерактивную карту распространения инфекции;
  • карту миграционных ограничений, введенных в связи с эпидемией;
  • исторические графики развития эпидемии по каждой стране.

Все это было добавлено к уже существующей информации по визовым ограничением, климатическим показателям и данным по авиаперелетам.


Результат нашей работы можно посмотреть здесь: routitude.com/map/covid, а детали о том как все устроено — под катом.

Читать дальше →

[Инфографика] Визуализация пандемий в истории человечества

Время на прочтение7 мин
Охват и читатели53K


Инфекционные заболевания распространялись по планете вместе с людьми. Даже в современную эпоху вспышки происходят практически постоянно, хотя не каждая вспышка достигает пандемического уровня, как это происходит с новым коронавирусом (COVID-19).

Сегодняшняя визуализация обрисовывает в общих чертах некоторые из самых смертоносных пандемий в истории, от чумы Антонина до сегодняшних событий с COVID-19.
Читать дальше →

Коронавирус: опасная иллюзия смертности

Время на прочтение12 мин
Охват и читатели1M
Безответственная пресса начинает заполнять наше информационное поле новостями о погибших от коронавируса, хотя таких сведений не озвучивает ни лечащий врач, ни ВОЗ. Из-за своей невнимательности журналисты де-факто самостоятельно называют причины смерти. И эта маленькая неточность в формулировке имеет колоссальное значение для общества. Сегодня крайне важно не путать общую смертность людей с подтверждённым коронавирусом и смертность непосредственно от коронавируса.

Все мы видели пугающие цифры среди погибших с положительным тестом на Covid-19. Но высокий процент смертности, который мы наблюдаем — есть иллюзия, ибо в большинстве своём мы смотрим на естественную смертность, которая случилась бы и без заражения, поскольку причиной стало что-то другое. То есть смертность от инфекции как бы умножается на естественную, и мы лицезреем результат этого умножения, хотя нам надо смотреть на частное.

Говоря иносказательно, день смерти для каждого предопределён и множество людей с коронавирусом, ушедших в мир иной, умерли бы в любом случае. Мы не узнаем их количество, но можем посчитать риски, опираясь на теорию вероятностей. Для этого нам надо сопоставить общую смертность со смертностью при наличии инфекции.

В своей предыдущей статье «Коронавирус: как мы себя обманываем» я уже демонстрировал разницу между смертностями на примере демографических данных Италии по одной возрастной группе. А сейчас я хочу поделиться свежим графиком Дэвида Шпигельхальтера, именитого статистика из Университета Кембриджа. В его распоряжении был полный объём данных по Великобритании от Имперского колледжа Лондона.

Таблица с данными + те же значения на логарифмической шкале
Читать дальше →

pipeplot — интерактивная визуализация потока данных из pipe в консоли

Время на прочтение1 мин
Охват и читатели2.6K
Для тех, кто не хочет покидать консоль, любит её ascii-графику, появилась утилита для отрисовки графиков из pipe. Под катом анимация и примеры.
Читать дальше →

Расчеты по банковским картам в торговле — создание открытого датасета и инфографики в Google Data Studio

Время на прочтение3 мин
Охват и читатели1.9K
Это моя первая публикация на Хабре. Я интересуюсь и отчасти практикую дата-журналистику и хотел бы поделится с вами инфографикой, иллюстрирующую расчеты по банковским картам в торговле. А также расшарить открытый датасет в Data.World, и рассказать о создании этого проекта.

Итак, итоговая инфографика:



Ссылка на тот же отчет в гораздо более интересном интерактивном виде
Ссылка на открытый датасет (требуется регистрация на Data.World).

Кстати, к сожалению, не удалось встроить отчет в публикацию на Хабре ни через iframe, ни через тег oembed.
Читать дальше →

Проектирование в Confluence

Время на прочтение8 мин
Охват и читатели120K
Всем привет!

Меня зовут Маша, я работаю инженером по обеспечению качества в группе компаний Тинькофф. Работа QA предполагает множество коммуникаций с разными людьми из разных команд, а я к тому же была менеджером и лектором образовательных программ, поэтому моя карта коммуникаций была максимально широкой. И в какой-то момент я взорвалась: я поняла, что больше не могу, не могу, не могу заполнять адовые тонны нечитаемых таблиц и документов.



Читать дальше →

40 лет анализа больших объёмов данных в Физике Высоких Энергий: интервью с Рене Браном

Время на прочтение13 мин
Охват и читатели3.9K
За 40 лет своей карьеры в ЦЕРН (Международная Лаборатория Ядерных Исследований расположенная в Женеве) Рене Бран (Rene Brun) разработал ряд программных пакетов, которые стали широко использоваться в Физике Высоких Энергий. За этот фундаментальный вклад он был недавно награжден специальным призом Отделения Физики частиц Высоких Энергий Общества Европейской Физики (EPS). Мы поговорили с ним о ключевых событиях этой истории.

image
Читать дальше →

Продуктовый аналитик: что делает, сколько зарабатывает, какую пользу несёт бизнесу

Время на прочтение12 мин
Охват и читатели105K
Продуктовый аналитик — мостик между бизнесом и данными. Он работает рука об руку с продакт-менеджером и помогает продуктовой команде принимать верные решения. Автор Нетологии Денис Вихарев рассказывает, что такое продуктовая аналитика, почему продуктовые аналитики ценятся в бизнесе, кто может стать продуктовым аналитиком, о его задачах, зарплате, об инструментах.
Читать дальше →

Поиск и устранение проблем в Postgres с помощью pgCenter. Алексей Лесовский

Время на прочтение23 мин
Охват и читатели16K

Предлагаю ознакомиться с расшифровкой доклада начала 2019 года Алексея Лесовского — «Поиск и устранение проблем в Postgres с помощью pgCenter»


Время от времени при эксплуатации Postgres'а возникают проблемы, и чем быстрее найдены и устранены источники проблемы, тем благодарнее пользователи. pgCenter это набор CLI утилит которые является мощным средством для выявления и устранения проблем в режиме "здесь и сейчас". В этом докладе я расскажу как эффективно использовать pgCenter для поиска и устранения проблем, в каких направлениях осуществлять поиск и как реагировать на те или иные проблемы, в частности, как:


  • проверить, все ли в порядке с Postgres'ом;
  • быстро найти плохих клиентов и устранить их;
  • выявлять тяжелые запросы;
  • и другие полезные приемы с pgCenter.

Рецепты для хворающих SQL-запросов

Время на прочтение7 мин
Охват и читатели81K
Несколько месяцев назад мы анонсировали explain.tensor.ru — публичный сервис для разбора и визуализации планов запросов к PostgreSQL.

За прошедшее время вы уже воспользовались им более 6000 раз, но одна из удобных функций могла остаться незамеченной — это структурные подсказки, которые выглядят примерно так:



Прислушивайтесь к ним, и ваши запросы «станут гладкими и шелковистыми». :)

А если серьезно, то многие ситуации, которые делают запрос медленным и «прожорливым» по ресурсам, типичны и могут быть распознаны по структуре и данным плана.

В этом случае каждому отдельному разработчику не придется искать вариант оптимизации самостоятельно, опираясь исключительно на свой опыт — мы можем ему подсказать, что тут происходит, в чем может быть причина, и как можно подойти к решению. Что мы и сделали.



Давайте чуть подробнее рассмотрим эти кейсы — как они определяются и к каким рекомендациям приводят.

Коронавирус: информационные онлайн сервисы

Время на прочтение3 мин
Охват и читатели23K
Коронавирус COVID-19 – это новый вызов для всего человечества. Мир никогда не был так сильно взволнован своим здоровьем и мировой экономикой как сейчас. Тревога и паника – вот те эмоции, которые испытывают люди. Это абсолютно нормально переживать, паниковать и тревожиться. Все мы боимся заразиться от безжалостного и беспощадного вируса, который может мучительно убить. Шанс выжить при коронавирусе есть, как и шанс быть полностью уничтоженным им. Если сильно поддаться под эти негативные эмоции, можно начать мониторить всё подряд и прислушиваться к странным советам новоиспеченных блогеров. Например, есть много чеснока или запасаться неимоверным количеством гречки и туалетной бумаги.


Ведь, паника и тревога нам нужны, чтобы мы быстро принимали решение. К примеру, оставаться дома во время карантина и выходить на улицу только в случае острой необходимости, не забыв надеть маску. Но иногда бывает так, что паника и тревога играют с нами в злую шутку, если им начать поддаваться. И вот тогда начинается массовая истерия, много распространенных фейковых новостей в соцсетях или покупка 10 рулонов туалетной бумаги вместо запаса еды на месяц-два. Поэтому, старайтесь не паниковать, соблюдать спокойствие, чаще мыть руки и следить за достоверными источниками информации.
Читать дальше →

Информационная панель распространения Коронавируса COVID-19 (React + Chart.js + BootstrapTable)

Время на прочтение2 мин
Охват и читатели5.8K

Я выложил в "оупен-сорс" новую информационную панель распространения Коронавируса COVID-19, которая позволяет анализировать динамику (кривизну графика) распространения Коронавируса для разных стран.


Информационная панель распространения Коронавируса COVID-19

Читать дальше →

Ближайшие события

Как курсы валют и цены на топливо зависят от цен на нефть

Время на прочтение2 мин
Охват и читатели10K

Нас, аналитиков, хлебом не корми — дай проанализировать какие-нибудь данные. А когда на днях подскочил курс валют, стало интересно и в этом разобраться.


Так что мы собрали небольшой, но информативный дашборд в Power BI. Для этого понадобилась информация о:


  • котировках нефти на бирже;
  • курсах доллара и евро по данным ЦБ РФ;
  • розничных ценах в России на топливо АИ-92, АИ-95, ДТ.

Данные собраны за каждый день, начиная с января 2010 года.


Особенность этих данных в том, что курс по выходным дням не устанавливался и использовалось последнее значение за рабочий день. Котировки нефти тоже устанавливались не каждый день.


Интерактивный шаблон тут



Давайте разберёмся в этой красивой интерактивной картинке, потому что нам нужна не просто информация, а выводы.

Читать дальше →

«Пандемия» научных публикаций о COVID-19

Время на прочтение15 мин
Охват и читатели20K
В современном информационном обществе любые социально-важные процессы, которые к тому же влияют на безопасность и здоровье граждан, сопровождаются потоком ложной информации. Чем больше участников процесса и чем сложнее предметная область, тем шире пространство для манипуляций и распространения дезинформации. Такая дезинформация может быть опаснее явления, породившего угрозу.



Информация о заболевании COVID-19 на сегодняшний день доминирует над любой другой и сопровождается большим количеством ложной информации. В связи с этим возникает потребность в достоверных сведениях, которые при определённом навыке можно получить из рецензируемых научных журналов.

Многие электронные научных библиотеки и журналы (такие как National Center for Immunization and Respiratory Diseases, JAMA Network, Elsevier) на своих сайтах организовали специальные разделы публикаций о коронавирусе SARS-CoV-2. Однако по данной теме в день выходит более 10 научных статей. Разобраться в таком потоке информации непросто. Если наиболее цитируемая публикация про коронавирус с 2003 года за 18 лет привлекла более 3400 источников (по оценке Google Scholar), то на статью Clinical features of patients infected with 2019 novel coronavirus in Wuhan ссылаются уже более 900 источников, при том, что данная статья вышла лишь месяц назад! Эту ситуацию можно назвать «пандемией» научных статей о COVID-19.

Попробуем структурировать поток публикаций и выявить в нём интересные закономерности. Из-за отсутствия специальных знаний в области медицины, в настоящей статье приводятся лишь результаты библиометрического анализа, без попыток интерпретации выявленных фактов в контексте вирусологии.
Читать дальше →

COVID-19: прогнозируем число больных коронавирусом

Время на прочтение7 мин
Охват и читатели12K
Коронавирус окончательно захватил весь мир — и выражается это не в том, что им успел переболеть каждый житель планеты. На данный момент эта тема является главной и единственной — как в мировых, так и в российских новостях. В этой статье мы постараемся максимально абстрагироваться от политики и рассуждений о том, запустили ли вирус китайские военные, или же Дональд Трамп. Вместо этого мы посмотрим на проблему с математической точки зрения — а именно, выясним, как можно описать эпидемию одним уравнением, а в конце статьи предскажем итоговое число зараженных COVID-19 — в том числе в России.


Читать дальше →

Как визуализировать и анимировать (геофизические) модели. Воксельные модели и сетчатые поверхности

Время на прочтение2 мин
Охват и читатели3.3K

Также смотрите другие статьи серии "Как визуализировать и анимировать (геофизические) модели":



В результате численного моделирования мы обычно получаем воксельные модели, которые для дальнейшей обработки и анализа необходимо преобразовывать в сетчатые поверхности. На картинке ниже в полупрозрачной воксельной модели изображена геологическая структура, выделенная и преобразованная в сетчатую поверхность и дополненная поверхностью рельефа.


3D Geological Modeling

Читать дальше →

Коронавирус: как мы себя обманываем

Время на прочтение11 мин
Охват и читатели694K
Я прекрасно понимаю, что степень истерии на фоне коронавируса привела общество к конфликту между последователями и отрицателями всеобщей паники. Достаточно острая групповая поляризации не вызывала особого желания излагать свою точку зрения на широкую публику. Но когда меня всюду начали преследовать конспирологические теории и бездумные толкования данных, то я понял, что утешающих аргументов очень мало и решил восполнить их дефицит.

Искажение смертности


Уверен для многих станет откровением факт того, что количество смертей при наличии коронавируса, зафиксированных в ВОЗ, не является числом смертей от коронавируса.

А как вы думали? Новая для человечества инфекция ещё до конца не изучена, но в больнице из пригорода какого-нибудь Ливорно уже умеют определять смерть от неё? Назвать причину смерти - это же не баг при компиляции отловить. Всё гораздо сложнее.

Есть заключительный клинический диагноз. Основное заболевание может включать несколько нозологических форм. Существует понятие конкурирующих заболеваний, которыми одновременно страдал умерший и каждое из которых в отдельности могло привести к смерти.

Есть ещё заключение о причине смерти по результатам патологоанатомического вскрытия, а также случаи его расхождения с заключительным клиническим диагнозом, которые разрешаются экспертной комиссией.

Именно поэтому ВОЗ чёрным по белому пишет
Определение истинной смертности от COVID-19 требует дополнительного времени. Сегодняшние данные свидетельствуют о том, что общий коэффициент смертности составляет 3–4%, при этом уровень смертности от инфекции будет ниже.
Читать дальше →

Как визуализировать и анимировать (геофизические) модели. Информативность визуализации

Время на прочтение3 мин
Охват и читатели1.9K

Также смотрите другие статьи серии "Как визуализировать и анимировать (геофизические) модели":



Наглядная визуализация позволяет быстро понять суть работы и полученных результатов, но, случается, — понять неправильно. Как однозначно продемонстрировать результаты и, притом, избежать груды подтверждающих формул и ссылок на другие работы — так, чтобы все было визуально очевидно (в хорошем смысле слова)?


Build Super-resolution Gravity from GGMplus Free-Air Gravity Anomaly enhanced by SRTM topography


На картинке выше представлены результаты улучшение гравитационных данных GGMplus Free-Air Gravity Anomaly 200м с помощью рельефа SRTM 30м техникой переноса компонент пространственного спектра.

Читать дальше →

Как визуализировать и анимировать (геофизические) модели. 3D анимация и визуализация 4D данных

Время на прочтение2 мин
Охват и читатели4K

Также смотрите другие статьи серии "Как визуализировать и анимировать (геофизические) модели":



Для визуализации анимированных 3D результатов без симуляции реальных процессов используются различные эффекты прозрачности и движения. При выполнении 3D симуляции — моделировании динамических процессов — нам необходимо уметь показывать 4D результаты. Когда анимированный результат визуально достаточно близок к результату симуляции, его нередко так и называют; в любом случае, во избежание ошибочной трактовки результатов необходимо ясно указывать используемые для визуализации данные и методы.


Tambora Volcano Simulation, Sumbawa, Indonesia