Обновить
48.78

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Примеры технического долга при внедрении BI-систем

Время на прочтение2 мин
Охват и читатели3.7K
Разработка и развертывание систем BI достаточно быстрый и дешевый процесс, но их обслуживание с течением времени является дорогостоящим. Это можно представить, через метафору технического долга.

Технический долг — обозначает накопленные в программном коде или архитектуре проблемы, связанные с пренебрежением к качеству при разработке программного обеспечения и вызывающие дополнительные затраты труда в будущем.

Часто существуют обоснованные стратегические причины брать на себя технический долг. Не вся задолженность является безнадежной, но вся задолженность нуждается в обслуживании. Технический долг может быть выплачен путем рефакторинга кода, улучшения тестирования, удаления мертвого кода, уменьшения зависимостей, ужесточения API и улучшения документации. Цель не в том, чтобы добавить новую функциональность, а в том, чтобы сделать возможным будущие улучшения, уменьшить количество ошибок и улучшить ремонтопригодность. Отсрочка таких платежей приводит к сложным расходам. Скрытый долг опасен, так как он бесшумно увеличивается.
Читать дальше →

Мониторим базу PostgreSQL — кто виноват, и что делать

Время на прочтение7 мин
Охват и читатели47K
Я уже рассказывал, как мы «ловим» проблемы PostgreSQL с помощью массового мониторинга логов на сотнях серверов одновременно. Но ведь кроме логов, эта СУБД предоставляет нам еще и множество инструментов для анализа ее состояния — грех ими не воспользоваться.

Правда, если просто смотреть на них с консоли, можно очень быстро окосеть без какой-либо пользы, потому что количество доступных нам данных превышает все разумные пределы.


Поэтому, чтобы ситуация все же оставалась контролируемой, мы разработали надстройку над Zabbix, которая поставляет метрики, формирует экраны и задает единые правила мониторинга для всех серверов и баз на них.

Сегодняшняя статья — о том, какие выводы можно сделать, наблюдая в динамике различные метрики баз PostgreSQL-сервера, и где может скрываться проблема.
Читать дальше →

Как построить диаграмму Венна с 50 кругами? Визуализация множеств и история моего Python-проекта с открытым кодом

Время на прочтение11 мин
Охват и читатели33K
Всем привет, меня зовут Фёдор Индукаев, я работаю аналитиком в Яндекс.Маршрутизации. Сегодня хочу рассказать вам про задачу визуализации пересекающихся множеств и про пакет для Python с открытым кодом, созданный мной для её решения. В процессе мы узнаем, чем различаются диаграммы Венна и Эйлера, познакомимся с сервисом распределения заказов и по касательной заденем такую область науки, как биоинформатика. Двигаться будем от простого к более сложному. Поехали!



Читать дальше →

На что мы обращаем внимание при расчете статистической значимости A/B-теста

Время на прочтение11 мин
Охват и читатели34K
В Учи.ру мы стараемся даже небольшие улучшения выкатывать A/B-тестом, только за этот учебный год их было больше 250. A/B-тест — мощнейший инструмент тестирования изменений, без которого сложно представить нормальное развитие интернет-продукта. В то же время, несмотря на кажущуюся простоту, при проведении A/B-теста можно допустить серьёзные ошибки как на этапе дизайна эксперимента, так и при подведении итогов. В этой статье я расскажу о некоторых технических моментах проведения теста: как мы определяем срок тестирования, подводим итоги и как избегаем ошибочных результатов при досрочном завершении тестов и при тестировании сразу нескольких гипотез.

Читать дальше →

Кому на бюджете жить хорошо?

Время на прочтение31 мин
Охват и читатели9.1K


ВСТУПЛЕНИЕ


В каком году — рассчитывай,
В какой земле — угадывай,
На столбовой дороженьке
Сошлись семь мужиков:
Семь временнообязанных,
Подтянутой губернии,
Уезда Терпигорева,
Пустопорожней волости,
Из смежных деревень:
Заплатова, Дырявина,
Разутова, Знобишина.
Горелова, Неелова —
Неурожайка тож,
Сошлися — и заспорили:
Кому живется весело,
Вольготно на Руси?

Н.Некрасов

Пару месяцев назад на одном IT мероприятии мне довелось лицезреть в работе Pandas. Парень, который с ним работал не делал ничего особенно удивительного. Но простые сложения значений, вычисления средних, группировки проиводились так виртуозно, что, даже при всей своей предвзятости к Питону, я был очарован. Манипуляции выполнялись на довольно приличных датасетах по данным капитального ремонта за период кажется с 2004 по 2019 год. Сотни тысяч строк, но все работало очень быстро.


В общем когда мне еще через пару месяцев пришлось кое-что анализировать, я решил попробовать сделать это с помощью Pandas. Провозился пару дней с тем, что с помощью Excel я бы смог сделать за день. Тем не менее мне удалось.


С апреля мы все сидим на карантине. Сидел я и думал, что бы мне такое сделать, чтобы не очень сложное и чтобы стильно и модно было. К тому времени я уже видел кучу всякой инфографики про коронавирус, про пожары в лесу, про выборы. Делать то, что уже делали не хотелось, да и браться сразу за сложное не решался, сомневаясь, что смогу закончить. Тут мне попалась какая-то статья про уже отшумевшее явление "barchart race" или по-русски "гонки столбчатых диаграмм". Вы можете подумать, что эта статья будет про barchart race. Да, но только отчасти. Barchart race будет только в конце, а статья скорее о том, как не обладая, какими-то выдающимися способностями и знаниями в области матана и прочей черной магии, можно сделать анализ больших данных и представить результат в доступной для широких масс форме. Итак, поехали.

Ключевые навыки Python-программиста

Время на прочтение5 мин
Охват и читатели14K
В наше динамичное время программисту необходимо держать руку на пульсе и постоянно осваивать новые навыки, чтобы оставаться востребованным специалистом.

Я уже около двух лет программирую на Python, и сейчас наступил момент осознанно подойти к освоению новых навыков. Для этого я решил проанализировать вакансии и представить востребованные навыки в виде графа. Я ожидал увидеть, что навыки будут образовывать кластеры, соответствующие разным специальностям: backend разработке, data science и др. А как же обстоят дела на самом деле? Обо всём по порядку.
Читать дальше →

Язык R для пользователей Excel (бесплатный видео курс)

Время на прочтение6 мин
Охват и читатели36K

В связи с карантином многие сейчас львиную долю времени проводят дома, и это время можно, и даже нужно провести с пользой.


В начале карантина я решил довести до ума некоторые проекты начатые несколько месяцев назад. Одним из таких проектов был видео курс "Язык R для пользователей Excel". Этим курсом я хотел снизить порог вхождения в R, и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.


Если всю работу с данными в компании, в котороый вы работаете принято по-прежнему вести в Excel, то предлагаю вам познакомится с более современным, и при этом совершенно бесплатным инструментом анализа данных.


Читать дальше →

Коронавирус в роликах и комментариях на ютубе

Время на прочтение9 мин
Охват и читатели3.8K
Всего несколько месяцев назад ютуб заливало всемирное возмущение концовкой “Игры престолов” и проблемой расового разнообразия в играх про средневековую Европу. Эта великолепная эпоха уже позади, сейчас внимание всего мира сфокусировано на вопросах реальной жизни и смерти. И мы исследуем распространение COVID-19 на ютубе.

[Инфографика] Как COVID-19 влияет на организм

Время на прочтение3 мин
Охват и читатели20K
На данный момент исследователи и эксперты в области здравоохранения уже лучше понимают весь спектр симптомов, вызываемый COVID-19, включая лихорадку, сухой кашель и, конечно, опасное воспаление дыхательной системы. Большинство из нас знает, что COVID-19 может быть гораздо более опасным, чем грипп, при этом большинство людей имеют слабое представление (а то и не имеют вовсе) о механизмах того, как вирус вызывает пневмонию у своих жертв.

Сегодняшняя информативная иллюстрация, сделанная научным дизайнером и аниматором Авестой Растаном, подробно описывает влияние COVID-19 на лёгкие от умеренных до тяжелых случаев.

По данным Всемирной организации здравоохранения (ВОЗ), большинство людей, которые заразились COVID-19, испытывают только лёгкие симптомы гриппа. Тем не менее, иногда инфекция может перерасти в тяжёлый случай пневмонии, которая может привести к летальному исходу. Особенно это касается пожилых людей и людей с сопутствующими заболеваниями.

Вот что делает COVID-19 с вашим телом:

Читать дальше →

Коронавирус: опасная иллюзия неопасности

Время на прочтение4 мин
Охват и читатели78K

Развитые страны прошли пик смертей, можно понемногу расслабляться? Увы, два долгожданных и три недавних результата делают картину мрачнее. Что показывают свежие исследования на антитела, подсчёт отбираемых вирусом лет жизни и "потерянных" статистикой смертей, анализ картины заболевания и графики роста заражений в России?


image


Тесты на антитела указывают на высокую летальность

Читать дальше →

Мониторинг ошибок и событий в журнале PostgreSQL (grok_exporter)

Время на прочтение12 мин
Охват и читатели6.9K
Доброго дня, коллеги и хаброчитатели! Сегодня, хотел бы поделиться с Вами небольшой заметкой о том, как можно организовать оперативный мониторинг ошибок и событий появляющихся в журнале PostgreSQL используя Prometheus и экспортер метрик grok_exporter.

Сразу оговорюсь, что это конечно же частный случай использования данного экспортера. Так для чего это нужно и кому это может быть интересно?
Читать дальше →

Умирает ли RuTracker? Анализируем раздачи

Время на прочтение14 мин
Охват и читатели240K

Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

Читать дальше →

Коронавирус: мир сошёл с ума

Время на прочтение10 мин
Охват и читатели45K
Появились первые правильные данные по смертности от коронавируса. Это статистика Центра по контролю и профилактике заболеваний США (CDC). Пожалуйста, посмотрите на таблицу ниже: левый столбик с количеством умерших среди подтверждённых на коронавирус — 13 130 человек; третий справа с количеством умерших с пневмонией при наличии COVID-19 — 5902 человека. Разница более чем в 2 раза! То есть количество смертей от коронавируса в США минимум в 2 раза меньше, чем принято считать большинством.



Я уже месяц твержу о том, смерть от коронавируса и смерть при коронавирусе — это разные вещи. Для того, чтобы это понять не нужно быть вирусологом или эпидемиологом. Достаточно было просто прочитать отчёт ВОЗ и увидеть памятку про crude mortality ratio и infection mortality rate. Несмотря на то, что две моих предыдущих статьи собрали более полутора миллионов просмотров только на Хабре, многие со мной не согласились.

Меня обзывали, оскорбляли, говорили о том, что такие как я должны быть в тюрьме и прочие гадости. Коллеги, я не жалуюсь, не упрекаю и не хвастаюсь. Я не первый год занимаюсь аналитикой и за последнее время потратил сотни часов на изучение данных пандемии. Это мой последний манифест по теме. Призываю вас либо вдумчиво прочитать последующий текст, либо полностью проигнорировать его.
Читать дальше →

Ближайшие события

Эмулятор классического рынка

Время на прочтение12 мин
Охват и читатели4K
image

Каждый раз, когда я читаю что-либо об экономике, я постоянно пропускаю момент между “да, конечно, это всё очевидно” и “почему? как вы это получили?”.

Обычно это связано с тем, что примеры, которые можно привести из реальной жизни, либо элементарные, либо настолько сложные, что уже не помогают в понимании.

Но ведь для иллюстрации идей можно какую-нибудь симуляцию сделать? Не совсем из реальной жизни. Выкинуть незначимое, оставить важное и посмотреть, что получится?

Под катом я расскажу, как попытался написать эмулятор простейшей рыночной конкуренции и что в итоге получилось. Будет много графиков.
Читать дальше →

Руководство по FFmpeg libav

Время на прочтение24 мин
Охват и читатели117K

Долго искал книгу, в которой было бы разжёвано, как использовать FFmpeg-подобную библиотеку, известную как libav (название расшифровывается как library audio video). Обнаружил учебник «Как написать видеоплеер и уложиться в менее чем тысячу строк». К сожалению, информация там устаревшая, так что пришлось создавать мануал своими силами.

Большая часть кода будет на C, однако не волнуйтесь: Вы легко всё поймёте и сможете применить на любимом языке. У FFmpeg libav уйма привязок ко многим языкам (в том числе и к Python и к Go). Но даже если Ваш язык прямой совместимости не имеет, всё равно можно привязаться через ffi (вот пример с Lua).

Начнём с краткого экскурса о том, что такое видео, аудио, кодеки и контейнеры. Затем перейдем к ускоренному курсу, посвященному использованию командной строки FFmpeg, и, наконец, напишем код. Не стесняйтесь переходить сразу в раздел «Тернистый путь изучения FFmpeg libav».

Есть мнение (и не только моё), что потоковое интернет-видео уже приняло эстафету от традиционного телевидения. Как бы то ни было, FFmpeg libav точно достоин изучения.

Оглавление


Читать дальше →

Визуализация данных для беспилотного транспорта с открытым исходным кодом от Uber

Время на прочтение4 мин
Охват и читатели3K
image

Uber надеются создать стандартную систему визуализации для работы инженеров в области разработки беспилотных транспортных средств на основе открытой версии своей системы.

В то время как Uber не скрывает своих амбиций в отношении беспилотных автомобилей, компания по продаже поездок спокойно продвигается вперед в разработке новых технологий для отрасли. Последняя — это новая, открытая версия системы визуализации беспилотного транспорта (AVS), которая позволит разработчикам и инженерам обмениваться данными об беспилотных транспортных средствах в понятной и стандартизированной форме.

«Понимание того, что беспилотные транспортные средства видят во время навигации в городской среде, необходимо для разработки систем, которые заставят их работать безопасно», — пишут в своем блоге инженеры Убера Сяодзи Чэнь, Джозеф Лизи, Тим Войташек и Абхишек Гупта. «И точно так же, как мы используем стандартные уличные знаки и дорожную инфраструктуру для помощи водителям, разработчики беспилотных транспортных средств будут хорошо обеспечены стандартной платформой визуализации, которая будет представлять входные данные от датчиков, классифицировать изображения, выводить информацию о движении и использовать все другие методы, используемые для создания точного изображения ближайшего пространства.»
Читать дальше →

Дивизион данных. 2013 год. Ретроспектива

Время на прочтение5 мин
Охват и читатели670
В 2013 году IBS, которые тогда, кажется, создавали Дивизион данных, попросили меня сделать такой брейндамп (исключительно на базе опыта взаимодействия с корпоративными нефтегазовыми заказчиками) по поводу проблемной области Больших Данных, да и Данных вообще. Вот я наткнулся на него спустя 7 лет и показалось забавно. Некоторые вещи очевидны. Некоторые не совсем верны оказались, но… 7 лет прошло.

Писал по-английски и вот подумал перевести на русский. Вдруг что-то актуально и сейчас? (Переведу буллеты, а таблички оставлю английскими от лени. Зеленое – хорошо, красное – опасно, голубое — мечта).

Минимальные комментарии из «сегодня» оформлю италиком, чтобы было понятно и отличимо.

Итак, ДАННЫЕ! Нам данные…
Читать дальше →

COVID-19: как перестать читать новости и начать анализировать данные

Время на прочтение12 мин
Охват и читатели9.2K

image


Привет, Хабр! Где-то месяц назад у меня появилось чувство постоянного беспокойства. Я стал плохо есть, еще хуже спать и постоянно читать-смотреть-слушать тонну новостей о пандемии. Исходя из них коронавирус то ли захватывал, то ли освобождал нашу планету, являлся то ли заговором масонов мировых правительств, а то ли местью панголина, вирус то ли угрожал всем и сразу, а то ли персонально мне и моему коту…


Сотни статей, постов в соцсетях, youtube-telegram-instagram-tik-tok (да уж простите) контента разной степени содержательности (и сомнительности) не приводили меня ни к чему, кроме уже описанного на Хабре разрушения мозга и еще большему чувству беспокойства.


Но в один день я купил гречки решил со всем этим нужно покончить. Как можно скорее!


UPD: добавил секцию 'Результат'.

Что же ты сделал?

Простая модель эпидемии базовыми инструментами Python

Время на прочтение14 мин
Охват и читатели6.9K

“Почему бы не разжечь эпидемию” — эта мысль пришла внезапно. Работа из дома при правильной организации может оказаться эффективнее офисной, в результате появляется честное дополнительное время на “подумать” над чем-нибудь еще.


Началось все, конечно, из построения ежедневной визуализации данных о COVID-19 Европейского центра контроля заболеваний. Простой алгоритм ежедневно в полдень рисует графики по обновляемым данным. В графиках привлекают внимание эффективные противоэпидемические действия Китая, когда эпидемия в начале марта пошла на спад. Но эстафету подхватывают страны Европы — сначала Италия (может помните как в конце февраля власти Милана просили вернуться туристов в город, т.к. страдает экономика?), дальше Испания.


image

Читать дальше →

Подбор важности фич для k-nearest neighbors (ну или других гиперпараметров) спуском похожим на градиентный

Время на прочтение18 мин
Охват и читатели5.4K
Истинный ерундук может не только исполнить неисполнимое, но и послужить предостерегающим примером

Экспериментируя с простейшей задачкой машинного обучения я обнаружил, что интересно было бы подобрать в довольно широком диапазоне значения 18 гиперпараметров одновременно. В моём случае всё было на столько несложно, что задачку можно было бы взять и грубой компьютерной силой.

Обучаясь чему-то мне бывает очень интересно изобрести какой-нибудь велосипед. Иногда получается реально придумать что-то новое. Иногда обнаруживается, что все придумано до меня. Но даже если я всего лишь повторю путь пройденный за долго до меня, в награду я часто получаю понимание глубинных механизмов алгоритмов их возможностей и внутренних ограничений. К чему и вас приглашаю.

В Python и DS я, сказать мягко, новичок, и многие вещи, которые можно реализовать в одну команду по своей старой программистской привычке делаю кодом, за что Python наказывает замедлением даже не в разы, а на порядки. Поэтому весь свой код я выкладываю в репозиторий. Если знаете как реализовать сильно эффективнее — не стесняйтесь, правьте там, или пишите в комментариях. https://github.com/kraidiky/GDforHyperparameters

Тем, кто уже крутой датасатанист, и всё в этой жизни попробовал небезинтересна будет, я полагаю, визуализация процесса обучения, которая применима не только к этой задачке.
Читать дальше →