Все потоки
Поиск
Написать публикацию
Обновить
30

Инфографика

Визуализация данных

Сначала показывать
Порог рейтинга
Уровень сложности

Многомерные графики в Python — от трёхмерных и до шестимерных

Время на прочтение3 мин
Количество просмотров38K

Примеры многомерных графиков

Введение


Визуализация — важная часть анализа данных, а способность посмотреть на несколько измерений одновременно эту задачу облегчает. В туториале мы будем рисовать графики вплоть до 6 измерений.


Plotly — это питоновская библиотека с открытым исходным кодом для разнообразной визуализации, которая предлагает гораздо больше настроек, чем известные matplotlib и seaborn. Модуль устанавливается как обычно — pip install plotly. Его мы и будем использовать для рисования графиков.


Давайте подготовим данные


Для визуализации мы используем простые данные об автомобилях от UCI (Калифорнийский университет в Ирвине — прим. перев.), которые представляют собой 26 характеристик для 205 машин (26 столбцов на 205 строк). Для визуализации шести измерений мы возьмём такие шесть параметров.


Здесь показаны только 4 строки из 205

Загрузим данные из CSV с помощью pandas.


import pandas as pd
data = pd.read_csv("cars.csv")

Теперь, подготовившись, начнем с двух измерений.

Читать дальше →

«Игра престолов»: строим инфографику об убийствах, сексе, путешествиях по Вестеросу и многое другое

Время на прочтение22 мин
Количество просмотров79K



Оригинал поста + Вспомогательные функции и исходные данные

Оглавление


Взаимоотношения персонажей
Кто кого родил
Кто кому брат или сестра
Кто кого убил
Кто кому служит
Кто с кем женат или помолвлен
У кого с кем был секс
Все отношения на одном графе
Связь персонажей по сценам
Кто самый «популярный» персонаж Игры престолов?
Количество экранного времени у персонажей
Сколько персонажей было в сериях?
Кто из персонажей был в самом большом количестве серий «Игры престолов»?
Самые популярные локации «Игры престолов»
Карта локаций «Игры престолов»
Перемещения персонажей «Игры престолов» от серии к серии
Кто больше всего «путешествовал» из персонажей «Игры престолов»?
Самые популярные локации «Игры престолов» (по экранному времени)
В каких фильмах ещё играли актёры Игры престолов и насколько они знакомы?
Фильмы, в которых играли самые «востребованные» актёры «Игры престолов»:
Актёры «Игры престолов» в «Гарри Поттере»
Актёры «Игры престолов» в «Звёздных войнах»
Актёры «Игры престолов» в «Пиратах карибского моря»
В каких фильмах/сериалах много актёров «Игры престолов»
Как тесно связаны между собой актёры «Игры престолов»
Разговоры в «Игре престолов»
Пол персонажей «Игры престолов»: кого больше, мужчин или женщин?
В этом посте я расскажу о том, как применять язык Wolfram Languge в анализе и визуализации данных на примере базы данных по «Игре престолов». В этой статье не уделяется особого внимания парсингу данных, об этом я расскажу отдельно. Вместо этого пост целиком посвящен интересной инфографике и её созданию.

Надеюсь, что построенные визуализации заинтересуют тех, кому нравится этот замечательный сериал).

Некорректные диаграммы: наш опыт

Время на прочтение5 мин
Количество просмотров8.3K
Мы в журнале The Economist очень серьёзно относимся к визуализации данных. Каждую неделю у нас публикуется около 40 графиков в печатной и онлайновой версиях, а также в приложениях. Мы везде стремимся точно представить цифры, чтобы они лучше всего иллюстрировали тему. Но иногда допускаем ошибки. Важно усвоить эти уроки, чтобы не повторять ошибки в будущем. Наверняка наш опыт окажется полезен и для вас.

Погрузившись в архивы, я нашла несколько поучительных примеров. Преступления против визуализации данных сгруппированы по трём категориям. Это графики, которые:

  1. вводят в заблуждение;
  2. сбивают с толку;
  3. не могут довести смысл.

Для каждого показана исправленная версия, которая занимает столько же места — важный фактор для печатной публикации.
Читать дальше →

Game over: аналитики сообщают о росте числа DDoS-атак на игровой сегмент

Время на прочтение3 мин
Количество просмотров7.6K
«Ростелеком» провел исследование DDoS-атак, осуществлявшихся на российский сегмент интернета в 2018 году. Как свидетельствует отчет, в 2018 году произошел резкий рост не только количества DDoS-атак, но и их мощности. В фокусе внимания злоумышленников чаще всего оказывались игровые серверы.


Читать дальше →

arkit — архитектурные диаграммы для JavaScript, TypeScript и Flow

Время на прочтение1 мин
Количество просмотров7.5K
arkit (швед. arkitektur)

Дамы и господа, представляю вашему вниманию arkit — инструмент, который анализирует файлы вашего проекта и генерирует диаграмму зависимостей между ними и внешними модулями. Наверное, проще показать на примере самого arkit:

архитектурная диаграмма
Читать дальше →

Embedded World 2019 — крупнейшая выставка встраиваемой электроники

Время на прочтение3 мин
Количество просмотров3.6K
На следующей неделе в Нюрберге начинает работу крупнейшая международная специализированная выставка технических решений для встраиваемых систем Embedded World 2019.

image

Начиная с 2003 года каждый год на выставку приезжает большое количество людей со всего мира, чтобы увидеть передовые решение в области встраиваемой электроники: промышленной, железнодорожной, автомобильной и пр.

В 2019 на выставке заявлено более 1100 участников (Expoelectronica, проходящая в Москве, 431 участник), которые разместятся в 6 павильонах общей площадью 49000 кв.м.

Трех дней едва хватит для того, чтобы всё осмотреть и провести намеченные встречи.
Читать дальше →

Визуализация дерева приматов

Время на прочтение4 мин
Количество просмотров9.7K

Визуализация дерева приматов


Станислав Дробышевский в начале года опубликовал подробное дерево происхождения приматов. Версия в ПДФ


Комментаторы во «Вконтакте» просили интерактивную версию (1, 2, 3, 4), потому что её удобнее изучать и проще обновлять при появлении новых данных.


Мы с Олей Моховой решили помочь палеоприматологии и сделали прототип на d3js.

Читать дальше →

Образование программисту – Что? Где? Когда?

Время на прочтение33 мин
Количество просмотров142K


Привет, Хабр! Уже много сказано об образовании, в частности для программистов, о программах, что лучше подходят или не подходят, но каждый год ситуация меняется и как бы грустно не было, в этом надо разбираться (будь ты абитуриент или работодатель). Очень важно начать свой путь именно с выбора alma mater… Прошу под кат всех, кого не испугает длинная статья по теме.

Читать дальше →

Исследование Solar JSOC: киберпреступники становятся профессиональнее

Время на прочтение3 мин
Количество просмотров3.6K
Мы в Solar JSOC на постоянной основе собираем данные о событиях и инцидентах информационной безопасности в инфраструктурах заказчиков. На базе этой информации мы раз в полгода делаем аналитику, которая демонстрирует, как меняются атаки на российские организации. Сегодня мы собрали для вас самые интересные тренды первого полугодия 2018 г.


Читать дальше →

Памятка по разновидностям фишинга

Время на прочтение2 мин
Количество просмотров32K

Мы с племянником решили внести свою лепту в дело противодействия фишингу и подготовили памятку. Распространяется безвозмездно. Вы можете скачать её и, распечатав, повесить у себя в офисе; разместить в посте в социальных сетях, добавить в буклет или книгу.


Вот памятка:



A теперь пояснения, почему фишинг всё ещё актуален, и почему он останется таковым и в будущем.

Читать дальше →

Роскомнадзор публично отчитался

Время на прочтение5 мин
Количество просмотров16K


Не так давно, а именно 21.08.2018 Роскомнадзор (Федеральная служба по надзору в сфере связи, информационных технологий и массовых коммуникаций) опубликовал на своем сайте публичный доклад о деятельности ведомства в 2017 году. Не очень рано, но лучше, чем никогда.

Мы в Cloud4Y ознакомились с объемным и красиво оформленным докладом и сегодня хотим рассказать читателям Хабра о находках, которые показались нам интересными. Добро пожаловать под кат. Осторожно, много диаграмм.
Читать дальше →

Распределение числа работников России по зарплатам на основе большого интернет-опроса на неспециализированной платформе

Время на прочтение3 мин
Количество просмотров20K

На http://otvet.mail.ru был проведен опрос "Какая самая распространенная (обыкновенная и часто встречающаяся) зарплата в вашем городе ?" со следующими вариантами ответа: "1 тыс. руб или ниже", "2 тыс. руб.", "3 тыс. руб.", "5 тыс. руб.", "7 тыс. руб.", "10 тыс. руб.", "15 тыс. руб.", "20 тыс. руб.", "30 тыс. руб.", "45 тыс. руб.", "60 тыс. руб.", "80 тыс. руб.", "100 тыс. руб.", "120 тыс. руб.", "150 тыс. руб. или выше".


На 2018-08-29 ответили 769 человек, самые распространенные ответы — "15 тысяч" (184 человек) и "20 тысяч" (207 человек). По результатам опроса самая распространенная в России зарплата составляла 19 тысяч.


В связи с возможными "накрутками" голосов и возможными безответственными ответами было сделано распределение, из которого были исключены все отвечавшие со званием "ученик". "Ученики" — аккаунты с наименьшим количеством вопросов, ответов и баллов — более вероятно являются участниками "накруток" и безответственных ответов, чем другие аккаунты, так как такой аккаунт легче всего создать как свой второй или третий аккаунт. По результатам опроса без "учеников" самая распространенная зарплата в России составляла 16 тысяч.


image

Читать дальше →

Маленький чёрненький квадратик (визуализация всех денег и рынков мира)

Время на прочтение2 мин
Количество просмотров21K
Авторы The Money Project собрали и визуализировали информацию о стоимости всех мировых денег и их эквивалентах. В результате получилась эффектная и простая инфографика, в которую помимо основных данных были добавлены сравнительные ориентиры: размеры состояний богатейших в мире людей, рыночная капитализация крупнейших компаний, акции которых котируются на рынках ценных бумаг, общая стоимость этих рынков и суммарная величина долговых обязательств во всем мире.

image


Когда я в первый раз увидел эту инфографику за 2017 год, я матерился. Потом я много матерился.

А теперь я смотрю на мир через «призму маленького черного квадратика» и мне все кажется пустяками.

Ныряйте под кат или открывайте картинку целиком тут. (Предыдущая статья на Хабре за 2015 год с искрометными хабракомментами.)
Читать дальше →

Ближайшие события

Феномен хакатона: мотивы, методы и результаты участников. Итоги полевого исследования

Время на прочтение6 мин
Количество просмотров5.7K
Приветствую всех заинтересованных!

Представляю вашему вниманию описание исследования на тему мотивации к принятию участия в хакатоне. Не плюсов ради, а дабы удовлетворить интерес желающих (и потешить свое эго, конечно же), пишу сей текст.


Читать дальше →

8 способов улучшить визуализацию данных

Время на прочтение3 мин
Количество просмотров11K


При работе с данными важно понимать, как лучше и эффективнее представить их вашей целевой аудитории. Не просто делать графики ради графиков, сделать так, чтобы за несколько секунд человек смог понять, что изображено на графике, что вы хотите этим сказать и какой вывод из него можно сделать.

Существует множество различных трюков, делающих визуализацию понятной, краткой и информативной. Но зачастую проблема кроется в игнорировании даже самых очевидных правил форматирования, поэтому эту статью мы хотим посвятить 8-ми базовым способам улучшения визуализации данных, которые повысят общую читаемость и понимание ваших графиков и диаграмм.
Читать дальше →

Предпочтения и навыки программистов разных стран: DataArt изучил статистику платформы Skillotron

Время на прочтение2 мин
Количество просмотров6.2K


В августе 2017 года DataArt запустил игровую платформу самопроверки знаний для IT-специалистов Skillotron. За полгода ее пользователями стали более 7 тысяч человек из 54 стран, а мы успели собрать интересные данные об особенностях поведения игроков. Исследование не претендует на универсальность — мы не утверждаем, что статистика Skillotron отражает положение дел в IT в целом. Но посмотреть на нее нам было интересно, тем более, что для DataArt Skillotron — необычный опыт разработки собственного продукта.
Читать дальше →

Почему некоторые приложения используют не настоящие шкалы прогресса

Время на прочтение7 мин
Количество просмотров8.2K
Автор материала анализирует работу индикаторов выполнения и рассуждает, почему эти элементы интерфейса умышленно запрограммированы на некорректное отображение данных.



Из соображении продуктивности в этом году я решил пораньше сесть за приведение своих налогов в порядок. Работы с ними было больше чем обычно, поэтому я выделил немного времени на то, чтобы занести всю информацию в TurboTax и с его помощью убедится, что все сделано правильно. В процессе работы онлайн-программа для подготовки налоговой отчетности регулярно заверяла меня, что уже помогла мне определить каждую налоговую льготу, которая мне подходила, и обещала, что благодаря ей в моей декларации не было ошибок.

Однако, наблюдая за одной особенно приятной анимацией, изображающей постепенно заполняющиеся желтые и зеленые линии, мне стало интересно, действительно ли то, что я видел в этот момент на экране отражает прогресс реальной задачи, выполняемой на заднем плане. Правда ли, что «подробный анализ» моих доходов, который страница, судя по информации на ней, выполняла в тот момент, действительно требует там много времени? Разве TurboTax не произвела все необходимые проверки ранее, еще когда я вносил их в программу?

Я попросил своего друга Эндрю Макгилла помочь мне разобраться с процессами, которые анимация призвана сопровождать. Мы прошерстили исходный код веб-сайта TurboTax и вскоре подтвердили мое подозрение: анимация была готовым, неизменяемым объектом. Мы не нашли каких-либо попыток ее взаимодействия с серверами сайта в момент ее отображения. Каждый пользователь TurboTax видел ту же картинку, одной и той же длительностью. Аналогичный процесс мы обнаружили еще как минимум на одной другой странице сайта, которая должна была отображать ход проверки применимости «всех возможных налоговых послаблений» с помощью трех анимированных шкал.
Читать дальше →

Можно ли дать всему человечеству достойное качество жизни и поддерживать его

Время на прочтение3 мин
Количество просмотров29K
Население Земли в 2017 году достигло 7,55 миллиарда человек. Разрыв между уровнем жизни в разных регионах мира колоссальный. Если в Швейцарии миска тушёной фасоли стоит 0,41% от дневного дохода, то в Малави человеку придётся потратить 41% заработанных за день денег. Разница — в сто раз. В США 40% еды выбрасывают в мусор, а в Сомали, Кении, Нигерии и других странах третьего мира люди продолжают умирать от голода.

Исследователи постарались ответить на вопрос, возможно ли обеспечить нужды первой необходимости для всех людей в мире или повысить уровень жизни до стран Западного мира, не лишив при этом Землю всех ресурсов в кратчайшие сроки. Оказалось, это невозможно, если мы не научимся более эффективно использовать то, что даёт нам природа.


Цуг, город в Швейцарии, стране с самым высоким показателем качества жизни
Читать дальше →

Поищем ещё раз «своё» кино на Кинопоиске

Время на прочтение7 мин
Количество просмотров16K

По дороге с работы вспомнил про один замечательный математический метод и решил подробнее рассмотреть этапы развития кинопоиска и узнать чего же больше всего ждут киноботы в этом году.
Читать дальше →

Накрутки на КиноПоиске, посмотрим на аккаунты поближе

Время на прочтение4 мин
Количество просмотров32K
По мотивам последних новостей о взломе аккаунтов на КП захотелось побаловаться со статистикой оценок, которую можно частично подсмотреть на сайте.

Примечательно, что уже 18 сентября, в интернете писали, что другим фильмам, выходящим 28 сентября скручивают рейтинг, но КП долго тупил, хотя все аккаунты занижающие рейтинги там были новореги, примерно по две недели. Эти пользователи ставили 2-3 рандомных оценки при регистрации и ещё 2-3 в момент скрутки рейтинга (Притом, что первые три были 5-10, а вторые 3-4-5, т.е. совсем палевно). Я думаю с этих же аккаунтов и накрутили рейтинг ожиданий, другому фильму, который пока не будем называть. Почему их нельзя было подчистить до 28го — загадка, на форуме КП, пару раз в сутки трут по странице комментов на тему…

Ставили оценки лентам: Не твоё тело (2017), Ежик Бобби: Колючие приключения (2016) и Хорошее время (2017), имеют ник вида IvanIvanov96, зареганы менее месяца и поставили менее 20 оценок.

Таких оценок ~10к.
Читать дальше →