Обновить
49.09

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Прорабатываем навык использования группировки и визуализации данных в Python

Время на прочтение5 мин
Охват и читатели20K
image

Привет, Хабр!

Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.

По традиции, в начале, определим цели:

  • Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
  • Найти самые популярные имена за всю историю;
  • Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
  • Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
  • Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
  • Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.

Меньше слов, больше кода!

И, поехали.
Читать дальше →

От Тулы до Берлина: анализ городов по Instagram

Время на прочтение5 мин
Охват и читатели11K

Ни для кого не секрет, что в инстаграме можно найти фотографии любого крупного города. Что, если мы попробуем по фрагментам восстановить картину целиком? Полученная информация поможет составить представление о незнакомых местах и будет полезна путешественникам, дополняя традиционные путеводители.
Читать дальше →

Машинное обучение без Python, Anaconda и прочих пресмыкающихся

Время на прочтение4 мин
Охват и читатели15K
Нет, ну я, конечно, не всерьез. Должен же быть предел, до какой степени возможно упрощать предмет. Но для первых этапов, понимания базовых концепций и быстрого «въезжания» в тему, может быть, и допустимо. А как правильно поименовать данный материал (варианты: «Машинное обучение для чайников», «Анализ данных с пеленок», «Алгоритмы для самых маленьких»), обсудим в конце.

К делу. Написал несколько прикладных программ на MS Excel для визуализации и наглядного представления процессов, которые происходят в разных методах машинного обучения при анализе данных. Seeing is believing, в конце концов, как говорят носители культуры, которая и разработала большинство этих методов (кстати, далеко не все. Мощнейший «метод опорных векторов», или SVM, support vector machine – изобретение нашего соотечественника Владимира Вапника, Московский Институт управления. 1963 год, между прочим! Сейчас он, правда, преподает и работает в США).

Три файла на обозрение
Читать дальше →

«Ну вот, опять метеостанция»? Не совсем

Время на прочтение4 мин
Охват и читатели8K


В основу предлагаемой метеостанции положен самодельный компьютер PIDP11, состоящий из «малинки» с эмулятором PDP-11 и корпуса с передней панелью с действующими светодиодами и переключателями. Но несмотря на это, у «малинки» осталось достаточно незанятых GPIO, чтобы подключить ещё и датчик давления и температуры.

На эмуляторе запущена ОС 2.11BSD, в которой «крутится» ПО метеостанции. Данные выводятся на два эмулятора терминала. Один из них — cool-retro-term — отображает текстовую информацию крупным шрифтом при помощи ASCII-арта. Второй — эмулятор графического терминала Tektronix 4010 с запоминающей трубкой — выводит кривые изменения давления и температуры.
Читать дальше →

QlikView. Условное форматирование «Как в Эксель»

Время на прочтение19 мин
Охват и читатели7.1K
Задача – сделать условное форматирование таблицы «как в эксель». QlikView вполне себе справляется со стандартными задачами раскраски по условию, но вот с выбором параметров динамически, да еще и как в эксель – возник вопрос «это как вообще..?».
Итог: было несколько вариантов реализации, несколько версий, потрачено немалое время на тестирование и отладку. Проводился рефакторинг уже готовой реализации. Представляю итоговый вариант, удовлетворяющий потребности заказчика, оттестированный и выверенный.

Функциональная задача(постановка)


Имеется таблица, в которой измерения и выражения выбираются динамически, формулы расчета самих значений просты: суммы, средние, относительные проценты, абсолютные значения и тому подобное.

Требуется дать возможность пользователю раскрасить таблицу в зависимости от выбранных параметров. Ключевые вводные — один столбец должен уметь раскрашиваться разными цветами, то есть мульти-раскраска, по разным параметрам. Второе ключевое – должна быть возможность раскрасить поле в зависимости от другого «взаимосвязанные параметры», например, мы раскрашиваем «сумму покупок» в зависимости от значения «средняя цена продуктов на рынке».
Далее приведу основную часть реализации. Я не буду останавливаться на таких моментах, как скрыть/закрыть меню, создание списков и тому подобное. Если появятся вопросы по деталям расскажу дополнительно.

Итоговый результат, путь к которому был тернист:


Читать дальше →

Другой Github 2: машинное обучение, датасеты и Jupyter Notebooks

Время на прочтение6 мин
Охват и читатели19K


Несмотря на то, что в интернете существует множество источников свободного программного обеспечения для машинного обучения, Github остается важным центром обмена информацией для всех типов инструментов с открытым исходным кодом, используемых в сообществе специалистов по машинному обучению и анализу данных.

В этой подборке собраны репозитории по машинному обучению, датасетам и Jupyter Notebooks, ранжированные по количеству звезд. В предыдущей части мы рассказывали о популярных репозиториях для изучения работ по визуализации данных и глубокому обучению.
Читать дальше →

Технические отличия BI систем (Power BI, Qlik Sense, Tableau)

Время на прочтение13 мин
Охват и читатели101K
Время необходимое на прочтение 11 минут

Мы и Квадрат Гартнера 2019 BI :-)


Целью данной статьи является сравнение трёх ведущих BI платформ, которые находятся в лидерах квадранта Gartner:
— Power BI (Microsoft)
— Tableau
— Qlik

image
Рисунок 1. Gartner BI Magic Quadrant 2019

Меня зовут Андрей, я руководитель отдела аналитики компании Аналитикс Групп. Мы строим наглядные отчёты по маркетингу, продажам, финансам, логистике, другими словами занимаемся бизнес аналитикой и визуализацией данных.

Я со своими коллегами уже несколько лет работаем с различными BI платформами. Имеем весьма неплохой опыт проектов, что позволяет нам сравнивать платформы с точки зрения разработчиков, аналитиков, бизнес-пользователей и внедренцев BI систем.

У нас будет отдельная статья по сравнению цен и визуальному оформлению этих BI систем, поэтому тут постараемся оценить эти системы именно с точки зрения аналитика и разработчика.

Выделим несколько направлений для анализа и оценим по 3 бальной системе:
— Порог вхождения и требования к аналитику;
— Источники данных;
— Очистка данных, ETL (Extract, Transform, Load)
— Визуализации и разработка
— Корпоративная среда — сервер, отчеты
— Поддержка мобильных устройств
— Embedded (встроенная) аналитика в сторонние приложения/сайты

Читать дальше →

Iodide: интерактивный научный редактор от Mozilla

Время на прочтение12 мин
Охват и читатели16K

Изучение аттрактора Лоренца, а затем редактирование кода в Iodide

В последние десять лет произошёл настоящий взрыв интереса к «научным вычислениям» и «науке о данных», то есть применению вычислительных методов для поиска ответов на вопросы, анализа данных в естественных и социальных науках. Мы видим расцвет специализированных ЯП, инструментов и методов, которые помогают учёным исследовать и понимать данные и концепции, а также сообщать о своих выводах.

Но на сегодняшний день очень немногие научные инструменты используют полный коммуникационный потенциал современных браузеров. Результаты дата-майнинга не очень удобно просматривать в браузере. Поэтому сегодня Mozilla представляет Iodide — экспериментальный инструмент, который помогает учёным составлять красивые интерактивные документы с использованием веб-технологий, всё в рамках итеративного рабочего процесса, который многим знаком.

Аналитика девушек с низкой социальной ответственностью (Заряжено Power BI, Qlik Sense, Tableau)

Время на прочтение6 мин
Охват и читатели127K

Кто мы такие и какие были предпосылки проекта?


Добрый день, меня зовут Лазарев Владимир, я руководитель BI-интегратора Аналитикс Групп. Мы делаем для бизнеса наглядные отчёты по маркетингу, продажам, финансам, логистике на базе ведущих аналитических платформ Qlik Sense, Power BI, Tableau.

В BI платформах очень важна визуальная составляющая. Если вы посмотрели десятки демо-отчетов BI-систем и вам не нравится как выглядит та или иная платформа, то скорее всего вы ее не будете внедрять, даже если вас устраивает цена и технические характеристики. Исходя из этого рождается необходимость увидеть одни и те же данные в разных аналитических платформах, чтобы можно было сопоставить.

И желательно, чтобы данные были интересными… :-)

Откуда появилась идея сделать этот отчёт?


Несколько лет назад Высшая школа экономики опубликовала статью о формировании цен на услуги девушек низкой социальной ответственности в Москве. Это были агрегированные данные анализа 1.800 анкет. Нам показались интересными данные, которые стоят за этими выводами социологов ВШЭ. И мы решили проработать эту тематику.
Читать дальше →

arkit — архитектурные диаграммы для JavaScript, TypeScript и Flow

Время на прочтение1 мин
Охват и читатели7.7K
arkit (швед. arkitektur)

Дамы и господа, представляю вашему вниманию arkit — инструмент, который анализирует файлы вашего проекта и генерирует диаграмму зависимостей между ними и внешними модулями. Наверное, проще показать на примере самого arkit:

архитектурная диаграмма
Читать дальше →

Жёлтая морда

Время на прочтение10 мин
Охват и читатели12K

Не стал добавлять к заголовку "Хабро-самоубийство", чтобы не доставать многоуважаемых админов, они этого не любят. Хотя понятно, что публикация дружно канет в минус.


Хотя, в ней нет никакого холивара. Просто рассказан и показан подход к построению адаптивных интерфейсов. Я его использую с 2012 года примерно.


Если думаете, что я тут за 1С проповедую, то зря. Этот подход и инструменты одинаково далеки как от вас, так и от 1С. Вы так делать никогда не будете, потому что вам не надо. Они так делать никогда не будут, потому что не умеют. Они честно хотели и хотят, но не умеют. Потому что 1Сники знают только три слова: "рынок", "продавать" и "монетизация". А у меня тут — для души.


Считайте, что я рассказываю вам свой личный подход к построению интерфейсов корпоративных информационных систем. Просто на примере 1С. Сейчас мы создаём аналогичные, по своей сути, инструменты на metadata.js, с использованием recharts. Морда уже не жёлтая, но суть та же.

Читать дальше →

Применение матрицы и диаграммы компетенций

Время на прочтение4 мин
Охват и читатели23K

При росте команды тимлид и вышестоящее руководство начинают задумываться об оценке компетенций сотрудников. В рамках этой статьи я хочу рассказать о первых шагах по внедрению оценки сотрудников и какие бонусы вы можете получить.

Читать дальше →

Портянки

Время на прочтение7 мин
Охват и читатели8K
Программисты любят рисовать отчеты-портянки. Если нужен отчет по продажам – вывалят всю таблицу продаж, с контрагентами, номенклатурой, организациями, договорами, суммами и количествами.

Все бы ничего, только с помощью такого отчета сложно управлять. Анализировать – можно, если есть куча свободного времени. А у кого есть куча свободного времени? У аналитика есть, например. Ладно, если он по должности аналитик. Есть ведь по призванию души аналитики. Должность у него, например, менеджер по продажам, но продавать он не хочет или не умеет, а вот в цифрах ковыряться – милое дело.

У руководителя времени на ковыряние в отчете, увы, нет. По крайней мере, в рамках регулярного менеджмента. Ему нужна короткая, емкая информация, отвечающая на простой вопрос: как идут дела? Или по-другому: у нас все хорошо?

Как на такой вопрос ответить с помощью портянки? Да никак. Портянка как бы говорит руководителю: ты хотел информацию? Ну вот она. ВСЯ! Давай, разбирайся, и ищи ответ на свой вопрос.
Читать дальше →

Ближайшие события

Руководство пользователя Kibana. Визуализация. Часть 6

Время на прочтение7 мин
Охват и читатели19K
Пятая часть перевода официальной документации по визуализации данных в Kibana.

Ссылка на оригинальный материал: Kibana User Guide [6.6] » Visualize

Ссылка на 1 часть: Руководство пользователя Kibana. Визуализация. Часть 1
Ссылка на 2 часть: Руководство пользователя Kibana. Визуализация. Часть 2
Ссылка на 3 часть: Руководство пользователя Kibana. Визуализация. Часть 3
Ссылка на 4 часть: Руководство пользователя Kibana. Визуализация. Часть 4
Ссылка на 5 часть: Руководство пользователя Kibana. Визуализация. Часть 5

Содержание:

1. Vega Graphs

2. Inspecting Visualizations
Читать дальше →

Оцифровывание коммуникации: зачем нужны эмоджи

Время на прочтение4 мин
Охват и читатели3.4K
На первый взгляд, это довольно забавный парадокс: социальные сети создают асоциальные люди. По крайней мере, являющиеся антиподами стереотипному представлению о целевой аудитории их проектов: Джек Дорси не похож на тролля, Павел Дуров — на школьника, а Марк Цукерберг — на человека. Но, если задуматься — связь между гиками-интровертами и текстовым общением онлайн, на которое, вслед за ними, перешёл почти весь мир — вовсе не случайна.

Человеческая коммуникация с тех самых пор, как предки человека впервые выговорили что-то членораздельное, велась на двух языках: человеческом, в котором для обмена информацией используются слова (вербальная коммуникация), и куда более древнем, чем люди, языке тела, в котором информация передаётся поведением (невербальная).


Сэр Патрик Стюарт как бы призывает этой картинкой не судить сразу по обложке

Впрочем, не всегда они давались людям с одинаковым успехом: в каждом, наверное, классе были свои нёрды — дети, которым, обычно, хуже других давалось обычное общение, но лучше — учёба. И то, и другое, судя по всему — по одной причине: баланс понимания вербального и невербального языка был явно смещён в пользу первого — в результате, такие дети, смотря в книгу, видели в ней, на самом деле, буквы, слова и стоящий за ними смысл — тогда как добавление потока входящей невербальной информации, не помогал понять собеседника, а только затуманивал их смысл и требовал небольшой задержки на обработку всех сигналов на уровне сознания, зарабатывая репутацию тормознутых среди прочих детей, у которых невербальные сигналы обрабатывались моментально на подсознательном уровне.
Читать дальше →

Руководство пользователя Kibana. Визуализация. Часть 5

Время на прочтение8 мин
Охват и читатели4.1K

Пятая часть перевода официальной документации по визуализации данных в Kibana.


Ссылка на оригинальный материал: Kibana User Guide [6.6] » Visualize


Ссылка на 1 часть: Руководство пользователя Kibana. Визуализация. Часть 1
Ссылка на 2 часть: Руководство пользователя Kibana. Визуализация. Часть 2
Ссылка на 3 часть: Руководство пользователя Kibana. Визуализация. Часть 3
Ссылка на 4 часть: Руководство пользователя Kibana. Визуализация. Часть 4


Содержание:


  1. Tag Clouds
  2. Heatmap Chart
Читать дальше →

Кластеризация беспроводных точек доступа с использованием метода k-средних

Время на прочтение3 мин
Охват и читатели2.9K
Визуализация и анализ данных в настоящее время широко применяется в телекоммуникационной отрасли. В частности, анализ в значительной степени зависит от использования геопространственных данных. Возможно, это связано с тем, что телекоммуникационные сети сами по себе географически разбросаны. Соответственно, анализ таких дисперсий может дать огромную ценность.
Читать дальше →

Руководство пользователя Kibana. Визуализация. Часть 4

Время на прочтение5 мин
Охват и читатели13K

Четвертая часть перевода официальной документации по визуализации данных в Kibana.


Ссылка на оригинальный материал: Kibana User Guide [6.6] » Visualize


Ссылка на 1 часть: Руководство пользователя Kibana. Визуализация. Часть 1
Ссылка на 2 часть: Руководство пользователя Kibana. Визуализация. Часть 2
Ссылка на 3 часть: Руководство пользователя Kibana. Визуализация. Часть 3


Содержание:


  1. Region Maps
  2. Time Series Visual Builder
Читать дальше →

Руководство пользователя Kibana. Визуализация. Часть 3

Время на прочтение10 мин
Охват и читатели12K

Третья часть перевода официальной документации по визуализации данных в Kibana.
Ссылка на оригинальный материал: Kibana User Guide [6.6] » Visualize
Ссылка на 1 часть: Руководство пользователя Kibana. Визуализация. Часть 1
Ссылка на 2 часть: Руководство пользователя Kibana. Визуализация. Часть 2


Содержание:


  1. Goal and Gauge
  2. Pie Charts
  3. Coordinate Maps
Читать дальше →

Cruise открывает исходный код Worldview

Время на прочтение2 мин
Охват и читатели2.3K
В Cruise Automation сотни инженеров и тестировщиков работают с данными, собранными на дорогах и через симулятор. Также специальная внутренняя команда AV Tools создает приложения для визуализации, поиска и анализа этих данных. Ведь пользователи и разработчики должны понимать что “видит” автомобиль и что он собирается сделать , включая облако точек с лидара, сотни классифицированных и отслеживаемых объектов, детализированные карты и другие данные для визуализации.

Как и множество других коллективов внутри Cruise команда AV Tools создает инструменты для визуализации в браузере, и здесь React является стандартом внутри компании. Для уменьшения сложности приложений компании и облегчения процесса создания сложных систем визуализации команда создала react-библиотеку упрощающую рендер 2D и 3D сцен, получившую название Worldview (ранее Uber выпустил похожий инструмент под названием AVS).

image
Читать дальше →