Обновить
47.02

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

Время на прочтение8 мин
Охват и читатели21K

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать далее

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Время на прочтение7 мин
Охват и читатели4.5K

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее

Анализ аудиоданных (часть 1)

Время на прочтение8 мин
Охват и читатели37K

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее

Что под капотом у Умного Ташкента?

Время на прочтение14 мин
Охват и читатели8.4K

Привет, Хабр! Вот, прошли майские праздники, и я готов поделиться с вами подробностями нашего проекта по цифровизации Ташкента. В конце концов, наша референсная модель может помочь в цифровизации других городов. И в этом посте мы подробнее разберем вопросы интеграции между различными компонентами, механику взаимодействия с Visiology BI и Геоинтеллект, а также ряд интересных на мой взгляд технических вопросов. Я покажу, как в нашей системе реализована поддержка процессов укладки асфальта, аналитики по видео, загрузки огромных массивов данных из различных ведомств. 

Читать далее

Анализ эффективности тренировок с помощью Python и линейной регрессии

Время на прочтение14 мин
Охват и читатели6.5K
Был ли эффект от регулярных тренировок? Я проанализировал данные своих предыдущих тренировок с помощью нескольких общепринятых методов и получил неоднозначные результаты.


Читать дальше →

Как рисовать диаграммы в Seaborn

Время на прочтение10 мин
Охват и читатели81K

Начинающие аналитики могут смело класть эту шпаргалку в закладки, а мы приглашаем вас под кат за диаграммами и кодом, пока начинается наш курс по анализу данных. Для удобства мы сократили текст и перенесли его часть в комментарии, ближе к нужным строкам кода.

Читать далее

Почему я больше не рекомендую Julia

Время на прочтение7 мин
Охват и читатели21K

Много лет я пользовался языком программирования Julia для преобразования, очистки, анализа и визуализации данных, расчёта статистики и выполнения симуляций.

Я опубликовал несколько опенсорсных пакетов для работы с такими вещами, как поля расстояний со знаком, поиск ближайших соседей и паттерны Тьюрингатакже с другими), создавал визуальные объяснения таких концепций Julia, как broadcasting и массивы, а ещё применял Julia при создании генеративной графики для моих визиток.

Какое-то время назад я перестал пользоваться Julia, но иногда мне задают о нём вопросы. Когда люди спрашивают меня, я отвечаю, что больше не рекомендую его. Мне подумалось, что стоит написать, почему.
Читать дальше →

Сегментарный анализ на примере RFM-анализа средствами Power BI

Время на прочтение12 мин
Охват и читатели13K

Существует большое разнообразие методов сегментарного анализа в маркетинге. Во-первых, сегментация — это стратегия, используемая для концентрации ресурсов на целевом рынке/объекте и оптимизации их использования. Во-вторых, сегментация — это алгоритм анализа рынка для лучшего учёта его особенностей.

Эффективно проведённая сегментация упрощает и удешевляет маркетинговую политику, позволяет отказаться от многих затратных методов продвижения. Объяснение очень простое - покупатель приходит к продавцу не за рекламой и скидками, а за удовлетворением своих потребностей. Поэтому продавцы, предлагающие товары или услуги, лучше удовлетворяющие потребности покупателей (по свойствам, качеству, цене и т. д.), могут добиться большего эффекта, а также свести к минимуму затраты на рекламу и скидки.

Рассмотрим частотно-монетарный метод сегментации применительно к e-commerce сфере. Частотно-монетарный анализ (RFM анализ) - анализ, в основе которого лежат поведенческие факторы групп или сегментов клиентов, позволяющий сегментировать клиентов по частоте и сумме покупок и выявлять тех, которые приносят больше денег. Данный метод позволяет получить ценные инсайты по построению маркетинговых стратегий в компании.​ Также RFM-сегментация помогает применять особый комуникативный подход к каждой группе клиентов.

RFM-анализ частично перекликается с принципом Парето, полагающим, что 80% результатов происходят благодаря 20% усилий. Если данный принцип рассматривать в общем ключе маркетинга - 80% всех ваших продаж исходят от 20% наиболее лояльных и постоянных клиентов. Постоянные клиенты всегда буду иметь высокое влияние на выручку, а значит – возвращаемость этих клиентов крайне важна для показателей дохода.

Читать далее

Учёные спешат отобрать ледяные керны, пока не растаяли ледники

Время на прочтение9 мин
Охват и читатели5.7K

Лёд содержит исторические данные о климате и показывает, какое влияние на него оказало человечество. Но многие ледники сейчас тают, и это заставляет учёных с новой силой взяться за дело.

В условиях глобального потепления, когда тают ледники и ледяные щиты, учёные наперегонки отбирают ледяные керны — вместе с давно замёрзшими записями о климатических циклах, которые в них содержатся. Некоторые учёные говорят, что времени у них в обрез. А в ряде случаев — уже слишком поздно.

Читать далее

Как мы в СИБУРе делаем дашборды для людей. Часть 1: закупки и производство

Время на прочтение4 мин
Охват и читатели12K

На наших предприятиях множество данных — от постоянно обновляющихся цен и технологических условий до логистических отчетов, графиков доставки и многое, много другое. Не говоря уже о чисто внутренней информации.

При должной сноровке все эти данные можно использовать с пользой, а не просто собирать где-то ради пары годовых отчётов. Но тут есть проблема.

Данные разные, как и их источники. Где-то речь идет об огромных монструозных таблицах в Excel с кучей переменных и подвязок, где-то используются внутренние CRM, в общем, тут кто во что горазд и кому где удобнее работать. То есть информация вроде есть, ее много, на ее основе можно делать выводы и принимать решения, но вот наглядности — никакой.

И тут мы переходим к решению, так что самое время представиться. Меня зовут Марина Коробейникова, я отвечаю за дашборды в закупках и производстве СИБУРа. Именно дашборды помогают нам вырваться из описанного выше порочного круга, предоставляя возможность просто посмотреть на экран и понять, что вообще сейчас происходит. Ну то есть, в компании.

В СИБУРе дашборды применяются для самых разных департаментов – логистики, продаж, закупок, маркетинга, топ-менеджмента, и тд. И о каждом из этих направлений мы расскажем подробнее.

Но начнём, пожалуй, с закупок и производства.

Читать далее

Основы Интерактивных карт

Время на прочтение7 мин
Охват и читатели49K

Для визуализации интерактивных карт рассмотрим библиотеку - Folium.

Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того, чтобы помочь людям визуализировать гео-пространственные данные.

Folium - это библиотека с открытым исходным кодом, созданная на основе возможностей Datawrangling экосистемы.

С помощью Folium можно создать карту любого местоположения в мире, если вы знаете его значения широты и долготы.

Также можете создать карту и наложить маркеры, а также кластеры маркеров поверх карты для крутых и очень интересных визуализаций.

Folium - это библиотека Python, которая помогает создавать несколько типов карт Leaflet. Тот факт, что результаты Folium интерактивны, делает эту библиотеку очень полезной для создания информационных панелей.

На официальной странице документации Folium:

Читать далее

Инфографика: Влияние военных операций на доступность и релокацию веб-ресурсов

Время на прочтение3 мин
Охват и читатели11K
The Impact of War in Ukraine on Relocation and Availability of Web Resources

Делюсь личными наблюдениями о сложившейся ситуации с Интернет-ресурсами из выборки по Украине. Возможно, это первые имеющиеся данные о влиянии военной операции на то, каким образом это затронуло веб-ресурсы. Эта информация будет интересна или полезна, чтобы увидеть, как примерно складывается ситуация в цифрах, понять поведенческие модели, объемы и направления миграции.


В целом, всё, что я хотел рассказать, находится на инфографике, ниже просто дополнительные комментарии о том, какие данные предоставлены и из чего они сложились, о методе исследования, погрешностях и некоторых подытогах.


Подробнее...

Визуализатор для ZX Spectrum и MSX или с Днем Радио, Гики

Время на прочтение6 мин
Охват и читатели8.7K

Сегодня принимают поздравления с профессиональным праздником некоторые гики =), так что хотелось бы рассказать о создании чего-то такого теплого светодиодного радиотехнического… И да! для вечного живого Z80!

Кому интересно, что ещё можно такого придумать для Z80 в XXI веке, прошу под кат...

история создания спектролайзера...

Ближайшие события

Volumetric-студия — уникальный проект с интригующими возможностями

Время на прочтение6 мин
Охват и читатели6.3K

Привет!

Сегодня с вами Максим Козлов, руководитель Sber AR/VR Lab.

Устраивайтесь поудобнее, зовите кота, включайте лампу — это будет длинная история. О цифровых двойниках, volumetric-съёмке и о том, чем это всё обернётся для нас уже в скором будущем.

Читать далее

Внедрение программы обучения Tableau в inDriver

Время на прочтение9 мин
Охват и читатели2.5K

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях. 

Читать далее

Коротко о 6 простых и эффективных видах визуализации

Время на прочтение3 мин
Охват и читатели8.5K

У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.

Даже работая с некоторой числовой информацией, не относящейся к повседневным вещам, нам часто нужно найти в данных какие-то последовательности и закономерности, чтобы проанализировать их. Если мы увидим картинку, мы сможем сделать это быстрее. Таким образом, основная цель визуализации — создать визуальную форму для лучшего и более эффективного понимания закономерностей, скрытых в данных.

В качестве бонуса: визуализация может иллюстрировать написанные отчеты или статьи для облегчения донесения некоторых идей до читателей.

Тем не менее, данная статья посвящена топу простых видов визуализации. Поэтому с удовольствием поделюсь краткой подборкой вариантов визуализации, которыми пользуюсь почти каждый день.

Читать далее

Основы работы со Spark DataFrame

Время на прочтение4 мин
Охват и читатели45K

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Читать далее

Динамика в деле: интерактивные графики в Dash

Время на прочтение3 мин
Охват и читатели8.7K

Dash представляет собой фреймворк для визуализации данных и построения веб-приложений, понятен и довольно прост в применении. Может быть интересен тем, кто хочет использовать интерактивные графики для анализа данных с помощью Python. Рассмотрим построение таких графиков с применением обратных вызовов в Dash.

Читать далее

Изучение структуры файла с цифрового кардиографа, извлечение и анализ данных кардиограммы

Время на прочтение7 мин
Охват и читатели6.7K

Четыре года назад я уже писал статью на тему обработки кардиограммы. Тогда я показал, как можно перевести бумажную кардиограмму в цифровой формат PCM данных, отрыв затем её в звуковом редакторе. Мне было интересно воспроизвести, послушать и оценить, как это будет звучать. В этот раз предстоит не менее интересная задача. Необходимо разобраться в структуре файла кардиограммы, переписанного с цифрового кардиографа, и извлечь из него всю информацию о кардиограмме в понятном для пользователя виде.

Читать далее

Работа с отсутствующими значениями в Pandas

Время на прочтение9 мин
Охват и читатели117K

Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.

Для анализа необходимо импортировать библиотеки Python и загрузить данные.

Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.

Читать далее