Как стать автором
Поиск
Написать публикацию
Обновить
49.26

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Деревья и пожары: растим деревья на данных и тушим пожар риск-мониторинга

Время на прочтение7 мин
Количество просмотров5.8K

Представьте, что вы работаете в контролирующей организации, и вам нужно проверить большое количество объектов. Как охватить одним взглядом все данные? Сколько контрактов у проверяемой организации? Допущены ли в них нарушения, как часто они встречаются? Как провести массовую проверку 10 тысяч контрактов за один месяц, выбирая наиболее проблемные из них?

С такими вопросами я столкнулась, работая аналитиком в заказной разработке информационной системы (ИС) для контрольного управления в крупном городе Х (с большим бюджетом). Моей задачей было написать постановку на блок «Плановые проверки» в модуле «Проверки».

Сначала моему руководству и Заказчику задача виделась простой, так как ранее был запущен блок «Внеплановые проверки». Но когда я проанализировала ситуацию, то пришла к тому, что нужна не только оптимизация, а капитальный реинжиниринг бизнес-процесса ввиду большого объёма данных и нехватки человеческих ресурсов. Также я предложила визуализацию большого массива данных в виде дерева для повышения прозрачности и управляемости процесса проведения масштабных проверок.

В статье я расскажу про своё решение, что меня вдохновило на его создание, как оно решило проблему и как оно может применяться в других проектах. Вы можете взять его за основу, если нужно создать «паспорт/профиль организации и риски, с ней связанные». Такой подход поможет разрешить конфликт интересов: исполнитель — руководитель исполнителя — главный руководитель. Ситуация станет понятной, прозрачной и управляемой для каждого участника процесса.

Что за дерево такое

Анализ аудиоданных (часть 3)

Время на прочтение15 мин
Количество просмотров12K

Машинное обучение

В третьей части анализа аудиоданных мы разберем относительно простой и более быстрый способ классификации аудиофайлов - алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов.

В двух частях анализа аудиоданных мы рассмотрели характеристики, которые есть у каждого аудиосигнала и извлечение значимых характеристик.

Мы получили набор данных, содержащий значимые характеристики аудиоданных (45 значений) в машиночитаемом виде - Двухмерная таблица - Dataframes, состоящая из 47столбцов и 50000 строк.

1 часть

2 часть

Все признаки (характеристики) важны при анализе аудиоданных, так как описывают физические свойства звука: высоту, громкость, тембр и т. д.

При прохождении воздуха через голосовые связки возникают вибрации, которые в виде упругих волн распространяются в среде. Каждый звук представляет собой набор волн. Это основной тон - волны гендерной идентификации ( у каждого говорящего базовая частота основного тона  индивидуальна и обусловлена особенностями строения гортани, в среднем для мужского голоса она составляет от 80 до 210 Гц, для женского - от 150 до 320 Гц. ). Это волны - обертоны ( призвуки, которые выше основного тона) и волны форманты (распознавание речи) связанные с уровнем частоты голосового тона, которые образуют тембр звука.

Читать далее

Сервисы сквозной аналитики 2022 года

Время на прочтение10 мин
Количество просмотров15K

Сквозная аналитика – волшебная палочка, которая делает вжух и превращает данные по рекламе, заказам, звонкам и клиентам из разрозненных таблиц в единую связанную систему. Даже если раньше вы работали с электронной коммерцией в счетчиках, сквозная все равно способна удивить. Там, где раньше в конце воронки были бездушные цифры, теперь появляются статусы заказов и конкретные живые клиенты.

Если вы готовы подключать сквозную аналитику и выбираете систему, то читайте нашу подборку. Мы постарались кратко и простым языком расписать особенности популярных в России сервисов.

Читать далее

Как мы используем Luxms BI — российское ПО для аналитических отчетов

Время на прочтение4 мин
Количество просмотров6.7K

Тема импортозамещения последние месяцы не сходит со страниц изданий. Очевидно, что в области работы с данными компании также активно ищут новые возможности по использованию продуктов, которые не будут заблокированы в России, а производитель продолжит оказывать техническую поддержку. Меня зовут Полина Тесленко, я работаю в ГК «КОРУС Консалтинг». В этой статье я хочу поделиться практическим опытом работы с импортозамещяющим ПО — Luxms BI.

Читать далее

Выбор кадастрового инженера с помощью Data Science

Время на прочтение23 мин
Количество просмотров3.6K

Закончивался 1 квартал 2020 года, ажиотаж вокруг пандемии ковид в РФ был на своем пике. Симптоматика первых переболевших показывала, что даже в случае относительно легко перенесенной болезни вопрос реабилитации и восстановления работоспособности (в том числе и психологическо-когнитивной) - встает на первое место. И мы наконец-то решили "Хватит сидеть, пора делать свое дело. Если не сейчас, то когда?!". В условиях повсеместной удаленки нашли иностранного профильного партнера-инвестора и разработали адаптированный к РФ концепт клиники/пансионата по реабилитации пациентов после перенесенного COVID-19.

Ключевым риском для инвесторов была возможная скорость реализации проекта (после пандемии предполагалась реконцепция клиники в многопрофильный реабилитационный центр - а это существенно большие инвестиции и сроки окупаемости) - поэтому было важно стартовать как можно быстрее. Команда проекта была преисполнена энтузиазма, готова соинвестировать и мы договорились с инвесторами, что основной транш инвестиций пойдет не на стройку, а на расширение и оборудование приобретенных командой площадей.

Мы достаточно быстро нашли несколько подходящих объектов в Московской области, но самым интересным показался объект, реализуемый Агентством по Страхованию Вкладов в рамках банкротство одного из банков РФ. Взвесив все "за" и "против", мы приняли решение об участии в публичных торгах и выкупили объект. Окрыленные победой на торгах, мы быстро заключили ДКП, произвели оплату и подали документы в Росреестр на регистрацию сделки. Не ожидая никаких подвохов с регистрацией (все-таки продавец - АСВ, торги - публичные, имущество - банковское) мы сразу же начали переговоры с подрядчиками по реновации и строительству. Как же мы ошибались...

Читать далее

Анализ аудиоданных (часть 2)

Время на прочтение7 мин
Количество просмотров15K

В первой части анализа аудиоданных мы рассмотрели характеристики, которые есть у каждого аудиосигнала.

Анализ аудиоданных (часть1) - https://habr.com/ru/post/668518/

Характеристики аудиофайлов для разных аудио записей.

В наборе аудиоданных есть Human files - 10322 файла ( записи “живого” голоса (класс 1)) и Spoof files - 39678 файлов ( записи синтетического/конвертированного/перезаписанного голоса (класс 2)) . В одном аудиофайле (3 - 6 сек) голос мужской или женский что-то говорит на каком-то языке (английском, русском, немецком, китайском)

Вот так выглядят характеристики аудиофайлов для разных аудио записей:

Читать далее

Шаблон новичка на пути PANDAS в искусстве анализа данных

Время на прочтение6 мин
Количество просмотров14K

Доброго времени суток! Меня зовут Алексей. Сейчас я обучаюсь на аналитика данных в "Яндекс Практикум". Дело для меня непривычное, совершенно не связанное с моей предыдущей деятельностью (пока что работаю врачом, иногда пишу рассказы и повести), так что порой некоторые темы даются с большим трудом.

Начинающий аналитик данных с первых дней учёбы сталкивается с необходимостью освоить одну из наиболее важных в его будущей работе библиотек python - pandas. По себе знаю: порой здесь возникает такая путаница в голове, что первые простые задания вызывают ступор. Пройдя множество учебных заданий и успешно сдав несколько проектов, хочу поделиться с такими же новичками, как я сам, парой советов, которые, надеюсь, смогут упростить учебный процесс и первые шаги в новой профессии.

И мой главный совет: "сделайте себе шаблон"!

Не важно, в чём вы пишете код: "Google colaboratory", "Jupiter notebook" или в какой-то иной среде. Не важно, сколько вы пока знаете: если осваиваете профессию с нуля, вносите в шаблон всё, что уже умеете - позже всегда можно удалить лишнее. Шаблон поможет вам быстро сориентироваться в любой новой задаче, напомнит о необходимых манипуляциях. 

Постарайтесь найти баланс между общими правилами оформления работы, которые от вас требуют (преподаватели, ревью, заказчики), логикой программирования и вашими личными предпочтениями в ведении документации. 

Лично я большую часть учебных проектов выполнил в "Google colaboratory" (далее по тексту просто "колаб"), где предпочитаю следующую структуру шаблона.

Читать далее

Как мы в СИБУРе делаем дашборды для людей. Часть 2: логичные дашборды для департамента логистики

Время на прочтение5 мин
Количество просмотров12K

Привет! Как и обещали в предыдущем посте, продолжаем рассказывать про то, как внедряем удобные дашборды для разных департаментов СИБУРа. На очереди — логистика.

За что отвечает логистика? Это не очень очевидно, но логистика — это неотъемлемая часть клиентского сервиса. И хороший дашборд для логистики — это рабочий инструмент для принятия эффективных решений по сокращению затрат и по обеспечению клиентского сервиса. Меня зовут Максим Коровин, я отвечаю за дашборды в логистике, и в этом посте расскажу, как всё устроено.

Читать далее

Визуализируем данные из xml в виде социальной сети

Время на прочтение6 мин
Количество просмотров3.8K

Если у Вас есть данные о связях людей в XML формате, то пора применять графовую аналитику.

Читать далее

Visiology 3.0: реальная замена Microsoft Power BI или наш дерзкий маркетинговый ход?

Время на прочтение5 мин
Количество просмотров10K

В середине мая для самых заинтересованных мы приоткрыли завесу тайны и провели первый закрытый предпоказ нашей новой Visiology 3.0. Сегодня пришло время открыто сообщить о том, что мы находимся на финальной стадии разработки BI-платформы нового поколения, которая не только “сильнее, быстрее и выше” предыдущей версии, но также, я уверен, сможет стать реальной заменой для Power BI. Все подробности о том, “как и почему” — под катом.

Читать далее

Как в отчете Power BI вывести несколько параметров на графике

Время на прочтение6 мин
Количество просмотров17K

Мы создаем отчеты в Pbi для контекстной рекламы, и добавляем в них различные функции по запросу маркетолога или клиента. И часто бывает, что функционала базовых визуализаций становится недостаточно.

Например, как уместить все необходимые показатели на один график, чтобы можно было смотреть динамику, например, по расходу и доходу, а также по расходу и количеству покупок, расходу и ROI на одном графике?

Решаем задачу вывода нескольких показателей на график с возможностью выбора любых комбинаций. Вместо двух-трех графиков оставляем всего один, освобождаем место на дашборде. Расширяем функционал базовых визуализаций с помощью DAX.

Возьмем простой дата-сет для примера.

Читать далее

Анализируем речь с помощью Python: Как и о чем говорят на YouTube-канале «вДудь»?

Время на прочтение8 мин
Количество просмотров21K

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Читать далее

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Время на прочтение7 мин
Количество просмотров4.2K

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее

Ближайшие события

Анализ аудиоданных (часть 1)

Время на прочтение8 мин
Количество просмотров29K

Каждый аудиосигнал содержит характеристики. Из MFCC (Мел-кепстральных коэффициентов), Spectral Centroid (Спектрального центроида) и Spectral Rolloff (Спектрального спада) я провела анализ аудиоданных и извлекла характеристики в виде среднего значения, стандартного отклонения и skew (наклон) с помощью библиотеки librosa.

Для классификации “живого” голоса (класс 1) и его отделению от синтетического/конвертированного/перезаписанного голоса (класс 2) я использовала алгоритм машинного обучения - SVM (Support Vector Machines) / машины опорных векторов. SVM работает путем сопоставления данных с многомерным пространством функций, чтобы точки данных можно было классифицировать, даже если данные не могут быть линейно разделены иным образом. Для работы я использовала математическую функцию, используемой для преобразования (известна как функция ядра) - RBF (радиальную базисную функцию).

В первой части анализа аудиоданных разберем:

Читать далее

Что под капотом у Умного Ташкента?

Время на прочтение14 мин
Количество просмотров8.1K

Привет, Хабр! Вот, прошли майские праздники, и я готов поделиться с вами подробностями нашего проекта по цифровизации Ташкента. В конце концов, наша референсная модель может помочь в цифровизации других городов. И в этом посте мы подробнее разберем вопросы интеграции между различными компонентами, механику взаимодействия с Visiology BI и Геоинтеллект, а также ряд интересных на мой взгляд технических вопросов. Я покажу, как в нашей системе реализована поддержка процессов укладки асфальта, аналитики по видео, загрузки огромных массивов данных из различных ведомств. 

Читать далее

Анализ эффективности тренировок с помощью Python и линейной регрессии

Время на прочтение14 мин
Количество просмотров5.5K
Был ли эффект от регулярных тренировок? Я проанализировал данные своих предыдущих тренировок с помощью нескольких общепринятых методов и получил неоднозначные результаты.


Читать дальше →

Как рисовать диаграммы в Seaborn

Время на прочтение10 мин
Количество просмотров63K

Начинающие аналитики могут смело класть эту шпаргалку в закладки, а мы приглашаем вас под кат за диаграммами и кодом, пока начинается наш курс по анализу данных. Для удобства мы сократили текст и перенесли его часть в комментарии, ближе к нужным строкам кода.

Читать далее

Почему я больше не рекомендую Julia

Время на прочтение7 мин
Количество просмотров20K

Много лет я пользовался языком программирования Julia для преобразования, очистки, анализа и визуализации данных, расчёта статистики и выполнения симуляций.

Я опубликовал несколько опенсорсных пакетов для работы с такими вещами, как поля расстояний со знаком, поиск ближайших соседей и паттерны Тьюрингатакже с другими), создавал визуальные объяснения таких концепций Julia, как broadcasting и массивы, а ещё применял Julia при создании генеративной графики для моих визиток.

Какое-то время назад я перестал пользоваться Julia, но иногда мне задают о нём вопросы. Когда люди спрашивают меня, я отвечаю, что больше не рекомендую его. Мне подумалось, что стоит написать, почему.
Читать дальше →

Сегментарный анализ на примере RFM-анализа средствами Power BI

Время на прочтение12 мин
Количество просмотров10K

Существует большое разнообразие методов сегментарного анализа в маркетинге. Во-первых, сегментация — это стратегия, используемая для концентрации ресурсов на целевом рынке/объекте и оптимизации их использования. Во-вторых, сегментация — это алгоритм анализа рынка для лучшего учёта его особенностей.

Эффективно проведённая сегментация упрощает и удешевляет маркетинговую политику, позволяет отказаться от многих затратных методов продвижения. Объяснение очень простое - покупатель приходит к продавцу не за рекламой и скидками, а за удовлетворением своих потребностей. Поэтому продавцы, предлагающие товары или услуги, лучше удовлетворяющие потребности покупателей (по свойствам, качеству, цене и т. д.), могут добиться большего эффекта, а также свести к минимуму затраты на рекламу и скидки.

Рассмотрим частотно-монетарный метод сегментации применительно к e-commerce сфере. Частотно-монетарный анализ (RFM анализ) - анализ, в основе которого лежат поведенческие факторы групп или сегментов клиентов, позволяющий сегментировать клиентов по частоте и сумме покупок и выявлять тех, которые приносят больше денег. Данный метод позволяет получить ценные инсайты по построению маркетинговых стратегий в компании.​ Также RFM-сегментация помогает применять особый комуникативный подход к каждой группе клиентов.

RFM-анализ частично перекликается с принципом Парето, полагающим, что 80% результатов происходят благодаря 20% усилий. Если данный принцип рассматривать в общем ключе маркетинга - 80% всех ваших продаж исходят от 20% наиболее лояльных и постоянных клиентов. Постоянные клиенты всегда буду иметь высокое влияние на выручку, а значит – возвращаемость этих клиентов крайне важна для показателей дохода.

Читать далее

Учёные спешат отобрать ледяные керны, пока не растаяли ледники

Время на прочтение9 мин
Количество просмотров5.3K

Лёд содержит исторические данные о климате и показывает, какое влияние на него оказало человечество. Но многие ледники сейчас тают, и это заставляет учёных с новой силой взяться за дело.

В условиях глобального потепления, когда тают ледники и ледяные щиты, учёные наперегонки отбирают ледяные керны — вместе с давно замёрзшими записями о климатических циклах, которые в них содержатся. Некоторые учёные говорят, что времени у них в обрез. А в ряде случаев — уже слишком поздно.

Читать далее