Обновить
61.37

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Методы очистки данных в Pandas

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров37K

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.

Читать далее

SQL и python для анализа цен на новостройки в СПб или ценнейший навык для маркетолога в 2024

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров14K

«Зачем мне SQL и python?» — задают резонный вопрос маркетологи или менеджеры по продукту, особенно в сфере недвижимости, оптовой торговли, услуг для бизнеса: «У нас нет миллионов строк данных, нет логов, мы успешно работаем с несколькими таблицами в excel».

Да действительно, у вас может не быть корпоративного хранилища данных в компании, и основой автоматизации работы с данными является Power query (что сейчас в РФ делать все труднее и труднее). Но у вас точно есть данные, которые вы получаете от смежных отделов, из CRM/CDP, MES, АСУ ТП. Эти данные приходят регулярно в виде файлов, и вы сопоставляете эти данные друг с другом с помощью ВПР, фильтруете воронкой, чистите с помощью «Найти или заменить», делайте сводники с помощью функции Pivot table.

Читать далее

Одномерный лес и все прочее

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.7K

Объяснение «на пальцах» и реализация решающего дерева, случайного леса и бустинга.

Дерево принятия решений (также называют деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

Читать далее

Semantic BPM. Семантика и синтаксис бизнес-процессов

Уровень сложностиСредний
Время на прочтение26 мин
Количество просмотров5.4K

Онтологический инжиниринг в области Управления бизнес-процессами (BPM). Семантический BPM (Business Process Management), впрочем, как и семантический ЕА (Enterprise Architecture), – это заимствование концепций (подходов к описанию и онтологизации) \ инструментов Linked Data к указанным направлениям (формализация процессов и архитектур предприятий).

«Красная нить»: когда мы формализуем процессы - мы говорим об одном и том же, но на разных языках (нотациях), поэтому стандартизация Языка семантики, онтологических концептов BPM (EA) – важная, но еще недостаточно популяризированная составляющая развития BPM (следующий этап, ВРМ 3.0). Отделение («мух от котлет») семантики от синтаксиса позволит «рафинировать» понятийный (смысловой) анализ бизнес-процессов и при их аналитике оперировать базовыми (семантическими) концептами (образами). 

В Semantic BPM, как и в Semantic Web (семантическая паутина), смысл представленного процесса \ архитектуры понятен не только человеку, но и машинам и они могут его читать и обрабатывать. Эти смыслы, обычно передаваемые «человек – человек» на языке синтаксиса / графической грамматики через нотации VAD, EPC, BPMN, UML (плюс еще несколько десятков подобных вариантов \ форматов «обертывания», включая Дракон), исходно формализуются на языке семантики (стек Linked Data или аналогичный) и уже потом упаковываются в схемы с конкретной нотацией («пишутся» на языке какой-либо нотации). Для единого понимания смысловой составляющей схем применяется общая ВРМ-онтология, толковый словарь ВРМ. 

Читать далее

Кратко про FP в Julia

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.6K

В отличие от императивного подхода, где выражается последовательность операций, функциональное программирование (FP) сосредотачивается на "что" и "как" должно быть вычислено, а не на "когда". Это приводит к более чистому, модульному и легко тестируемому коду.

Juliа поддерживает анонимные функции, замыкания, и имеет систему типов, которая позволяет писать высокооптимизированный код без потери читаемости и удобства.

Читать далее

Аналоговые индикаторы против цифровых. Жертвы маркетинга против ретроградов

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров7K

На просторах сети частенько можно наткнуться на споры про то, что же лучше - стрелочные приборы или цифровые.

Что же лучше? Предлагаю проверить на практике c помощью программы-теста, которая измеряет время, необходимое на считывание значений со стрелочного индикатора и цифрового.

Читать далее

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.2K

Хабр, привет! 

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

Читать далее

7 направлений оптимизации ClickHouse, которые помогают в BI

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров13K

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации. 

А что там с оптимизацией ClickHouse?

О пройденном пути, полученных результатах и наших планах в мониторинге

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров3.4K

Да, эта тема обсуждалась уже не раз, но мы хотим показать именно наш, более комплексный подход. В большинстве статей рассказывается именно о узконаправленных проблемах мониторинга и вариантах их решения, мы же хотим рассказать о пройденном пути, полученных результатах и наших планах.

Мы работаем в большой компании, где требования к производимому ПО очень высоки. Наши сервисы без сомнения можно назвать высоконагруженными системами. 

Об элементах инфраструктуры и её производительности коллеги уже рассказали в статьях Как мы мониторим наши сервисы и Как мы переводим наш мониторинг в наблюдаемость, так что сейчас на этих темах останавливаться не будем.

Читать далее

Z-test

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров22K

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины.

В этой статье рассмотрим, что такое Z-тест, чем он полезен и сравним его с t-тестом.

Читать далее

Рейтинги в сфере BI — какая от них польза?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.1K

Завтра, 15 февраля в 11-00 мы проводим круглый стол на тему оценки рейтингов BI, и я хочу пригласить всех желающих принять участие в этой онлайн-дискуссии. Мы планируем обсудить, почему в сфере BI рейтинги так сильно отличаются друг от друга, узнать напрямую у главных редакторов и руководителей аналитических отделов, чем они руководствуются, составляя те или иные рейтинги, а также спросить у заказчиков, обращались ли они к рейтингам, когда выбирали BI-платформу. Хотите принять участие и задать свои вопросы маститым экспертам? Все подробности под катом.

Читать далее

Merlion Framework или как упростить работу с временными рядами

Время на прочтение11 мин
Количество просмотров3.9K

Единственная причина для существования времени — чтобы все не  случилось одновременно.

Альберт Эйнштейн

Привет! Меня зовут Дмитрий, я дата-инженер в SM Lab, и в этом посте хочу рассказать вам о Merlion Framework. В посте мы рассмотрим его архитектуру, полезные функции и отличия от аналогов, разберём пару практических примеров, а также посмотрим, как всё считать и на какие метрики стоит обращать внимание.

В нашем мире время является незаметным четвертым измерением, по оси которого можно упорядочивать разные события.

Временной ряд – это набор данных, описывающих изменения какой-либо переменной во времени. 

Задача анализа и предсказания временных рядов остаётся актуальной для бизнеса, ведь  для успешного планирования возникает необходимость прогнозирования, например, следующих показателей:

Читать далее

Оценка технического долга: метрики дефектов ИБ для команд разработки

Время на прочтение9 мин
Количество просмотров2.3K

Всем привет! Меня зовут Анастасия Арсеньева, я аналитик данных в Swordfish Security. Наша команда разрабатывает модуль визуализации метрик DevSecOps в рамках развития платформы AppSec.Hub. В предыдущих статьях мы говорили об оценке рисков ИБ, подходе Shift Left, обработке уязвимостей, проекции DORA на DevSecOps и анализе AppSec Coverage. Сегодня речь пойдет о не менее важном артефакте в парадигме ASOC – дефектах ИБ. Мы расскажем о метриках, с помощью которых команды разработки могут отслеживать текущее состояние безопасности и эффективность процессов исправления проблем в коде.

Читать далее

Ближайшие события

Параллельное выполнение в R

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Привет, Хабр!

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Читать далее

Метрики: их очарование и коварство

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.2K

Максим Лунев

Аналитик отдела аналитики производственного департамента Security Vision

Они окружили нас

Метрики прочно вошли в нашу жизнь. Финансы и спорт, бизнес и социальные сети - практически невозможно найти область, где те или иные количественные характеристики не решали бы много, если не все. Метрики рушат карьеры и возносят на пьедестал, вгоняют в депрессию и сулят золотые горы, могут стать лучшими друзьями или злейшими врагами. Не обошли они стороной и мир информационной безопасности.

 Все больше и больше современных SOC-центров активно внедряют в свою деятельность мониторинг и измерение своей эффективности. Это позволяет быстро выявить и устранить «бутылочные горлышки», оценить качество работы команд по реагированию, определить свои слабые места и составить стратегию развития. И, конечно же, проиллюстрировать свою ценность перед руководством компании, оправдав все вложенные инвестиции.

Читать далее

api2app — быстрое создание графического интерфейса для API

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров19K

Хочу рассказать о своём небольшом проекте с открытым исходным кодом, который создал для своих нужд. Возможно, кому-то он тоже будет полезен или найдутся люди, желающие помочь в его развитии.

При помощи api2app можно быстро создать графический интерфейс для API. Его можно использовать для тестирования или демонстрации работы вашего API. Созданным приложением можно поделиться со всеми желающими или использовать по приватной ссылке.

Читать далее

Графический интерфейс workflow и составные наборы данных

Время на прочтение4 мин
Количество просмотров4.3K

Привет, Хабр! Сегодня поговорим о графическом интерфейсе для работы с составными наборами данных, о том, как он устроен и для чего нужен. Поехали!

Читать далее

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

Время на прочтение2 мин
Количество просмотров637

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее

Маленький data-science для большого бизнеса, или В анализ данных со школьной скамьи

Время на прочтение8 мин
Количество просмотров4.3K

Привет, Хабр! В одной из предыдущих статей команда ВТБ обещала подробнее рассказать, как на конкурсе «Большие вызовы» в образовательном центре «Сириус» команда школьников занималась разработкой сервиса геоаналитики для бизнеса. Итак, время пришло, давайте же скорее начинать!

Меня зовут Максим Воля, мне 17 лет, и я один из тех самых школьников, который принял участие в этом конкурсе в составе школьной команды разработки. В статье расскажу, как мы готовились к проекту и создавали его, с какими данными работали, какой стек технологий применяли, с какими сложностями столкнулись и что получилось в итоге. На проекте я был Product-менеджером, также в команду входили Илья Демидов, который занимался машинным обучением, Даниил Ануфриев — компьютерное зрение, Дмитрий Рынин — аналитика, Владислав Секин — фуллстек-разработка. Сейчас подробно все расскажу. Добро пожаловать под кат!

Читать далее

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

Время на прочтение9 мин
Количество просмотров6.9K

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом. 

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее