Все потоки

Визуализация данных *

Облекаем данные в красивую оболочку

СтатьиПостыНовостиАвторыКомпании

badcasedaily1 4 мар 2024 в 07:15

Методы очистки данных в Pandas

Простой

6 мин

37K

Блог компании OTUSPython * Визуализация данных *

Обзор

Привет, Хабр!

Аналитики данных часто сталкиваются с грязными данными, которые могут существенно замедлить процесс анализа. Грязны данные – это пропущенные значения, дубликаты, неконсистентные данные. Пропущенные значения заставляют нас гадать, что же было замыслено нашим коллегой; дубликаты вводят в заблуждение, умножая одно и то же на количество их копий, а неконсистентные данные заставляют нас сомневаться в каждой цифре.

Очищать грязные данные можно c Pandas. Рассмотрим основные методы.

Читать далее

+9

Senecaminor 3 мар 2024 в 07:30

SQL и python для анализа цен на новостройки в СПб или ценнейший навык для маркетолога в 2024

Простой

14 мин

14K

Визуализация данных * Базы данных * SQL * Python * SQLite *

Из песочницы

«Зачем мне SQL и python?» — задают резонный вопрос маркетологи или менеджеры по продукту, особенно в сфере недвижимости, оптовой торговли, услуг для бизнеса: «У нас нет миллионов строк данных, нет логов, мы успешно работаем с несколькими таблицами в excel».

Да действительно, у вас может не быть корпоративного хранилища данных в компании, и основой автоматизации работы с данными является Power query (что сейчас в РФ делать все труднее и труднее). Но у вас точно есть данные, которые вы получаете от смежных отделов, из CRM/CDP, MES, АСУ ТП. Эти данные приходят регулярно в виде файлов, и вы сопоставляете эти данные друг с другом с помощью ВПР, фильтруете воронкой, чистите с помощью «Найти или заменить», делайте сводники с помощью функции Pivot table.

Читать далее

+14

GeoBlackrU 1 мар 2024 в 13:00

Одномерный лес и все прочее

Простой

7 мин

4.7K

Математика * Машинное обучение * Визуализация данных * Python *

Из песочницы

Объяснение «на пальцах» и реализация решающего дерева, случайного леса и бустинга.

Дерево принятия решений (также называют деревом классификации или регрессионным деревом) — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны признаки, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах — признаки, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение.

Читать далее

+10

itGuevara 23 фев 2024 в 21:01

Semantic BPM. Семантика и синтаксис бизнес-процессов

Средний

26 мин

5.4K

Подготовка технической документации * Визуализация данных * IT-стандарты * Анализ и проектирование систем * Семантические сети *

Онтологический инжиниринг в области Управления бизнес-процессами (BPM). Семантический BPM (Business Process Management), впрочем, как и семантический ЕА (Enterprise Architecture), – это заимствование концепций (подходов к описанию и онтологизации) \ инструментов Linked Data к указанным направлениям (формализация процессов и архитектур предприятий).

«Красная нить»: когда мы формализуем процессы - мы говорим об одном и том же, но на разных языках (нотациях), поэтому стандартизация Языка семантики, онтологических концептов BPM (EA) – важная, но еще недостаточно популяризированная составляющая развития BPM (следующий этап, ВРМ 3.0). Отделение («мух от котлет») семантики от синтаксиса позволит «рафинировать» понятийный (смысловой) анализ бизнес-процессов и при их аналитике оперировать базовыми (семантическими) концептами (образами).

В Semantic BPM, как и в Semantic Web (семантическая паутина), смысл представленного процесса \ архитектуры понятен не только человеку, но и машинам и они могут его читать и обрабатывать. Эти смыслы, обычно передаваемые «человек – человек» на языке синтаксиса / графической грамматики через нотации VAD, EPC, BPMN, UML (плюс еще несколько десятков подобных вариантов \ форматов «обертывания», включая Дракон), исходно формализуются на языке семантики (стек Linked Data или аналогичный) и уже потом упаковываются в схемы с конкретной нотацией («пишутся» на языке какой-либо нотации). Для единого понимания смысловой составляющей схем применяется общая ВРМ-онтология, толковый словарь ВРМ.

Читать далее

+5

badcasedaily1 23 фев 2024 в 11:40

Кратко про FP в Julia

Простой

5 мин

2.6K

Блог компании OTUSВизуализация данных * Julia *

Обзор

В отличие от императивного подхода, где выражается последовательность операций, функциональное программирование (FP) сосредотачивается на "что" и "как" должно быть вычислено, а не на "когда". Это приводит к более чистому, модульному и легко тестируемому коду.

Juliа поддерживает анонимные функции, замыкания, и имеет систему типов, которая позволяет писать высокооптимизированный код без потери читаемости и удобства.

Читать далее

+12

Einherjar 23 фев 2024 в 09:26

Аналоговые индикаторы против цифровых. Жертвы маркетинга против ретроградов

Простой

3 мин

7K

Интерфейсы * Usability * Визуализация данных * ДизайнНаучно-популярное

На просторах сети частенько можно наткнуться на споры про то, что же лучше - стрелочные приборы или цифровые.

Что же лучше? Предлагаю проверить на практике c помощью программы-теста, которая измеряет время, необходимое на считывание значений со стрелочного индикатора и цифрового.

Читать далее

+3

ak19 21 фев 2024 в 11:40

FineBI под микроскопом: Обзор новых функций и улучшений в Q1 2024

Простой

4 мин

3.2K

Блог компании GlowByteХранение данных * Визуализация данных * Big Data *

Обзор

Хабр, привет!

Меня зовут Александр Ларин, я являюсь руководителем центра технической поддержки и обучения в GlowByte, а также лидером самого большого в России сообщества FineBI.

Сегодня в нашем фокусе – обновления, которые не оставят равнодушными ни одного бизнес-аналитика. Призываю поднять планку ваших знаний о современных инструментах анализа данных. Если вы, как и я, жаждете узнать о последних обновлениях в мире бизнес-аналитики, то эта статья именно для вас. Развивайтесь вместе с FineBI, чтобы быть на шаг впереди конкурентов в мире данных и аналитики. А тех, кому этого будет недостаточно, приглашаю на наши курсы.

Читать далее

+5

nike_ilin 18 фев 2024 в 06:30

7 направлений оптимизации ClickHouse, которые помогают в BI

Средний

12 мин

13K

Блог компании VisiologyBig Data * Визуализация данных * Хранение данных *

Кейс

Из песочницы

Привет, Хабр! Меня зовут Никита Ильин, я занимаюсь разработкой архитектуры BI-платформы Visiology. Сегодня мы поговорим про оптимизацию ClickHouse — ведущей СУБД, которую все чаще используют для решения задач аналитики на больших объемах данных. В этой статье я расскажу, почему важно оптимизировать ClickHouse, в каких направлениях это можно делать, и почему разумный подход к размещению информации, кэшированию и индексированию особенно важен с точки зрения производительности BI-платформы. Также мы поговорим о том, к каким нюансам нужно готовиться, если вы решаете оптимизировать CH самостоятельно, сколько времени и сил может потребовать этот процесс и почему мы решили “зашить” в новый движок ViQube 2 десятки алгоритмов автоматической оптимизации.

А что там с оптимизацией ClickHouse?

+25

feelka88 16 фев 2024 в 09:05

О пройденном пути, полученных результатах и наших планах в мониторинге

Простой

15 мин

3.4K

Блог компании билайнDevOps * Визуализация данных * IT-инфраструктура * Системное администрирование *

Да, эта тема обсуждалась уже не раз, но мы хотим показать именно наш, более комплексный подход. В большинстве статей рассказывается именно о узконаправленных проблемах мониторинга и вариантах их решения, мы же хотим рассказать о пройденном пути, полученных результатах и наших планах.

Мы работаем в большой компании, где требования к производимому ПО очень высоки. Наши сервисы без сомнения можно назвать высоконагруженными системами.

Об элементах инфраструктуры и её производительности коллеги уже рассказали в статьях Как мы мониторим наши сервисы и Как мы переводим наш мониторинг в наблюдаемость, так что сейчас на этих темах останавливаться не будем.

Читать далее

+17

badcasedaily1 14 фев 2024 в 12:51

Z-test

Простой

5 мин

22K

Блог компании OTUSСтатистика в ITВизуализация данных *

Обзор

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины.

В этой статье рассмотрим, что такое Z-тест, чем он полезен и сравним его с t-тестом.

Читать далее

+13

ViAndrey 14 фев 2024 в 09:22

Рейтинги в сфере BI — какая от них польза?

Простой

4 мин

2.1K

Блог компании VisiologyХранение данных * Визуализация данных * Big Data * Конференции

Завтра, 15 февраля в 11-00 мы проводим круглый стол на тему оценки рейтингов BI, и я хочу пригласить всех желающих принять участие в этой онлайн-дискуссии. Мы планируем обсудить, почему в сфере BI рейтинги так сильно отличаются друг от друга, узнать напрямую у главных редакторов и руководителей аналитических отделов, чем они руководствуются, составляя те или иные рейтинги, а также спросить у заказчиков, обращались ли они к рейтингам, когда выбирали BI-платформу. Хотите принять участие и задать свои вопросы маститым экспертам? Все подробности под катом.

Читать далее

+6

ER_LONGBORDER 8 фев 2024 в 12:53

Merlion Framework или как упростить работу с временными рядами

11 мин

3.9K

Блог компании SM LabВизуализация данных * Программирование * Машинное обучение * Python *

Единственная причина для существования времени — чтобы все не случилось одновременно.

Альберт Эйнштейн

Привет! Меня зовут Дмитрий, я дата-инженер в SM Lab, и в этом посте хочу рассказать вам о Merlion Framework. В посте мы рассмотрим его архитектуру, полезные функции и отличия от аналогов, разберём пару практических примеров, а также посмотрим, как всё считать и на какие метрики стоит обращать внимание.

В нашем мире время является незаметным четвертым измерением, по оси которого можно упорядочивать разные события.

Временной ряд – это набор данных, описывающих изменения какой-либо переменной во времени.

Задача анализа и предсказания временных рядов остаётся актуальной для бизнеса, ведь для успешного планирования возникает необходимость прогнозирования, например, следующих показателей:

Читать далее

+19

mamgusta 7 фев 2024 в 09:14

Оценка технического долга: метрики дефектов ИБ для команд разработки

9 мин

2.3K

Блог компании Swordfish SecurityDevOps * Визуализация данных * Информационная безопасность *

Мнение

Всем привет! Меня зовут Анастасия Арсеньева, я аналитик данных в Swordfish Security. Наша команда разрабатывает модуль визуализации метрик DevSecOps в рамках развития платформы AppSec.Hub. В предыдущих статьях мы говорили об оценке рисков ИБ, подходе Shift Left, обработке уязвимостей, проекции DORA на DevSecOps и анализе AppSec Coverage. Сегодня речь пойдет о не менее важном артефакте в парадигме ASOC – дефектах ИБ. Мы расскажем о метриках, с помощью которых команды разработки могут отслеживать текущее состояние безопасности и эффективность процессов исправления проблем в коде.

Читать далее

+4

badcasedaily1 6 фев 2024 в 12:55

Параллельное выполнение в R

Простой

7 мин

1.5K

Блог компании OTUSR * Визуализация данных *

Обзор

Привет, Хабр!

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Читать далее

+14

MaximLunev 5 фев 2024 в 06:46

Метрики: их очарование и коварство

Простой

6 мин

3.2K

Блог компании Security VisionИнфографикаВизуализация данных * Статистика в ITИнформационная безопасность *

Максим Лунев

Аналитик отдела аналитики производственного департамента Security Vision

Они окружили нас

Метрики прочно вошли в нашу жизнь. Финансы и спорт, бизнес и социальные сети - практически невозможно найти область, где те или иные количественные характеристики не решали бы много, если не все. Метрики рушат карьеры и возносят на пьедестал, вгоняют в депрессию и сулят золотые горы, могут стать лучшими друзьями или злейшими врагами. Не обошли они стороной и мир информационной безопасности.

Все больше и больше современных SOC-центров активно внедряют в свою деятельность мониторинг и измерение своей эффективности. Это позволяет быстро выявить и устранить «бутылочные горлышки», оценить качество работы команд по реагированию, определить свои слабые места и составить стратегию развития. И, конечно же, проиллюстрировать свою ценность перед руководством компании, оправдав все вложенные инвестиции.

Читать далее

+12

Andchir 3 фев 2024 в 17:47

api2app — быстрое создание графического интерфейса для API

Простой

3 мин

19K

Usability * Визуализация данных *

Обзор

Хочу рассказать о своём небольшом проекте с открытым исходным кодом, который создал для своих нужд. Возможно, кому-то он тоже будет полезен или найдутся люди, желающие помочь в его развитии.

При помощи api2app можно быстро создать графический интерфейс для API. Его можно использовать для тестирования или демонстрации работы вашего API. Созданным приложением можно поделиться со всеми желающими или использовать по приватной ссылке.

Читать далее

+53

Alek_Che 30 янв 2024 в 16:10

Графический интерфейс workflow и составные наборы данных

4 мин

4.3K

Блог компании Modus BIВизуализация данных *

Привет, Хабр! Сегодня поговорим о графическом интерфейсе для работы с составными наборами данных, о том, как он устроен и для чего нужен. Поехали!

Читать далее

+1

AntonGruzdev 30 янв 2024 в 10:35

Приглашаем на Cinimex DATA meetup (офлайн/онлайн)

2 мин

637

Блог компании СинимексData Engineering * КонференцииВизуализация данных * Математика *

Привет, Хабр! Мы начинаем новый сезон ИТ-событий и приглашаем всех желающих в Санкт-Петербург на DATA meetup посвященный, темам инжиниринга данных, анализа данных и bi-аналитики.

Меня по-прежнему зовут Антон, и вот наша программа.

Читать далее

+1

MaximVolya 30 янв 2024 в 09:25

Маленький data-science для большого бизнеса, или В анализ данных со школьной скамьи

8 мин

4.3K

Блог компании ВТБГеоинформационные сервисы * Визуализация данных * Машинное обучение *

Привет, Хабр! В одной из предыдущих статей команда ВТБ обещала подробнее рассказать, как на конкурсе «Большие вызовы» в образовательном центре «Сириус» команда школьников занималась разработкой сервиса геоаналитики для бизнеса. Итак, время пришло, давайте же скорее начинать!

Меня зовут Максим Воля, мне 17 лет, и я один из тех самых школьников, который принял участие в этом конкурсе в составе школьной команды разработки. В статье расскажу, как мы готовились к проекту и создавали его, с какими данными работали, какой стек технологий применяли, с какими сложностями столкнулись и что получилось в итоге. На проекте я был Product-менеджером, также в команду входили Илья Демидов, который занимался машинным обучением, Даниил Ануфриев — компьютерное зрение, Дмитрий Рынин — аналитика, Владислав Секин — фуллстек-разработка. Сейчас подробно все расскажу. Добро пожаловать под кат!

Читать далее

+4

konstantin_tyurin 25 янв 2024 в 14:12

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

9 мин

6.9K

Блог компании КуперIT-стандарты * Визуализация данных * Хранение данных * Data Engineering *

Кейс

Счастлив тот аналитик, у которого в компании есть дата-каталог — единая точка входа для поиска информации о данных невероятно экономит время, data lineage выстроен, а уровень заполненности документации на высоком уровне.

Чтобы это были не только мечты, наша команда аналитиков задумалась, как претворить их в реальность. Нам хотелось, чтобы инструмент для поиска описания данных был удобным как библиотечный каталог с широким функционалом.

Меня зовут Костя Тюрин, я руковожу командой BI в СберМаркете. Год назад мы решили внедрить дата-каталог, и сейчас его MAU превышает количество аналитиков в два раза: им пользуется наша команда, а ещё дата-инженеры, менеджеры и команда ИБ. В статье делюсь нашим опытом внедрения DataHub’a и планами на дальнейшее развитие инструмента.

Читать далее

+10

1 2 ...

26

27 28 ...