Обновить
56.11

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Решил перейти на Python и не пожалел

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров39K

С полгода назад я начал чаще использовать для программирования Python. Почему? Конечно, из-за ИИ. Лично для меня очевидно, что сегодня эта сфера связана с очень большими деньгами перспективами во всех направлениях. А какой язык является самым распространённым для ИИ? Да-да, как-раз этот проныра.

Я уже писал на Python, но только небольшие скрипты. К примеру, вот этот скрейпит метаданные всех видео с моего канала на YouTube. Собранные метаданные выводятся в виде файла JSON, который я использую для показа красивой статистики роликов на этой статичной странице. Как можно видеть здесь, этот скромный скрипт через GitHub Actions выполняется в соло-режиме каждый понедельник. Просто реализовать всё это на Python куда проще, чем с помощью того же Batch. И не только из-за более дружественного синтаксиса, но и потому, что его интерпретатор нативно интегрирован во все дистрибутивы Unix. Разве не круто?

Читать далее

Как ИИ-продукты FanRuan трансформируют бизнес-аналитику: инструменты и возможности

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров998

Всем привет! Сегодня только ленивый не пишет про искусственный интеллект. Это и понятно: тема не просто популярна, применение ИИ‑технологий в различных индустриях стало настоящим трендом современности. Искусственный интеллект меняет подход и к бизнес‑аналитике, делая её быстрее, точнее и доступнее. FanRuan активно внедряет ИИ в свои продукты, создавая решения нового поколения, что подтверждается действиями: FanRuan занял 6 место в престижном рейтинге «Top 100 Chinese AI Companies 2025», опубликованном авторитетным ресурсом EqualOcean и Университетом Цинхуа. Это признание — результат постоянной работы над тем, чтобы сделать искусственный интеллект реальным помощником в бизнес‑аналитике. FanRuan активно развивает AI‑аналитику (ABI) в FineBI, инструменты позволяют бизнесу в режиме реального времени анализировать данные, находить скрытые закономерности и принимать решения на основе инсайтов, сгенерированных ИИ. Но за этой историей стоит целая экосистема ИИ‑продуктов FanRuan, о которой мы, команда Business Intelligence GlowByte, расскажем подробнее.

Читать далее

Основы ETL на примере работы с Superset, Airflow и ClickHouse

Время на прочтение39 мин
Количество просмотров9.4K

В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения.

В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries.

Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

Читать далее

BI: 5 трендов в сфере ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4K

Привет, Хабр! Сегодня я предлагаю немного порассуждать на тему ИИ в сфере BI-аналитики. В последнее время тема искусственного интеллекта все чаще поднимается на конференциях, да и мне самому все больше приходится рассуждать про ИИ и даже делать доклады о методах его применения (например, как на конференции Data&AI). Совершенно точно вокруг очень много хайпа и хочется разобраться, где же на самом деле ИИ в контексте BI-аналитики даёт реальное преимущество, а где — всё ещё нет.

Читать далее

В Петербурге прошла конференция по процесс майнингу и инструментам повышения качества взаимодействия аудита и бизнеса

Время на прочтение4 мин
Количество просмотров569

В центре цифровой трансформации «Газпром нефть» Цифергауз состоялась ежегодная конференция «Цифровой аудит и процесс майнинг – технологии будущего». Организатор – департамент внутреннего аудита «Газпром нефти» – уже второй год подряд собирает вместе более 150 руководителей служб внутреннего аудита, внутреннего контроля, ИТ-директоров и руководителей бизнес-подразделений из более чем 90 крупнейших компаний и регуляторов.

Читать далее

Реализация правил IBCS в Power BI

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров413

Создание понятных и информативных отчетов — ключевая задача для аналитиков и специалистов по данным. В этой статье мы разбираем, как стандарты IBCS (International Business Communication Standards) могут помочь улучшить визуализацию данных в Power BI, повысив их читаемость и эффективность. Рассмотрим, как связать ClickHouse с Apache Superset для создания мощных аналитических дашбордов и какие практики помогут вам избежать избыточности и повысить точность представленных данных.

Читать далее

Digital Twin. Часть 2. Инструментальный Цифровой двойник

Время на прочтение27 мин
Количество просмотров1.8K

Вторая часть посвящена проблеме адекватности обоих двойников и путей её решения. Именно неадекватность модели – это основная преграда, о которую спотыкаются практически всё, выдаваемое сегодня за «Цифрового двойника».   

В первой части [DT1] были рассмотрены проблемы современного «Цифрового двойника» \ Digital Twin (ЦД \ DT) и общие подходы к его идентификации, в первую очередь, его «Трехкомпонентный состав DT» («три кита» двойника): реальный объект (физический двойник, «физик», Physical Twin, PT), его модель (собственно сам DT) и обратная связь – как передача эксплуатационных данных объекта в контекст его модели (в идеале двухсторонний обмен). В идеале должен быть не только двухсторонний обмен по эксплуатационным данным, но и обмен по состоянию самой структуры объектов (синхронизация структуры), что будет подтверждать актуальность используемой модели (структурную адекватность обоих двойников). 

В большинстве случаев предлагаемые «примеры DT» представляют собой незамысловатый ребрендинг привычных (обычных) систем, т.е. скорее являются Pseudo Digital Twin \ Digital Impostor, а не Digital Twin, при этом даже имея все три компонента DT могут содержать модель не адекватную своему физическому близнецу («as-is» vs «as-really-is").

Кроме маскирования под DT обычных SCADA - систем и CASE \ BPMS типа ARIS (см. первую часть [DT1]), включая Enterprise Architecture (EA, архитектура предприятия как цифровой двойник предприятия), красивую вывеску «DT» прикручивают к системам:

- ERP, например, dia$par,

Читать далее

Многомерный анализ данных временных рядов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров5.8K

Попробуем применить многомерный анализ к данным временных рядов с помощью интерактивной визуализации данных измерений и их взаимосвязей.

Читать далее

Интерактивная карта Республики Коми с отображением социально-экономических показателей

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.4K

Делюсь опытом как я сделал интерактивную карту Республики Коми: от QGIS и D3.js до графиков и API Wikidata. Карта визуализирует социально‑экономические показатели районов и населённых пунктов, поддерживает масштабирование, позволяет переключать слои, выбирать тёмную и светлую темы, а также получать справочную информацию об объектах.

Читать далее

Из боли клиентов — в новый продукт: как мы пересобрали аналитику на Clickhouse

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4K

Чем лучше разработчик, тем хуже он делает аналитику. Просто потому, что для этого требуется разный технологический стек.

Системы, которые пишут разрабы, шикарно записывают и хранят данные. Но попытка прочесть большой объём данных сразу роняет всю систему, так как она плохо для этого предназначена. 

В этой статье я расскажу про 2 ключевых подхода к хранению и обработке данных, какой мы выбрали для аналитики в Saas-платформе и к чему это привело.

Читать далее

Оживляем данные Strava: от парсинга GPX до интерактивной карты на Python и JS

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.8K

Привет, Хабр! Меня зовут Александр, я разработчик и, как многие в IT, стараюсь уравновешивать сидячую работу спортом — в моем случае, это велосипед и бег. И, как многие спортсмены-любители, я пользуюсь Strava.

В этой статье я хочу провести вас «под капот» моего проекта и показать на реальных фрагментах кода, как с помощью Python, щепотки NumPy и капли JavaScript можно построить собственный мощный инструмент для анализа спортивных данных. Это история не только про код, но и про философию открытых данных и желание сделать профессиональные инструменты доступными для всех.

Читать далее

Кластерные A/B-тесты: как победить эффект соседа

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров800

Привет, Хабр!

Сегодня мы рассмотрим, как спасаться от «эффекта соседа», рандомизируя не пользователей, а их кластеры в A/B тестах.

У классического AB-теста есть аксиома SUTVA: мол, результат конкретного юзера зависит только от его собственной ветки «treatment / control». Реальность улыбается и кидает в лицо соцсетью, где лайк друга поднимает и твою вовлечённость, курьером, который обгоняет коллег и заражает их скоростью, и cпасибками «приведи друга — получи бонус». Итог — наблюдения больше не независимы.

Внутрикамерный жаргон это называет network interference. Чем плотнее граф связей, тем сильнее лечение «просачивается» за контрольные границы.

Читать далее

Кейсы по применению BI в агробизнесе: подборка от РСХБ

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров826

Современные решения в области бизнес-аналитики (BI) и искусственного интеллекта (AI) позволяют агрокомпаниям перейти от формальной отчетности к управлению, основанному на данных. Привет, Хабр! Я - Галина Галкина, работаю в департаменте аналитических систем компании R-Style Softlab (группа компаний Россельхозбанка). В этой статье предлагаю рассмотреть, как цифровые инструменты помогают оптимизировать процессы в животноводстве и птицеводстве.

Читать далее

Ближайшие события

Как BI-системы меняют аналитику в крупных медцентрах: от хаотичных отчетов — к данным для решений

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров379

В больших медицинских учреждениях без современных инструментов сложно организовать работу врачей, управлять потоками пациентов и обрабатывать большие объемы данных. В этой статье мы рассмотрим, как бизнес-аналитика помогает решать эти задачи на примере медцентра с базой свыше 2 миллиардов записей (кейс Modus).

Читать далее

Зачем бизнесу аналитика и как мы её реализовали в своём BI-модуле

Время на прочтение6 мин
Количество просмотров1.1K

Привет, Хабр! Давайте поговорим сегодня о том, без чего современный бизнес уже практически не может обойтись — о BI-системах.

Бизнес-аналитика (BI) — это стратегия работы с данными, которая помогает компаниям понимать, что происходит в бизнесе, почему и как далеко всё может зайти. BI объединяет инструменты отчётности, визуализации, хранения, прогнозирования и автоматизированного анализа. Всё это нужно, чтобы не строить бизнес «на глазок», а опираться на реальные цифры.

BI переводит сложные процессы анализа в простой сценарий: открыл дашборд — увидел суть.

Рассказываем, когда бизнесу пора внедрять BI и на какие фичи обратить внимание при выборе решения.

Читать далее

Продукты аналитики: как данные начинают приносить деньги бизнесу

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров913

Сегодня для того, чтобы данные действительно работали на бизнес, недостаточно просто собрать и обработать их. Необходимо превратить их в понятные и удобные решения – своего рода аналитические продукты, которые приносят реальную пользу. Проще говоря, аналитический продукт (он же data product) – это автоматизированная цепочка действий над данными, результатом которой является полезная информация или рекомендация для решения конкретной бизнес-задачи. Появление таких продуктов стало возможным благодаря построению централизованной аналитической платформы с полной архитектурой данных от интеграции до представления. Иными словами, чтобы данные приносили пользу, они должны пройти путь от извлечения из источников до представления в понятной форме, охватывая этапы интеграции, обработки, представления и управления данными.

Наша «база» — единая аналитическая платформа, реализованная по принципам, применяемым в зрелых data-driven компаниях. В её основе – современный техстек, включающий стриминговую шину данных Apache Kafka на слое интеграции (Stage), высокопроизводительное хранилище ClickHouse на уровнях ODS/DWH/Data Mart, оркестратор пайплайнов Apache Airflow (с использованием dbt) для ETL/ELT и контроля качества данных, систему метаданных OpenMetadata для управления информацией о данных, BI-платформу Yandex DataLens для визуализации, а также собственный REST API-слой для интеграции с внешними системами. Такой подход обеспечивает масштабируемость и воспроизводимость: наша база данных поглощает до сотен миллионов записей в сутки и почти мгновенно выдаёт результаты аналитических запросов благодаря ClickHouse. Все инструменты связаны в единую архитектуру, где потоки событий из источников сразу попадают в Kafka, оттуда – в ClickHouse, после чего данные доступны для построения витрин, дашбордов, алертов и API-интеграций в реальном времени.

Читать далее

Эффективное госуправление: как BI-системы оптимизируют процессы в госсекторе

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

Органы власти ежедневно принимают сотни важных решений — от распределения бюджета до работы школ и больниц. Но часто эти решения опираются на устаревшие отчеты или интуицию, а не на свежие данные. BI (Business Intelligence) — это технологии сбора, анализа, визуализации данных, которые помогают принимать обоснованные решения. Рассказываем, как BI-решения упрощают работу органам власти и госучреждениям.

Читать далее

Реляционные базы данных в книге «Двенадцать стульев»: как устроен архив Коробейникова

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.3K

Меня зовут Екатерина Петрова, я автор медиа «вАЙТИ» и аналитик. Перечитывая свой любимый роман И. Ильфа и Е. Петрова «Двенадцать стульев», а именно сцену с архивариусом Коробейниковым, я вдруг поняла: его бумажный архив ордеров на имущество бывших дворян не что иное, как идеальный пример реляционной базы данных. Алфавитные указатели — это индексы, книги учета — таблицы с первичными ключами, ордера — настоящие транзакции.

Читать далее

Будущее труда с ИИ-агентами: как ваша профессия переживёт ИИ‑революцию?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров19K

Наконец‑то появилось действительно полезное исследование «Будущее труда с ИИ‑агентами» (Стэнфорд), которое превращает абстрактные споры о том, кого и как заменит искусственный интеллект, в конкретную дорожную карту профессий: какие задачи автоматизируются первыми, а какие навыки резко вырастут в цене.

Эта статья — не для того, чтобы вас напугать. Здесь будут конкретные инструменты и советы, чтобы вы сами могли ответить на главный вопрос:

Какие навыки развивать?
Какие задачи смело отдавать ИИ, а за какие стоит побороться и стать в них сильнее?
Как изменится ваша профессия?
За какие умения будут платить больше даже, чем за программирование и аналитику?

В основе статьи — так называемая «матрица желаний и возможностей» автоматизации. Её создали как раз в Стэнфорде. Распределив свои рабочие задачи по четырём простым зонам этой матрицы, вы увидите, как ИИ повлияет именно на вашу профессию — и куда лучше направить усилия уже сейчас.

Читать далее

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

Время на прочтение5 мин
Количество просмотров2.5K

Твит, который подтолкнул меня к реализации описанного в статье мини-проекта.

Взявшись за эту задачу, я около двух часов ваял небольшой скрипт, который будет скрейпить данные из базы крейтов Rust crates.io и анализировать их для выяснения, какие пакеты чаще скачиваются для работы (то есть в будние дни), а какие для развлечения (то есть в выходные).

Читать далее