Системный и бизнес-анализ

14 ноя 2025 в 10:565.3K

Где учиться аналитике?

Привет! Мы понимаем, как непросто найти качественные онлайн-курсы с актуальной информацией и удобным обучением. Предложений очень много, а запутаться очень легко.

Мы решили облегчить вам задачу и систематизировали курсы по направлениям, цене, школам и другим важным для вас параметрам. Сегодня делимся подборкой курсов по аналитике, которые помогут развивать профессиональные навыки и грамотно работать с данными.

Продуктовая аналитика. Изучение метрик, построение воронок и работа с данными для развития продукта.

Аналитика больших данных. Работа с распределёнными системами, Hadoop, Spark, обработка крупномасштабных данных и оптимизация вычислений.

Машинное обучение. Алгоритмы, модели, пайплайны ML и применение машинного обучения для решений аналитических задач.

SQL для аналитиков. Запросы, джойны, агрегации, оконные функции — всё, что нужно для работы с базами данных и выгрузки данных для анализа.

BI-аналитика. Построение дашбордов, визуализация данных, работа с Power BI, Tableau и Looker.

→ Заглядывайте на нашу витрину — там еще больше крутых и проверенных курсов от известных школ.

antzim_in

13 ноя 2025 в 12:294.1K

Анализ и проектирование систем * UML Design * Подготовка технической документации *

Многоуровневая группировка участников на sequence-диаграмме (в plantUML)

Последнее время часто замечаю, что многие системные аналитики не выделяют на sequence диаграмме (в plantUML) границы Систем и сервисов, а также не выделяют внешние сервисы. В результате, открывая чужие Sequence, приходится тратить много времени чтобы понять, что-же к чему относится.
Поэтому сейчас расскажу как это сделать быстро и без воды

Чтобы создать вложенные группы — группы внутри групп, используйте Архитектуру teoz, путем ее подключения в коде: c помощью строки !pragma teoz true, добавляемой сразу после @startuml после чего box и end box можно вкладывать друг в друга генерируя несколько уровней вложенности:

Код диаграммы:

@startuml

!pragma teoz true
box "Группы" #LightBlue
    box "Первая подгруппа"
        participant Bob
    end box

    box "Вторая подгруппа"
        participant Alice
        participant John
    end box

end box

box "Внешняя группа" #lightgreen
    participant Lector

    box "Слушатели первой подгруппы"
        participant Marina
    end box

end box


Bob -> Alice : hello
Alice -> John : hello
John -> Marina: Hello
Lector -> Marina: Hello

@enduml

Если Вам было полезно и интересно, поддержите кармой или комментарием
----
Также я веду TG-канал: @sa_chulan

denis-19

12 ноя 2025 в 16:567.1K

Мессенджеры * Тестирование мобильных приложений * Управление сообществом * Управление продуктом * Социальные сети

Предприниматель Йосеф Айеле из Эфиопии и основатель фонда LAVA пожаловался, что его рабочий аккаунт в Telegram был заблокирован без причины. После чего он объявил в соцсети X, что прекращает пользоваться этим мессенджером и переводит свои коммуникации в Signal и электронную почту. В ответ на это основатель Telegram Павел Дуров лично извинился за инцидент с блокировкой. Дуров пояснил, что аккаунт Айеле был разблокирован, а «урок извлечён».

IBS_habrablog

11 ноя 2025 в 10:154.9K

Блог компании IBSАнализ и проектирование систем * Искусственный интеллект

Уже используете нейросети для генерации диаграмм, API-профилей или SQL-запросов? Если да — у вас есть возможность систематизировать подход. Если нет — узнаете, как встроить ИИ в свою работу.

Приглашаем вас на бесплатный вебинар «Нейросети в аналитике: от требований до тестирования». Мы покажем, как подключить ChatGPT, Claude и Gemini к решению ваших ежедневных рабочих задач.

На практике разберем, как применять LLM на всех этапах жизненного цикла:

✔️ Сбор требований: Структурирование и резюмирование информации.

✔️ Проектирование: Автогенерация BPMN, ERD и пользовательских историй.

✔️ Документирование и тестирование: Создание тест-кейсов и SQL-запросов.

Материалы, которые вы получите на вебинаре:

➕ Базовый набор промптов для ключевых аналитических задач.

➕ Разбор реальных сценариев и подводных камней.

➕ Методику оценки и корректировки результатов нейросетей.

🕓 Когда: 13 ноября, 17:00–18:00 (Мск)

👨‍🎓 Спикер: Татькова Дарья — специалист в области разработки ПО.

➡️ Зарегистрироваться

denis-19

9 ноя 2025 в 16:287K

Учебный процесс в ITЧитальный залОблачные сервисы *

Представлен сервис для книголюбов Book Recommendations. Автор проекта спарсил 3 млрд отзывов на произведений со всего мира и сделал рекомендательную систему. Всё просто: пишите любимую книгу, а вам за секунду прилетает целый список того, что можно почитать дальше.

Voltboy1

6 ноя 2025 в 21:587.3K

Криптовалюты

Приветствую всех. Занимаюсь понемногу арбитражем dex-cex и недавно увидел токен, который просел на 1500% и снова вернулся (почти) к исходной цене. Стало интересно почему так произошло. Покопавшись в polygonscan, было обнаружено что из адреса нулл было переведено 5 миллионов токенов и большая часть продана через uniswap. Но я думал что из null адреса нет обратного пути? Кто знает что это была за махинация и как это произошло? Токен Dimo 0xe261d618a959afffd53168cd07d12e37b26761db

vasilevafb

5 ноя 2025 в 09:523.9K

Аналитика мобильных приложений * Карьера в IT-индустрии

Как разглядеть тренды раньше других и действовать вовремя, несмотря на хаос вокруг?

Вопрос сложный, но важный.

Сейчас прохожу курс Future Thinking от Institute for the Future (на Coursera) - он как раз про это: видение будущего, “что может быть”, “какие тренды” и как реагировать на изменения.

Если у вас развито мышление о будущем (Future Thinking), вам легче ответить на волнующие многих вопросы о будушем:

- какие навыки пригодятся через 5 лет и какие стоит приобретать уже сейчас

- как будет выглядеть профессия аналитика данных в будущем

- в какие компании инвестировать

- какие продукты будут востребованы на рынке

- в какую страну переехать, где будут лучшие возможности и безопасность

Отвечать на эти вопросы непросто - мы живём в VUCA-мире (мире изменчивости, неопределённости, сложности и неоднозначности), где вместо простых проблем - дилеммы без однозначных ответов.

Но какими бы хаотичными ни казались события, большинство сегодняшних реальностей были вчерашними прогнозами.

Один из способов понять, что нас ждёт, - замечать и анализировать сигналы.

Сигналы - это то, что происходит уже сейчас, но пока ещё не стало массовым.

Примеры сигналов:

- Новая технология/научное открытие

- Новая бизнес-модель

- Новый закон

- Странное поведение

Примеры сигналов:

Ряд стран (Сингапур, США) разрешили продажу мяса, выращенного из клеток в лаборатории (например, компания GOOD Meat). Это может быть сигналом, что в будущем мясо массово будут производить не на фермах, а в лабораториях.

ИИ уже считает лучше человека - значит, работа аналитика всё больше уходит от расчётов к смыслу: понимать бизнес-логику, объяснять данные, уметь работать с ИИ. А значит, уже сейчас стоит прокачивать софт-скиллы.

Чтобы замечать сигналы будущего, нужно тренировать внимание к “аномалиям” - вещам, которые пока выглядят мелкими, странными или неважными, но могут стать массовыми позже. А затем задать себе вопрос - что будет, если этот сигнал усилится?

Также важно смотреть в прошлое - искать повторяющиеся паттерны. История - источник сигналов и моделей поведения, которые возвращаются.

Когда мы замечаем сигналы:

- можем подготовиться к изменениям

- скорректировать свою стратегию

- или повлиять на направление будущего, если оно нам не нравится.

Когда мы не обращаем внимание на сигналы, потом удивляемся: что вообще происходит? Будущее застаёт нас врасплох.

Исследование почти 100 компаний за 7 лет показало, что те, кто системно использовал методы futures thinking, имели на 33% больше прибыли. То же самое работает и для людей.

В курсе также много других инструментов - если интересно - буду делиться по мере прохождения в моем телеграм канале.

denis-19

1 ноя 2025 в 15:559.3K

Доменные имена * IT-инфраструктура * Базы данных * Статистика в IT

Текущий список из 4,51 миллиарда интернет-доменов мира можно просто скачать для анализа.

SnezhSh

1 ноя 2025 в 09:566.5K

Блог компании GlowByteIT-инфраструктура * Big Data * Хранение данных * Конференции

GlowByte приглашает на первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️ перспективам развития дата-ландшафта;
▫️ влиянию искусственного интеллекта на управление данными;
▫️ оценке готовности рынка (технологии/решения/компетенции);
▫️ вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Luxms

31 окт 2025 в 10:105K

Блог компании Luxms BIАнализ и проектирование систем * Базы данных * Big Data * Визуализация данных *

Новое видео с нашей Конференции Luxms, в котором Вадим Кананыхин, Руководитель отдела управления и аналитики данных ГК «Синтека», рассказал про свои наработки и интересные проекты, а также поделился собственными приемами и «лайфхаками» работы с Luxms BI.

Luxms BI — классный продукт, который нам развязал руки и кардинально увеличил наши возможности в аналитике, построении отчётности, управлении хранилищами данных.

В выступлении:

BI-дэшборд для поставщиков: управленческие данные в одном окне, фильтры и гибкая визуализация под роль пользователя;
Оптимизация процессов: ускорение расчётов за счёт предобработки JSON и автоматического обновления только новых данных;
Рост эффективности: перераспределение ресурсов и фокус на наиболее прибыльных товарных категориях;
Отказоустойчивость и автономность: автоматический контроль сборов данных и уведомления о сбоях в Telegram;
Luxms BI + Luxms Data Boring = инфраструктура доверия: свежие данные, надёжная архитектура и единый источник аналитической правды.

Видео выступления и материалы — на нашем сайте.

IBS_habrablog

30 окт 2025 в 11:503.4K

Блог компании IBSАнализ и проектирование систем *

Разбираешься в BPMN? Проверь себя — реши задачку от Учебного центра IBS!

Мы подготовили небольшую задачу по BPMN — на понимание поведения элементов процесса. Ответь на вопросы задачи и напиши свой ответ в комментариях.

Задача: как разные типы подпроцессов влияют на данные в BPMN?

На схеме несколько подпроцессов работают с одной переменной последовательно.

Ответь на три вопроса:

1️⃣ Могут ли 1-й и 3-й подпроцессы иметь разное содержимое?

2️⃣ Могут ли 2-й и 4-й подпроцессы иметь разное содержимое?

3️⃣ Чему будет равна переменная в итоге — 3 или 5?

Пиши свои ответы в комментариях!

Разбор решения от нашего эксперта — там же, в комментариях.

Почему это важно?

Ответы на эти вопросы напрямую зависят от типа использованных подпроцессов (Call Activity) и их конфигурации. Это определяет:

Изоляцию данных и границы транзакций
Механизм передачи переменных между родительским и дочерними процессами
Как движок (например, Camunda) управляет состоянием процесса

Это не теория, а именно та ситуация, где моделирование перерастает в разработку.

Хотите глубже? На курсе по Camunda мы учим не просто рисовать схемы, а понимать и использовать такие нюансы для создания рабочих исполняемых моделей.

go_shan

28 окт 2025 в 15:187.9K

Блог компании AvitoTechУправление продуктом *

Как создать продукт, который изменит подход к тестированию во всей компании?

Ответом на этот вопрос в своём интервью делится Данила Леньков, лид юнита A/B в Авито и создатель Trisigma. У Дани сложился увлекательный карьерный трек: от аналитика в финансовом секторе до создателя платформы для A/B-тестирования внутри Авито. В интервью обсуждаем ключевые этапы такого пути: от неудачного редизайна, послужившего толчком к изменениям, до создания собственного инструмента, который кардинально преобразил подход компании к тестированию.

Смотреть VK
Смотреть YouTube

Подробнее о Trisigma можно почитать здесь, а также в статье Дани. А все актуальные новости можно узнать в канале AvitoTech в Telegram: там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

+26

stas_makarov

28 окт 2025 в 09:324.3K

Анализ и проектирование систем *

Когда скорость может быть проблемой🚀

Логически эта схема абсолютно правильная. Мы отправляем запрос к внешнему сервису, он выполняет свою работу и возвращает ответ — тогда процесс продолжается.

Но есть нюансы:👀 синхронная задача в вызываемом процессе может выполниться очень быстро, за миллисекунды⚡️. И тогда родительский процесс просто не успеет поймать ответное событие.🤷

Ведь что там происходит под капотом:

Перед Receive task у нас граница транзакции. Значит, процесс записывает свое состояние в базу. Потом создает подписку на получение сообщения. И тоже сохраняет ее в БД.

Все это занимает какое-то время — а внешний процесс уже успел начаться и кончиться, его сообщение улетело в никуда!😢

Чтобы не ломать себе голову — успеет или не успеет процесс стать в состояние ожидания для приема сообщения, просто используйте external task.

Здесь фишка будет не в том, что это какой-то внешний код на чем угодно — Java, Python, C++, JavaScript и так далее, а в самом механизме исполнения таких задач.

Вот как это делается:

Сервер видит, что есть внешняя задача с каким-то топиком. Дальше он публикует ее в очередь и ждет, пока внешний воркер ее исполнит.

Точь-в-точь как с user task'ами — задача висит, пока исполнитель не придет и не выполнит ее. Соответственно, процессу не надо ловить никакие сообщения, надо только ждать — модель получается проще.

Это можно использовать на любой BPM-платформе, которая поддерживает паттерн external task — Camunda, Flowable, Jmix BPM, OpenBPM и другие.

BPM Developers — про бизнес-процессы: новости, гайды, полезная информация и юмор.

SnezhSh

24 окт 2025 в 08:304.1K

Блог компании GlowByteBig Data * Конференции

GlowByte приглашает на PIX DAY – 2025

GlowByte примет участие в PIX Day – ежегодной конференции лидеров цифровой трансформации, экспертов по умной автоматизации и практиков внедрения инноваций.

Конференция PIX Robotics PIX DAY – 2025 пройдет в Москве 29 октября. Это ежегодное мероприятие для тех, кто строит цифровое будущее бизнеса и промышленности.

На конференции соберутся руководители крупнейших компаний, ИТ-специалисты, аналитики и интеграторы, которые обсудят, как цифровые технологии помогают компаниям быть конкурентоспособными и устойчивыми и как новые продукты PIX открывают возможности для роста. Все об умной автоматизации и ИИ – на одной площадке.

GlowByte выступит спонсором мероприятия и представит свой демонстрационный стенд.

В программе конференции ожидаются:

Реальные кейсы крупнейших компаний;
Выступления топовых экспертов;
Технологическая выставка партнеров;
Живые мастер-классы от экспертов;
Новое в продуктах PIX, roadmap 2026;
Церемония награждения клиентов и партнеров PIX Awards.

📍Москва | 29 октября 2025 | 10:00-18:00

Участие бесплатное для представителей бизнеса, необходимо подтверждение организаторов. Регистрация по ссылке.

Приходите к нашему стенду, будем рады пообщаться! Посетителей стенда также ждет розыгрыш памятных призов от GlowByte.

andrew_brdk

23 окт 2025 в 13:306K

Big Data * Машинное обучение * Веб-аналитика * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты: средние

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing/blob/main/Байесовская_оценка_АБ-тестов.ipynb
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Finam_Broker

22 окт 2025 в 08:584.6K

Блог компании ФинамАнализ и проектирование систем * Разработка мобильных приложений * Финансы в IT

Аналитик в IT: кто это такой и почему без него не запустить ни один "финтех" проект

В этом выпуске подкаста мы разбираемся, как разработчики понимают, что и как им делать. Нашим гостем стал Игорь Мохов, аналитик с нестандартным путем в IT — из сферы технической безопасности.

Мы обсудили:

Личный путь: Как Игорь сменил профессию в 30+ лет и почему выбрал именно аналитику, вспомнив свой опыт написания кода еще в университете.
Суть работы аналитика: Чем на самом деле занимается этот специалист? Игорь выделил три ключевые функции: общение с заказчиком, чтобы понять его истинные потребности; глубокий анализ и проработка алгоритмов; и ответственность за проект «от и до» — от сбора требований до успешного выхода в продакшен.
Ключевые различия: Чем бизнес-аналитик отличается от системного и почему в современных реалиях востребованы универсальные специалисты с широким набором навыков.
Проблемы и вызовы: Почему в команде шутят, что «если все хорошо, значит, команда поработала отлично, а если что-то пошло не так — виноват аналитик».

Этот разговор — отличная возможность понять, кто такой аналитик на самом деле, какую критически важную роль он играет в создании IT-продуктов и с какими сложностями сталкивается каждый день.

Наш подкаст доступен на всех удобных платформах:

Youtube Music | Apple Podcast | Яндекс Музыка | Spotify | VK Музыка

GarageEight

15 окт 2025 в 13:244.4K

Блог компании Garage EightКарьера в IT-индустрииКонференции

Онлайн-трансляция митапа для продуктовых аналитиков. Спикеры Garage Eight и Wildberries

16 октября в 19:00 IT-компания Garage Eight вместе с аналитическим лайфстайл-сообществом «Хи-хи квадрат» проведет открытый митап для продуктовых аналитиков. Места в офлайне закончились, а вот к бесплатной онлайн-трансляции все еще можно присоединиться.

В программе доклады:
19:30 — «AI vs Аналитик: кто кого заменит и почему Excel все еще жив»
Спикер: Владимир Сыропятов, Senior Analyst в Garage Eight, PhD экономики, преподаватель СПбГУ.

20:10 — «И сеньору полезно! Или что ты не знал о своем резюме»
Спикер: Александр Бондаренко, Senior DWH Analyst в Wildberries.

Ссылку на онлайн-трансляцию опубликуем в день мероприятия в канале команды Garage Eight. Подписывайся, чтобы не пропустить.

Зарегистрируйся, чтобы получить дополнительную связь с организаторами, презентации спикеров и записи докладов.

SnezhSh

15 окт 2025 в 11:414.7K

Блог компании GlowByteBig Data * Конференции

Приходите на конференцию GlowByte FineDay–2025 – участвуйте в "битве" за будущее данных!

Друзья, компания GlowByte, единственный партнер FanRuan уровня Diamond в России, приглашает на ежегодную конференцию по бизнес-аналитике и большим данным FineDay — 2025: Self-Service BI vs AI — битва за будущее данных!

Мероприятие соберет профессионалов в области Business Intelligence и AI, чтобы обсудить революционные изменения в мире данных и вектор развития BI-индустрии. Вас ждут интересные доклады и горячая дискуссия о том, как self-service аналитика и искусственный интеллект формируют будущее работы с данными.

Ключевыми темами мероприятия станут:

Эволюция Self-Service BI: как демократизация данных меняет корпоративную аналитику.
AI-революция в аналитике: возможности и вызовы интеграции ИИ в BI-системы.
Гибридные подходы: синергия человеческой экспертизы и машинного интеллекта.

В программе конференции будут звучать доклады:

Миграция с Qlik Sense на FineBI: практический опыт смены BI-платформы.
От SAP BW и MS PowerBI к ClickHouse и Sigla Vision: эволюция корпоративной аналитики в Полюсе.
Цифровая трансформация данных в группе Московская Биржа: от централизованной отчетности к культуре Data Driven и стратегической цели AI-Native

Эксперты и компании-участники

На FineDay — 2025 выступят и примут участие представители ведущих организаций: Газпромбанк, Полюс, Московская Биржа, СК «Сбербанк страхование», СИБУР Диджитал, Viz Standart, FanRuan, GlowByte.

Время проведения конференции: 14:00 — 21:00.

Участие бесплатное, но необходима регистрация.

Адрес будет в письме после регистрации.

Mark_Stramousov

13 окт 2025 в 11:444.1K

Развитие стартапа

Вечная память: необычные идеи зарубежных стартапов

Продолжу свой рассказ о необычных идеях для стартапов, которые реализуются за рубежом. Сферы бизнеса, находящиеся около темы ритуальных услуг и культуры погребения, считаются достаточно стабильными, такова наша жизнь. Но в разных странах отношение к теме смерти разное. Для примера:

And Vinyly - британский стартап, который предлагает необычный способ «увековечить себя» — превратить прах умершего человека в виниловую пластинку. Клиент выбирает музыку, речь или звуки, которые будут записаны, а компания прессует пепел в материал винила. Проект позиционируется как арт-концепт и альтернатива традиционным похоронам.

Прижился бы такой проект на российском рынке? Скорее всего — нет. Российская культура погребения и отношение к смерти слишком консервативны. Однако как арт-объект, перформанс или необычный мемориальный подарок — может найти нишевого потребителя.

При работе с подобным стартапом в России, возможно, всплывут, острые этические вопросы, возможно - непонимание со стороны общества и религиозных институтов. Также сложно будет масштабировать такой бизнес: аудитория крайне узкая.

DiedInHouse - американский сайт, который позволяет проверить по адресу, умирал ли кто-то в выбранном доме. Пользователь вводит адрес и получает отчёт: были ли зарегистрированы смерти, убийства, пожары или другие трагедии. Идея — помочь покупателям недвижимости или арендодателям избежать «плохой энергетики».

Прижился бы такой проект на нашем рынке? Очень спорно. В России такая тема быстро обрастёт мистикой и слухами, а достоверных открытых баз данных просто нет. Однако как развлекательный проект в ивент-индустрии, может вызвать интерес. В качестве дополнительных сложностей - дефицит в России официальных данных. Без интеграции с госреестрами сервис будет скорее развлечением, чем реальным инструментом.

А вы что думаете по поводу этих идей?

alexeychumagin

10 окт 2025 в 13:364.9K

Блог компании Островок!Open source * Data Engineering *

Обеспечиваем качество данных в компании. Подборка open-source-инструментов для Data Quality

Привет, Хабр! Я Алексей Чумагин, Data Quality Team Lead Островка. В компании мы работаем с десятками источников данных: авиакомпании, отели, агрегаторы, платёжные сервисы. При этом источники постоянно обновляются: добавляются партнёры, меняются API и форматы. В таких условиях Data Quality становится непрерывным процессом, встроенным в ежедневную работу, а вовсе не стереотипным «набором тестов, которые раз в сутки что-то проверяют».

Качественные данные зависят от выстроенных процессов: автоматизации, прозрачности, быстрой реакции на инциденты. Мы смотрим на Data Quality как на живую экосистему, где тесты — лишь одна из составляющих. Исходя из этого строим в компании единую Data Quality Platform.

Архитектура нашей платформы организована вокруг следующих задач:

автоматизация создания и выполнения тестов;
их централизованное хранение;
визуализация результатов;
мгновенное оповещение команд об инцидентах.

Вся эта экосистема работает в едином ритме с основными data-процессами компании.

Ниже — подборка инструментов, из которых состоит наша платформа. Их легко внедрить и в других IT-компаниях: стек масштабируемый, гибкий и не требует больших затрат на лицензии.

Какие инструменты мы используем в Data Quality

1. Ядро и автоматизация

В качестве ядра системы мы выбрали Soda Core — движок, который позволяет формализовать правила качества: целостность, уникальность, диапазоны значений. Тесты описываются декларативно, что упрощает поддержку и масштабирование.
После того как тесты написаны, их запуск и оркестрацию мы доверяем Apache Airflow. Он автоматически запускает проверку после ETL-процессов, управляет зависимостями и расписанием, что критично для стабильной работы пайплайнов.
Чтобы не тратить время на рутинное написание DAG’ов для новых тестов, мы используем DAG Factory — генератор DAG’ов, позволяющий держать код тестов и их запусков в едином месте, легко масштабировать количество проверок.

2. Интеграция и доступ

Важной частью платформы стала интеграция с другими системами. Для этого мы подняли сервисный слой на FastAPI: через API можно запускать тесты, получать результаты, интегрировать платформу с внешними инструментами.
Для визуализации выбрали Streamlit — он позволяет быстро собирать дашборды и интерактивные отчёты, которые особенно удобны инженерам для экспресс-проверок и разбора логов ошибок.
Но не все участники процесса хотят разбираться в технических деталях. Менеджеры и аналитики зачастую предпочитают DataHub — каталог метаданных, где хранятся все проверки, их результаты, а также информация о таблицах, lineage и пайплайнах. Это позволяет сделать качество данных частью общего ландшафта данных компании.

3. Оперативность и реакция

Все алерты и уведомления о результатах тестов автоматически отправляются в корпоративный мессенджер, чтобы команды могли оперативно реагировать на проблемы.
Вся DQP-платформа развернута в Kubernetes, — это обеспечивает масштабируемость, отказоустойчивость и централизованное управление компонентами.

И почётное упоминание ещё одной неизбежно важной технологии: для ручных ad-hoc-проверок мы, конечно же, используем старый добрый SQL. Без него ни одна оперативная сверка или исследование гипотез не обходится.

Итого: наш Data-Quality-стек — это комбинация проверенных open-source-инструментов, которые удобны на практике: легко автоматизируем тесты, быстро видим результаты, интегрируемся с чем угодно и не особо беспокоимся о лицензиях. Всё масштабируется, поддерживается инженерами, а не только админами и даёт нам уверенность в качестве данных, даже когда вокруг всё меняется.

А какие инструменты используете вы для контроля качества данных? Что бы вы добавили или изменили в нашем подходе? Будем рады обсудить в комментах!

***

ТГ-канал Ostrovok! Tech

+17

1 2 3 4

6 7 8 9 10