Обновить

Системный и бизнес-анализ

Сначала показывать
Порог рейтинга
Уровень сложности

Почему ночных загрузок стало недостаточно: опыт внедрения CDC в М2

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.4K

Всем привет, меня зовут Игорь Горбенко, и я системный аналитик в компании М2.
Отчёты, которые обновляются раз в сутки, хорошо подходят для стратегической аналитики. Но в какой-то момент бизнесу становится важно понимать, что происходит в течение дня, а не только по итогам ночной загрузки.

В М2 мы столкнулись с этим, когда от продуктовых команд и службы поддержки начали приходить запросы на внутридневную отчётность и почти real-time метрики. Наш основной подход — ежедневная батчевая загрузка данных — перестал закрывать такие сценарии, и нам понадобился другой способ работы с изменениями в продуктовых базах.

В этой статье я расскажу, как мы внедряли Change Data Capture (CDC) с использованием Apache Flink, какие задачи это помогло решить, с какими ограничениями мы столкнулись и почему CDC — полезный, но не универсальный инструмент.


CDC и Apache Flink: кратко о технологии и нашем подходе

Давайте начнем разбираться. Некоторые из вас наверняка знакомы с понятием CDC, Change Data Capture — техника захвата изменений в базах данных.

Для контекста стоит отметить Apache Flink — движок для загрузки и обработки батчей и стриминговых данных в реальном времени. В статье речь пойдет про Flink CDC —   фреймворк с открытым исходным кодом для отслеживания изменений данных в базах данных в реальном времени.

В проектах нашего отдела в М2 основной метод загрузки — это ежедневное ночное
копирование продуктовых баз данных (PostgreSQL, MongoDB) в аналитическое хранилище на базе Apache Iceberg и последующая их обработка с помощью движка Trino.

Читать далее

Проверяем популярные движки вычислений на задаче BI-доступа с помощью теста ClickBench

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.2K

В сегодняшней публикации мы попробуем разобраться в производительности популярных MPP-движков в специализированной задаче ХД – предоставлении доступа к денормализованной витрине данных. Также ответим на вопрос: нужен ли ClickHouse в аналитическом ландшафте, спроектированном по принципу Lakehouse-платформ? Для этого будем использовать бенчмарк ClickBench.

ClickBench появился не так давно, в 2022 году. Методика создана и поддерживается командой ClickHouse. Авторы позиционируют его следующим образом -  «Этот бенчмарк представляет типичную рабочую нагрузку в следующих областях: анализ потоков кликов и трафика, веб-аналитика, машинно-генерируемые данные, структурированные журналы и данные о событиях. Он охватывает типичные запросы в ad-hoc аналитике и дашбордах реального времени». Последний сценарий вызывает у нас особый интерес, ведь редко встретишь архитектурный дизайн аналитического ландшафта, где не было бы решения на базе ClickHouse именно для этой цели, на вершине пирамиды тракта данных от источника до потребителя.

Читать далее

Учебник для искусственного разума: как я сделал ИИ-помощника по планированию для 1С:ERP

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.9K

В этой статье:

Технология создания ИИ-помощника для работы с 1С:ERP.

Почему невозможно создать такого помощника, опираясь только на официальную документацию 1С.

И почему та же самая документация 1С, при правильной обработке, способна превратить ИИ в супер-помощника – то есть многократно его усилить.

Читать далее

Из опыта команды VK Видео: как мы оцениваем эффект от видеоконтента и при чём здесь propensity score

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели7.6K

Привет, Хабр! Меня зовут Ринат Валеев, я старший аналитик в R&D-команде VK Видео.

Команде любого видеосервиса важно оценивать, какой эффект видеоконтент оказывает на аудиторию. Это нужно, чтобы оптимизировать продукты, повышать вовлечённость пользователей, увеличивать конверсию и экономить ресурсы на производстве материалов. В рамках стратегии непрерывного развития сервиса такие задачи решаем и мы в VK Видео.

В этой статье покажу, как мы адаптировали метод propensity score под задачи видеосервиса, автоматизировали расчёты и собрали на их основе удобный self-service инструмент.

Читать далее

SQL-собеседование без паники: что реально спрашивают и где валятся даже сильные

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели16K

На SQL-собеседованиях интервьюер часто формулирует условия устно, просит рассуждать вслух и быстро писать запрос в реальном времени. Это непривычный формат — и именно поэтому он становится испытанием даже для тех, кто много практиковался.

Читать далее

Почему ваши воронки вам лгут и как можно измерить ценность действий пользователя

Уровень сложностиСложный
Время на прочтение21 мин
Охват и читатели4.6K

Воронки конверсий - популярный инструмент, который сейчас используется почти в любом коммерческом продукте.

Считается, что эта штука быстро и гибко отвечает на большое количество практических продуктовых вопросов.

Предлагаю вместе проговорить границы применимости воронок и рассмотреть методологию, которая может эффективно дополнить уже существубщие у вас инструменты анализа пользовательского поведения.

Читать далее

Не только sum() и uniq(): малоизвестные и очень полезные функции ClickHouse

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.4K

В статье разберем малоизвестные, но очень полезные функции ClickHouse с точки зрения аналитика. Покажу на примерах, как считать сценарии поведения действия через sequenceMatch и sequenceCount, строить воронки с таймаутами с помощью windowFunnel, делать когортный retention функцией retention() и не путаться в GROUP BY. Заодно разбираем комбинаторы If, Distinct, State / Merge, ForEach - как они помогают не плодить подзапросы и вынести тяжёлую логику в витрины.

Читать далее

Трактор без тракториста: почему разработка не упрощается при наличии современных инструментов

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.4K

Привет, Хабр!

Продолжаю делиться дискуссиями из нашего телеграм-канала Dev Q&A. На этот раз собрались поговорить о том, почему при всём богатстве инструментов — Kubernetes, CI/CD, low-code, AI-ассистенты — разработка не становится ни быстрее, ни дешевле.  Собрал ключевые мысли в статью. Получилось про три столпа эффективности, про хаос который понятнее порядка, и про то, почему скрам по книжке остановил компанию на две недели, а Waterfall принёс миллиард. 

Читать далее

Эксперты прокомментировали акселератор «Умный город» в МГТУ им. Н.Э. Баумана

Время на прочтение4 мин
Охват и читатели4.6K

15 декабря в МГТУ им. Н.Э. Баумана (в питчинг-формате) прошел финальный Демо-день акселерационных программ «Умный город» и «Робототехника и беспилотные авиационные системы» (БАС). В течение трех месяцев студенческие команды под руководством опытных наставников последовательно работали над своими проектами. На мероприятии в МГТУ они представляли свои разработки бизнес-сообществу, инвестиционным фондам, институтам развития и другим заинтересованным сторонам, которые способствуют укреплению технологического суверенитета.

Читать далее

Как отправить сотни откликов на вакансии и не получить никакой обратной связи?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.2K

Почему отсутствие фидбека ломает поиск работы и превращает его в безвыигрышную лотерею — на примере личного опыта.

Поиск работы как чёрный ящик…

Верховный Суд полностью отменил все предыдущие решения по делу Долиной: квартира остается за покупательницей

Время на прочтение3 мин
Охват и читатели49K

Главный итог: Квартира остается в собственности покупательницы, справедливость восторжествовала! Иск Полины Лурье в части выселения Долиной из квартиры отправлен на новое рассмотрение (судя по всему, ВС РФ не мог сразу удовлетворить это требование Лурье – т.к. этот вопрос детально в предыдущих инстанциях, по сути, не рассматривался еще).

Читать далее

От хаоса к ясности: почему форма требований определяет успех проекта

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5K

Аналитик может глубоко погрузиться в предметную область, грамотно применить паттерны проектирования и качественно подготовить артефакты. Но блестящее содержание тонет в хаосе, если у требований нет безупречной формы. Путаница в артефактах, неясность приоритетов и источников — прямая дорога к потерянным человеко-часам. Именно поэтому четкая форма и продуманная структура требований не менее важна, чем их содержание.

Читать далее

Причинно-следственная связь и причем тут IDEF0 и BPMN

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6.4K

В этой статье я постараюсь объяснить, что такое причинно-следственная связь, как она касается моей работы бизнес-консультанта и бизнес-аналитика, а также причем тут IDEF0 , BPMN и остальные инструменты.

Читать далее

Ближайшие события

Ландшафт угроз в 2026-м: внимание на Россию

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.7K

На протяжении многих лет Россия входит в число наиболее приоритетных целей киберпреступников. По нашим данным, в период с июля 2024-го по сентябрь 2025 года на Россию пришлось от 14% до 16% всех успешных кибератак в мире. Мы прогнозируем, что по итогам 2025 года общее количество успешных кибератак вырастет на 20–45% по сравнению с предыдущим годом, в котором их число достигло практически 500, а в 2026-м может увеличиться еще на 30–35%.

Кого и как будут атаковать в 2026 году?

Весь такой перцептивный. Сенсорная атмосфера в прозе. Пример анализа художественного текста на Python

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.9K

Анализ глаголов восприятия в прозе Паустовского с помощью Python: подход цифрового гуманитария для NLP-разработчиков.

Читать далее

Как UX-решения помогают e-commerce снижать число возвратов товара: опыт мировых лидеров

Время на прочтение8 мин
Охват и читатели4.2K

Мы с командой проанализировали 25 мобильных приложений лидеров рынка электронной коммерции в России и в мире в четырех категориях, где риск возврата особенно чувствителен к точности выбора, — и выбрали 14 UX-решений, которые способны значительно его снизить.

Читать далее

Живая онтология процессов: от смысловой модели к автоматизации

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели3.6K

В предыдущей статье я показал, как документ можно превратить в сеть смыслов и получить «живую» онтологию знаний. С помощью своего семантического ритуала я разбираю текст на термины и связи, и документ растворяется в графе, оставляя после себя осмысленную модель. Такой подход к знаниям убирает двусмысленность: ключевые понятия вынесены в онтологию, язык проекта становится частью архитектуры, и команда работает в едином контексте. В итоге сложные системы перестают зависеть от «шума» неверно понятых слов и начинают вести себя предсказуемо.

Теперь я иду дальше и развиваю концепцию живых онтологий – на этот раз применяя её к управлению процессами. Что, если моделировать процессы так же, как семантику текста? Могу ли я описать процесс как совокупность понятий, связей и состояний – и сделать так, чтобы эта модель реально исполнялась?

В этой статье я покажу, как я реализовал идею: описал процесс как онтологическую модель и подключил n8n как движок, который исполняет эту модель. Внутри: минимальная метамодель, разбор реального workflow и короткий эпизод “как выполнение одной задачи активирует следующий этап”

Читать далее

Мифы про REST API. Часть 1

Время на прочтение12 мин
Охват и читатели11K

Как говорится, в споре рождается истина. И этот случай не стал исключением. Часто проектирую запросы, консультирую аналитиков, сама консультируюсь у разработчиков и заметила, что иногда мы по-разному понимаем некоторые аспекты REST. Когда я стала погружаться в тему, то материала набралось столько, что одной статьей не обойтись. Понимание мифов позволяет делать более осознанный выбор при проектировании.
С вами Дарья Борисова, системный аналитик из ПСБ, и я начинаю цикл статей «Мифы о REST».

Читать далее

Роль, оживляющая архитектуру: почему именно методолог должен замыкать ADM-цикл TOGAF

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели4.5K

Многие компании в процессе своего развития успешно осваивают начальные этапы TOGAF ADM: формируют видение, разрабатывают целевые модели, создают планы переходов. Но настоящая ценность архитектуры рождается не на слайдах, а в ежедневной работе ИТ-команд. Именно здесь возникает критический разрыв: хорошие архитектурные артефакты остаются невостребованными, потому что непонятно, как их применять в реальных процессах разработки, тестирования и эксплуатации. Стратегические архитектурные решения (принципы, стандарты, целевые состояния) формализованы, но не оказывают реального влияния на операционную деятельность команд. Причина — отсутствие четких механизмов внедрения этих решений в рабочие процессы.

Этот разрыв преодолевается там, где архитектурное мышление интегрируется с методологией управления ИТ-процессами. Агрегация компетенций корпоративного архитектора и ИТ-методолога превращает ADM из теоретического цикла в работающий механизм трансформации.

Узнать больше

Flink Kubernetes operator: опыт построения стриминговой Big Data платформы

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.6K

Всем привет! Меня зовут Артемий, я работаю SRE-инженером в команде RTP (real time processing) Clickstream в Авито. Сегодня мы хотим поделиться нашей историей о том, как мы переехали в Kubernetes, развернув Apache Flink с помощью Flink k8s operator.

Читать далее