От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse / Хабр

Введение: Инновационный путь, объединяющий озера данных и хранилища

В эпоху цифровых финансов данные стали ключевой компетенцией финансовых учреждений. Bank of Hangzhou Consumer Finance, являясь лицензированной организацией потребительского финансирования, всегда сохраняла сильный дух технологических инноваций, занимая второе место в отрасли по количеству патентов. Столкнувшись с вызовами, связанными с быстрым ростом бизнеса, компания начала трансформацию своей инфраструктуры данных, кульминацией которой стало создание платформы GLH Lakehouse на базе Mirrorship.

Платформа GLH представляет собой результат исследований и практического внедрения архитектуры Lakehouse, служа критически важным мостом, соединяющим бизнес-операции с передовыми технологиями.

I. Предпосылки создания платформы GLH: Инновации, продиктованные «болевыми точками» в данных

Требования бизнес-сценариев

Как организация, чья деятельность основана на «данных, сценариях, управлении рисками и технологиях», компания столкнулась с тем, что ее традиционная архитектура обработки данных больше не могла справляться с растущими потребностями. Эти потребности влияли не только на повседневные операции, но и напрямую на стратегические решения и соблюдение нормативных требований.

Актуальность данных для стратегий: Стратегии управления финансовыми рисками требуют своевременных данных для принятия решений. Задержка даже в несколько минут может привести к сбою в контроле рисков.
Консистентность данных между таблицами: Синхронизация данных между различными базами и таблицами должна поддерживать консистентность на определенный момент времени. Любое расхождение могло нарушить бизнес-логику.
Точность бизнес-данных: Ежедневные отчеты для руководства должны быть точными и своевременными, так как они напрямую влияют на стратегическое направление компании.
Потребности в сверке данных: Внутридневные данные необходимы для процессов сверки, и традиционные ETL-процессы не могли обеспечить требуемую оперативность.
Соблюдение нормативных требований: Данные, предоставляемые регуляторам, должны соответствовать строгим стандартам своевременности и точности.

Анализ ключевых «болевых точек»

При использовании традиционной архитектуры данных компания столкнулась с несколькими критическими проблемами:

Проблема 1: Сложность отслеживания данных (Data Traceability)

Аномалии при передаче данных могли приводить к их потере. Если проблемы не обнаруживались вовремя, стоимость восстановления и отслеживания истории данных была непомерно высокой.

Проблема 2: Отсутствие детализированных записей об изменениях

Для регуляторной отчетности требовалось сообщать о каждом изменении информации о клиенте в течение дня. Однако производственная система сохраняла только конечное состояние на конец дня, не фиксируя промежуточные изменения и не удовлетворяя требованиям полной отчетности.

Проблема 3: Неточность данных на определенный момент времени (Point-in-Time Data)

Из-за ограничений ресурсов задания по извлечению данных могли выполняться с задержкой или не выполняться вовсе, что приводило к временным лагам в синхронизации. Это вызывало несоответствие статусов одних и тех же бизнес-сущностей в разных таблицах, порождая хаос в бизнес-логике.

Проблема 4: Проблемы с ежедневным закрытием операционного дня (Daily Cut-off) между системами

В сценариях сверки транзакций по погашению платежей разные системы (например, транзакционная и бухгалтерская) обрабатывали одну и ту же операцию в разное время. Это приводило к серьезным неточностям в данных на момент закрытия дня, что напрямую влияло на сверку.

Эти «болевые точки» были не просто техническими трудностями; они создавали прямую угрозу для развития бизнеса. Невозможность синхронизировать данные в реальном времени снижала эффективность бизнес-стратегий, несогласованность данных затрудняла сверку, низкое качество данных создавало риски для комплаенса, а сложность отслеживания делала аудиты долгими и дорогостоящими.

II. Построение архитектуры Lakehouse с помощью Mirrorship

1.Техническая архитектура платформы GLH

Платформа GLH была спроектирована с использованием четырехуровневой архитектуры:

Уровень приложений (Application Layer): Включает узел управления (Manager Node), узлы выполнения (Execute Nodes), кастомные плагины и узел оповещений (Alerting Node).
Уровень технических компонентов (Technical Component Layer): Использует экосистему Spring Framework, MyBatis, собственный RPC-фреймворк, Log4j и др.
Уровень промежуточного ПО (Middleware Layer): Задействует ZooKeeper, Kafka и MySQL.
Уровень эксплуатации (DevOps Layer): Основан на Git, Jenkins, Docker & Kubernetes и Maven.

High-level architecture diagram showing GLH and Mirrorship integration

Эта архитектура не только отвечала функциональным требованиям, но и обеспечивала стабильность, масштабируемость и удобство сопровождения системы, заложив прочный фундамент для платформы Lakehouse.

2. Почему для замены GreenPlum была выбрана Mirrorship?

Выбор хранилища данных был критически важным решением. После всесторонней оценки и тестирования команда выбрала Mirrorship (корпоративную версию StarRocks) в качестве основного движка для хранения и аналитики. Решение было продиктовано насущными проблемами — производительность существующего 26-узлового кластера GreenPlum снижалась по мере роста объема бизнеса, а расширение требовало значительных инвестиций.

Снижение затрат и повышение эффективности: Лицензионные платежи и стоимость горизонтального масштабирования GreenPlum были высокими. Mirrorship предложила более экономически эффективное решение, соответствующее стратегической цели компании.
Возможности ingest-а данных в реальном времени: В отличие от традиционных инструментов, таких как Hive, Mirrorship поддерживает real-time ingest и транзакционные запросы, что дает ей естественное преимущество в сценариях с данными реального времени.
Единая платформа данных: Данные были разбросаны по разным системам, создавая «острова данных». Mirrorship предоставила единую платформу для хранения и вычислений, консолидировав данные и упростив доступ к ним.
Дизайн архитектуры Lakehouse на базе Mirrorship

В новой архитектуре платформа GLH глубоко интегрирована с Mirrorship для создания истинной Lakehouse.

Compute Node Performance in the Last 7 Days

Compute Node Performance in the Last 1 Day

Архитектура с разделением хранения и вычислений (Shared-Storage): В качестве базового хранилища используется HDFS (с планами миграции на S3), что обеспечивает гибкость для управления ростом данных при контроле затрат и сохранении производительности.
Использование нескольких моделей таблиц: Используя возможности Mirrorship для работы с детализированными (Detail tables) и широкими таблицами (Wide tables), команда разработала кастомные структуры таблиц, поддерживающие анализ временных рядов и отслеживание данных для различных бизнес-задач.
Унифицированная обработка данных: Придерживаясь принципа «сбор один раз, обработка многократно», все данные управляются через единый конвейер обработки. Это позволило избежать дублирования разработки, значительно повысив эффективность и консистентность данных.
Гибкое распределение данных: Платформа поддерживает распределение данных в другие системы через Kafka, что обеспечивает работу сценариев, таких как Flink CDC, и создает открытую, гибкую экосистему данных.

III. Значительные результаты: Баланс между производительностью и экономической эффективностью

В ходе внедрения команда накопила ценный опыт:

Оптимизация времени пакетной обработки: Команда применила дифференцированную стратегию синхронизации данных, настраивая интервалы в зависимости от бизнес-потребностей — от 5 секунд для одних таблиц до нескольких минут для других.
Оптимизация партиционирования и бакетирования: Анализ бизнес-характеристик позволил переработать стратегию партиционирования, чтобы уменьшить накладные расходы на уплотнение (compaction) мелких файлов, что привело к значительному повышению производительности.
Рациональное распределение ресурсов: Было оптимизировано соотношение ресурсов между вычислительными узлами и узлами хранения. Мониторинг показал, что кластер стабильно работает с загрузкой ЦП ниже 50%, легко справляясь с пиковыми нагрузками.

Значимые бизнес-результаты

Платформа GLH достигла впечатляющих результатов:

Полный охват данных: Более 3800 таблиц из всех бизнес-систем компании подключены к real-time потоку данных.
Синхронизация на минутном уровне: Время от генерации данных до их доступности сократилось до минут, что многократно повысило скорость реакции бизнеса по сравнению с традиционной моделью T+1.
Увеличение мощности пакетной обработки: Платформа обрабатывает более 6500 заданий в день, включая более 800 задач для хранилища данных, со значительным ростом эффективности.
Углубление интеграции с бизнесом: Было снято ограничение на выполнение только пакетных запросов благодаря открытию real-time query API, что позволило бизнес-системам напрямую получать доступ к актуальным данным.

Эти достижения — не просто цифры; они трансформировались в ускорение реакции бизнеса и улучшение клиентского опыта, внеся ощутимый вклад в повышение основной конкурентоспособности компании.

IV. Перспективы развития

Платформа GLH завершила разработку основного функционала. Будущее развитие будет сосредоточено на следующем:

Более открытые интерфейсы: Поддержка интеграции с более широким спектром вычислительных и движков хранения.
Богатая экосистема плагинов: Разработка большего количества плагинов для обработки данных.
Более глубокая интеграция с бизнес-процессами: Дальнейшая интеграция с бизнес-системами для предоставления более точных данных.
Постоянное технологическое развитие: Отслеживание развития технологий хранения с запланированной миграцией на объектное хранилище S3.

Заключение

Платформа GLH Lakehouse, построенная на базе Mirrorship, не только решила критические проблемы Bank of Hangzhou Consumer Finance в области управления данными, но и заложила прочный фундамент для цифровой трансформации компании. Создав архитектуру Lakehouse, компания успешно интегрировала свои данные, раскрыла их ценность и обеспечила мощную поддержку для бизнес-инноваций.