Articles / Profile of PhoenixLi / Habr

Phoenix@PhoenixLi

olap database development engineer

Subscribers

ProfileArticles32Posts1NewsComments10

PhoenixLi Oct 24 2025 at 08:09

Импорт, преобразование и оптимизация — одним конвейером SQL

Medium

9 min

5.4K

Data Engineering * Big Data * Open source *

Tutorial

Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.

PhoenixLi Oct 22 2025 at 09:37

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Easy

4 min

4.8K

Data Engineering * Big Data * Open source * SQL *

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

PhoenixLi Oct 21 2025 at 09:15

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

Easy

14 min

6.4K

Data storagingBig Data * Data Engineering * Open source *

Analytics

Translation

Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.

PhoenixLi Oct 14 2025 at 10:26

StarRocks Lakehouse: быстрый старт — Hive Catalog

Easy

11 min

3.5K

High performance * SQL *

Tutorial

Translation

StarRocks Lakehouse на практике: пошаговый гайд по интеграции с Apache Hive через Hive Catalog. На прикладочном сценарии «управление заказами» показываем, как построить слой ODS/DWD/DWS/ADS в озере данных и ускорить запросы без миграции данных: от создания таблиц и генерации тестовых наборов до подключения External Catalog. Разбираем включение Data Cache для ускорения чтения из HDFS/S3/OSS (Parquet/ORC/CSV) и применение асинхронных материализованных представлений в StarRocks для витрин DWD/DWS/ADS. Поясняем, как добиться быстрых запросов за счёт векторизированного движка и CBO, а также даём практические советы по настройке (Kerberos/HMS, конфигурация BE/FE, прогрев кэша, сбор статистики, MV‑rewrite). Материал будет полезен инженерам по данным и архитекторам DWH, которым нужна аналитика в реальном времени по данным озера без лишнего ETL.

-1

PhoenixLi Oct 14 2025 at 07:33

При всплесках нагрузки: StarRocks Query Cache обеспечивает кратное ускорение

Medium

6 min

3.3K

High performance * Data Engineering * Big Data *

Tutorial

При пиковых нагрузках отчётные и аналитические системы сталкиваются с лавиной схожих агрегирующих запросов: растёт загрузка CPU и увеличиваются задержки. В StarRocks эту проблему решает Query Cache — кэширование промежуточных результатов агрегаций в памяти с их последующим переиспользованием. В реальных сценариях даёт 3–17× ускорение, работает для семантически эквивалентных запросов, перекрывающихся партиций и append-only данных. Внутри — лучшие практики, пример настройки и метрики диагностики.

PhoenixLi Sep 24 2025 at 13:01

Нейтральное сравнение StarRocks и Apache Doris

Easy

4 min

6.3K

Big Data * Data Engineering * DevOps * Open source *

FAQ

Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.

-1

PhoenixLi Sep 22 2025 at 11:38

Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Easy

7 min

7.8K

$mol * Java * DevOps * Big Data *

FAQ

Translation

Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.

-1

PhoenixLi Sep 2 2025 at 09:30

Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Hard

11 min

Big Data * Distributed systems * SQL * $mol *

Analytics

Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.

На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.

PhoenixLi Aug 28 2025 at 08:47

Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Medium

10 min

SQL * Data Engineering * Database Administration * Big Data *

Translation

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.

PhoenixLi Aug 21 2025 at 11:00

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Medium

8 min

6.6K

Database Administration * Data compression * Big Data * Data Engineering *

Translation

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

PhoenixLi Aug 8 2025 at 05:51

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Hard

5 min

6.2K

Java * Data Engineering * Big Data *

Retrospective

Translation

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

PhoenixLi Aug 7 2025 at 16:16

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Easy

7 min

7.2K

Data Engineering * Big Data * Hadoop *

From sandbox

Translation

Bank of Hangzhou Consumer Finance, являясь лицензированной организацией потребительского финансирования, всегда сохраняла сильный дух технологических инноваций, занимая второе место в отрасли по количеству патентов. Столкнувшись с вызовами, связанными с быстрым ростом бизнеса, компания начала трансформацию своей инфраструктуры данных, кульминацией которой стало создание платформы GLH Lakehouse на базе Mirrorship.

Импорт, преобразование и оптимизация — одним конвейером SQL

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

StarRocks Lakehouse: быстрый старт — Hive Catalog

При всплесках нагрузки: StarRocks Query Cache обеспечивает кратное ускорение

Нейтральное сравнение StarRocks и Apache Doris

Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Information

Specialization