Статьи / Профиль PhoenixLi / Хабр

Phoenix@PhoenixLi

olap database development engineer

Подписчики

ПрофильСтатьи32Посты1НовостиКомментарии10

PhoenixLi 24 окт 2025 в 08:09

Импорт, преобразование и оптимизация — одним конвейером SQL

Средний

9 мин

5.4K

Data Engineering * Big Data * Open source *

Туториал

Импорт терабайтов из S3 одним SQL: INSERT FROM FILES и PIPE. Партиционирование через date_trunc(), RANDOM‑бакетизация, трансформации с JOIN/UNNEST и гибкий ALTER TABLE.

PhoenixLi 22 окт 2025 в 09:37

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

Простой

4 мин

4.8K

Data Engineering * Big Data * Open source * SQL *

Задача: быстро выполнять агрегирующие запросы (JOIN, GROUP BY, COUNT) по десяткам миллионов строк в офлайновых сценариях на Big Data‑платформе. Мы сравнили три подхода: Parquet + Impala в экосистеме CDH, MPP‑движок Greenplum и MPP‑СУБД StarRocks. В единой тестовой среде (SAD ~7 млн, ITEM ~3 млн записей) выполнили серию запросов JOIN + GROUP BY + ORDER BY и замерили суммарное время 10 прогонов. Показано, что внедрение MPP заметно ускоряет аналитику (типично 1–2 с на запрос), при этом StarRocks в среднем немного обходит Greenplum. В статье — методика, параметры развертывания, нюансы импорта из Oracle (CloudCanal) и сводные метрики.

PhoenixLi 21 окт 2025 в 09:15

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

Простой

14 мин

6.4K

НакопителиBig Data * Data Engineering * Open source *

Аналитика

Перевод

Сравнение ClickHouse и StarRocks: архитектура и функциональность, типы join и модели данных (широкая таблица vs звезда), конкурентность, частые обновления (Primary Key, Merge‑on‑Read), администрирование и онлайн‑масштабирование. Приводим результаты бенчмарков SSB и TPC‑H, а также тесты загрузки (GitHub dataset). Все тестовые данные и конфигурации актуальны на 2022 год. Если вам интересно, воспроизведите эксперименты по актуальным инструкциям проектов и поделитесь результатами и замечаниями — это поможет уточнить выводы и обновить сравнение.

PhoenixLi 14 окт 2025 в 10:26

StarRocks Lakehouse: быстрый старт — Hive Catalog

Простой

11 мин

3.5K

Высоконагруженные системы * SQL *

Туториал

Перевод

StarRocks Lakehouse на практике: пошаговый гайд по интеграции с Apache Hive через Hive Catalog. На прикладочном сценарии «управление заказами» показываем, как построить слой ODS/DWD/DWS/ADS в озере данных и ускорить запросы без миграции данных: от создания таблиц и генерации тестовых наборов до подключения External Catalog. Разбираем включение Data Cache для ускорения чтения из HDFS/S3/OSS (Parquet/ORC/CSV) и применение асинхронных материализованных представлений в StarRocks для витрин DWD/DWS/ADS. Поясняем, как добиться быстрых запросов за счёт векторизированного движка и CBO, а также даём практические советы по настройке (Kerberos/HMS, конфигурация BE/FE, прогрев кэша, сбор статистики, MV‑rewrite). Материал будет полезен инженерам по данным и архитекторам DWH, которым нужна аналитика в реальном времени по данным озера без лишнего ETL.

-1

PhoenixLi 14 окт 2025 в 07:33

При всплесках нагрузки: StarRocks Query Cache обеспечивает кратное ускорение

Средний

6 мин

3.3K

Высоконагруженные системы * Data Engineering * Big Data *

Туториал

При пиковых нагрузках отчётные и аналитические системы сталкиваются с лавиной схожих агрегирующих запросов: растёт загрузка CPU и увеличиваются задержки. В StarRocks эту проблему решает Query Cache — кэширование промежуточных результатов агрегаций в памяти с их последующим переиспользованием. В реальных сценариях даёт 3–17× ускорение, работает для семантически эквивалентных запросов, перекрывающихся партиций и append-only данных. Внутри — лучшие практики, пример настройки и метрики диагностики.

PhoenixLi 24 сен 2025 в 13:01

Нейтральное сравнение StarRocks и Apache Doris

Простой

4 мин

6.3K

Big Data * Data Engineering * DevOps * Open source *

FAQ

Это обзор двух проектов аналитических СУБД с открытым исходным кодом, которые развиваются в одном классе задач, но различаются архитектурой, приоритетами и типичными сценариями применения. Ниже — нейтральное сравнение по ключевым аспектам: архитектура и запросный движок, хранение и работа в реальном времени, интеграция с открытыми форматами и lakehouse, производительность, эксплуатация и управление, а также рекомендации по выбору в зависимости от нагрузки.

-1

PhoenixLi 22 сен 2025 в 11:38

Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Простой

7 мин

7.8K

$mol * Java * DevOps * Big Data *

FAQ

Перевод

Ниже — выверенная и локализованная на русский язык версия текста об оптимизации производительности СУБД. Термины без устойчивых русских эквивалентов сохранены на английском с первым пояснением.

-1

PhoenixLi 2 сен 2025 в 09:30

Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Сложный

11 мин

Big Data * Распределённые системы * SQL * $mol *

Аналитика

Как StarRocks добивается высокой производительности JOIN-запросов в аналитических нагрузках. В материале — практическая кухня оптимизатора: какие типы JOIN эффективнее и когда их стоит конвертировать (например, CROSS→INNER, OUTER→INNER при NULL‑отвергающих предикатах), как работает predicate pushdown, извлечение предикатов из OR, вывод эквивалентностей и pushdown LIMIT. Разбираем Join Reorder для многотабличных запросов (Left‑Deep, Exhaustive, Greedy, DPsub), модель стоимости (CPU*(Row(L)+Row(R))+Memory*Row(R)) и выбор лучшего плана.

На уровне распределённого исполнения — MPP‑архитектура, свойства распределения (Distribution Property) и узлы Exchange; пять базовых планов: Shuffle, Broadcast, Bucket Shuffle, Colocate и экспериментальный Replicate Join. Плюс Global Runtime Filter (Min/Max, IN, Bloom) для ранней фильтрации на Scan. Даем практические принципы: используйте более быстрые типы JOIN, стройте хеш по малой таблице, в многоJOINовых запросах сперва выполняйте высокоселективные соединения, сокращайте объём данных и сетевой трафик. Материал для инженеров данных, DBA, разработчиков OLAP и всех, кто проектирует производительные SQL‑планы.

PhoenixLi 28 авг 2025 в 08:47

Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

Средний

10 мин

SQL * Data Engineering * Базы данных * Big Data *

Перевод

Материализованные представления в StarRocks упрощают моделирование данных, ускоряют запросы и повышают актуальность данных в lakehouse‑архитектуре. Разбираем базовые возможности MV, три практических сценария — моделирование, прозрачное ускорение и «lake + warehouse» — и даём ссылки на актуальные рекомендации для StarRocks 3.5.

PhoenixLi 21 авг 2025 в 11:00

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Средний

8 мин

6.6K

Базы данных * Сжатие данных * Big Data * Data Engineering *

Перевод

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

PhoenixLi 8 авг 2025 в 05:51

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Сложный

5 мин

6.2K

Java * Data Engineering * Big Data *

Ретроспектива

Перевод

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

PhoenixLi 7 авг 2025 в 16:16

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Простой

7 мин

7.2K

Data Engineering * Big Data * Hadoop *

Из песочницы

Перевод

Bank of Hangzhou Consumer Finance, являясь лицензированной организацией потребительского финансирования, всегда сохраняла сильный дух технологических инноваций, занимая второе место в отрасли по количеству патентов. Столкнувшись с вызовами, связанными с быстрым ростом бизнеса, компания начала трансформацию своей инфраструктуры данных, кульминацией которой стало создание платформы GLH Lakehouse на базе Mirrorship.

Импорт, преобразование и оптимизация — одним конвейером SQL

Impala vs Greenplum vs StarRocks: тестирование производительности на объеме порядка десятков миллионов строк

ClickHouse vs StarRocks: сравнение выбора MPP‑баз данных для всех сценариев

StarRocks Lakehouse: быстрый старт — Hive Catalog

При всплесках нагрузки: StarRocks Query Cache обеспечивает кратное ускорение

Нейтральное сравнение StarRocks и Apache Doris

Оптимизация производительности запросов в OLAP‑СУБД: цели, методы и практика

Техническая внутренняя кухня StarRocks: оптимизация JOIN — от логики до распределённого выполнения

Переосмысление материализованных представлений: высокопроизводительный инструмент для единого lakehouse

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Информация

Специализация