Статьи / Профиль devozerov / Хабр

Vladimir Ozerov@devozerov

Founder at Querify Labs

120

Подписчики

ПрофильСтатьи9ПостыНовостиКомментарии40

devozerov 19 янв в 07:30

Как мы переписали ядро Trino на Rust

20 мин

8.7K

Блог компании CedrusDataBig Data * Data Engineering * SQL * Распределённые системы *

CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.

+15

devozerov 16 окт 2025 в 13:52

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

19 мин

7.8K

Блог компании CedrusDataВысоконагруженные системы * Алгоритмы * Data Engineering * Big Data *

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле.

Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок CedrusData.

Хочу, чтобы подгорело

+19

devozerov 4 дек 2024 в 05:30

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

6 мин

1.8K

Блог компании CedrusDataData Engineering * SQL * Big Data *

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

devozerov 21 ноя 2024 в 14:11

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

4 мин

2.2K

Блог компании CedrusDataBig Data * SQL * Data Engineering *

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

devozerov 17 сен 2024 в 05:30

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Простой

10 мин

5.9K

Блог компании CedrusDataData Engineering * Big Data * SQL *

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

devozerov 29 июн 2023 в 20:17

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

12 мин

68K

Блог компании CedrusDataSQL * Big Data * Data Engineering *

Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любого big data движка. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.

И как же он устроен?

+13

devozerov 6 июн 2023 в 18:26

Почему Trino такой быстрый: динамические фильтры

8 мин

Блог компании CedrusDataData Engineering * Big Data * SQL *

Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.

Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.

Рассмотрим реализацию динамических фильтров на примере Trino.

Узнать, как работают динамические фильтры

devozerov 13 апр 2023 в 17:38

Как устроен massively parallel processing (MPP) в Trino

10 мин

12K

Блог компании CedrusDataПараллельное программирование * Big Data * Высоконагруженные системы *

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.

devozerov 4 окт 2021 в 05:30

Rule-based оптимизация SQL-запросов

7 мин

Блог компании CedrusDataSQL * NoSQL * Big Data * Data Engineering *

Перевод

Всем привет! В компании Querify Labs мы создаем компоненты СУБД, включая оптимизаторы SQL-запросов.

Любой SQL-запрос может быть выполнен множеством способов. Задача оптимизатора - найти эффективный план выполнения запроса.

В этой статье мы обсудим rule-based оптимизацию - популярную архитектуру оптимизатора, в котором планирование запроса разбито на последовательность атомарных трансформации. Мы рассмотрим особенности реализации данного подхода в Apache Calcite, Presto, и CockroachDB.