Articles / Profile of devozerov / Habr

Vladimir Ozerov@devozerov

Founder at Querify Labs

ProfileArticles9PostsNewsComments40

devozerov Jan 19 at 07:30

Как мы переписали ядро Trino на Rust

20 min

8.7K

CedrusData corporate blogBig Data * Data Engineering * SQL * Distributed systems *

CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.

+15

devozerov Oct 16 2025 at 13:52

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

19 min

7.8K

CedrusData corporate blogHigh performance * Algorithms * Data Engineering * Big Data *

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле.

Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок CedrusData.

Хочу, чтобы подгорело

+19

devozerov Dec 4 2024 at 05:30

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

6 min

748

CedrusData corporate blogData Engineering * SQL * Big Data *

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

devozerov Nov 21 2024 at 14:11

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

4 min

920

CedrusData corporate blogBig Data * SQL * Data Engineering *

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

devozerov Sep 17 2024 at 05:30

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Easy

10 min

2.4K

CedrusData corporate blogData Engineering * Big Data * SQL *

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

devozerov Jun 29 2023 at 20:17

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

12 min

63K

CedrusData corporate blogSQL * Big Data * Data Engineering *

Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любого big data движка. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.

И как же он устроен?

+13

devozerov Jun 6 2023 at 18:26

Почему Trino такой быстрый: динамические фильтры

8 min

5.8K

CedrusData corporate blogData Engineering * Big Data * SQL *

Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.

Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.

Рассмотрим реализацию динамических фильтров на примере Trino.

Узнать, как работают динамические фильтры

devozerov Apr 13 2023 at 17:38

Как устроен massively parallel processing (MPP) в Trino

10 min

11K

CedrusData corporate blogConcurrent computing * Big Data * High performance *

Из нашей повседневной практики доподлинно известно, что массивно(массово?)-параллельные вычисления это круто. Но что именно означает этот термин, и как "массивность" и "параллельность" реализованы в конкретной системе? В данной статье мы ответим на оба вопроса, проанализировав внутреннюю архитектуру популярного MPP-движка для больших данных Trino.

devozerov Oct 4 2021 at 05:30

Rule-based оптимизация SQL-запросов

7 min

6.9K

CedrusData corporate blogSQL * NoSQL * Big Data * Data Engineering *

Translation

Всем привет! В компании Querify Labs мы создаем компоненты СУБД, включая оптимизаторы SQL-запросов.

Любой SQL-запрос может быть выполнен множеством способов. Задача оптимизатора - найти эффективный план выполнения запроса.

В этой статье мы обсудим rule-based оптимизацию - популярную архитектуру оптимизатора, в котором планирование запроса разбито на последовательность атомарных трансформации. Мы рассмотрим особенности реализации данного подхода в Apache Calcite, Presto, и CockroachDB.