CedrusData, Санкт-Петербург - Российская lakehouse-платформа на основе Trino / Статьи / Хабр

Компания CedrusData временно не ведёт блог на Хабре

Статьи4Посты

Lana_Kharlamova 10 ноя 2025 в 12:22

Substrait — lingua franca для баз данных

Средний

7 мин

6.3K

Блог компании CedrusDataBig Data * Data Engineering * SQL * Высоконагруженные системы *

Обзор

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.

Узнать про Substrait

devozerov 16 окт 2025 в 13:52

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

19 мин

Блог компании CedrusDataBig Data * Data Engineering * Алгоритмы * Высоконагруженные системы *

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле.

Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок CedrusData.

Хочу, чтобы подгорело

+19

vonirug 21 мая 2025 в 08:16

Заметки и материалы по итогам Lakehouse Meetup #3

Простой

3 мин

3.5K

Блог компании Лемана ТехБлог компании CedrusDataData Engineering *

CedrusData совместно с Лемана Тех провели митап, где рассмотрели реальный опыт внедрения современных технологий анализа данных: реализация lakehouse на Trino в Лемана Тех, использование Nessie в Азбуке Вкуса.

devozerov 4 дек 2024 в 05:30

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

6 мин

1.9K

Блог компании CedrusDataБлог компании VK TechBig Data * SQL * Data Engineering *

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.