Комментарии / Профиль Mapar / Хабр

Виктор Езерский@Mapar

Пользователь

Подписчики

ПрофильСтатьиПостыНовостиКомментарии121

TPC-DS в 07.2026. Lakehouse: Spark, Trino, StarRocks, Impala и Doris. Greenplum & Cloudberry vs StarRocks как MPP

Mapar 2 июл в 08:04

Евгений, спасибо за интересную статью.

А чем объясняется что SR shared data быстрее в ваших тестах чем shared nothing?

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Mapar 15 мая в 12:09

Вы сравниваете теплое с мягким. Iceberg вообще никак не влияет на подходы к построению хранилища и не мешает строить звезды Кимбала или DataVault, это просто ортогональные вещи.

Подход "бизнес хочет?" - "на держи" - это так вообще лет 10 уже как, и например, Data Vault ровно для этого.

В целом, простите, я пока наблюдаю какой то сумбур, не с точки зрения подхода, а с точки зрения уровней абстракции, вы скачeте и путаете вместе физическое хранение, движки, подходы к проектированию слоев, сами слои и методологии построения.

Попробуйте для себя разделить эти вещи и тогда народ к вам потянется, идеи интересные, но плохо сформулированные.

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Mapar 15 мая в 10:25

Странная статья, с одной стороны интересный практический опыт, с другой стороны своя терминология. Например, Stage слой в терминологии автора, очень похож на детальный (Core) слой.

Так же не понятно зачем структуру/количество слоев противопоставлять технологиям представления данных внутри слоя (тот же Data Vault). Нормальная ситуация, когда ядро делают по Инмону (тот же Data Vault его вариация), а слой витрин по Кимбалу.

Тут конечно можно ответить, что Инмон и Кимбал это именно технологии построения всего хранилища, но они давно уже стали нарицательными именно для подходов организации таблиц внутри слоев.

Ну и привязка к технологиям мне кажется в теории построения хранилища не очень уместна, я конечно понимаю, что "clickhouse не тормозит, но" заставляет специфично строить DWH, но при этом сравниваются именно технологические подходы к проектированию в которых конкретные технологии не заложены.

P.S. Автор часто пишет "мы", хотелось бы понять опыт какой компании тут изложен

Миграция с Greenplum. Эпизод I: Атака клонов и спасение на звёздных камнях

Mapar 7 мая в 07:03

Саша, серьезно миграция с GP на Clickhouse?!
Пока StarRocks будет в списке рядом с Clickhouse, GP может спать спокойно ;-)

Это не про фичи, это про позиционировании. В остальном статья понравилась, хорошее сравнение.

StarRocks вместо Oracle на смешанной аналитической нагрузке. Проверяем на практике

Mapar 4 мая в 14:43

Интересная статья, спасибо.

Поскольку статья называется "StarRocks вместо Oracle" хотелось бы цифры для Oracle увидеть, что бы с чем сравнивать.

Производительность софт NVMe рейдов на основе mdadm, LVM и ZFS при использовании iSER и NVMe-oF (100G version) — Part 1

Mapar 4 мая в 12:43

Добрый день, для raid допускающих потерю данных, время восстановления (rebuild) не тестировали?

Очень интересны эти цифры...

Exadata на Postgres, или старые архитектурные проблемы и их решение в МБД Tantor XData Gen3

Mapar 20 мар в 12:02

Все же мои вопросы не поняли:
1. Сравнивая себя с чем-то, вы как бы помещаете два решения на одну доску, у меня вопрос корректно ли сравнивать решение с Exadata если у него нет Smart Scan ...
Хотелось бы понять почему данное решение сравнивается именно с Exadata если ключевая технология Exadata не реализована?

2. Безусловно я понимаю разницу между OLAP и HTAP, но в любом случае читая статью, я понимаю архитектуру решения, но хотелось бы понять позиционирование решения относительно движков которые также могут выполняют часть функций, и мне этого в статье не хватило.
Иными словами где применить, скажем PostgreSQL или GreenPlum, а где ваше решение? Что лучше для решения задач аналитики? Или тут ниша именно когда хочется навернуть немого OLAP к OLTP? Претендуете ли вы на нишу чистого OLAP как это делала Exadata?

Прошу прощения на акценте на OLAP, но я больше этой нагрузкой занимаюсь.

P.S. Вы пишите "это HTAP, а не MPP система" и тут же в сравнении "Yes: PX Engine with cluster-wide MPP (compute-driven parallelism across RW + RO nodes)". Это опять же о подборе вопросов в сравнении и позиционировании решения.

P.P.S. Со StaRocks не аффинирован, просто модная технология.

ClickHouse не тормозит, но не умеет джойнить. Убиваем миф

Mapar 19 мар в 17:39

Статья хорошая, автор раскрыл тему. Огромное ему спасибо.

Но тут есть три НО:
1. Автор рассматривает всего одно соединение, а если их несколько потребление памяти растет пропорционально

2. Если таких запросов в системе не один, а скажем 100 или больше, то внезапно память уже кончилась, а если еще несколько джойнов в одном запросе (смотри пункт первый)

3. Ну и наконец добавляем шарды, и тут становится совсем весело, так как если мы отказываемся от локальных джойнов, то при джойне 2 больших таблиц все данные едут на один шард и там кончается память

Собственно пока clickhouse не научится писать на диск информацию для джойна при нехватке памяти (пункты 1-2) и нормальную обработку джойнов шардированных таблиц не таща вся на один шард (пункт 3), для меня это система на которой нормального функционала джойнов нет.

Exadata на Postgres, или старые архитектурные проблемы и их решение в МБД Tantor XData Gen3

Mapar 19 мар в 12:24

Тут вопросов больше чем ответов:
1. Сравнение с Exadata без Smart Scan зачем кроме кликбейтного заголовка? По факту же прелесть Exadata в вычислениях на storage нодах.

2. Не будет ли затыком одна пишущая нода?

3. Чем это лучше скажем того же StarRocks, где можно вынести слой хранения во вне и все ноды могут писать, а не только читать?

В целом, тут видимо, мне не хватило отстройки позиционирования, скажем преимущество над:

1. просто Postgres c репликацией и чтением с реплик

2. MPP (Greenplum, StarRocks и ко.)

3. LH варинтов включая тот же StarRocks в таком режиме работы.

От «DWH мертвы» до гибридных схем: эволюция Lakehouse за последние три года

Mapar 19 фев в 16:45

DuckDB и Ducklake это разное. Разница такая же как между Icеberg и скажем Trion его использующим.

В Ducklake полноценные транзакции включая DDL, и не на одну операцию, а на сколько угодно и над сколько угодно таблиц. В параллельной сессии до коммита не видно изменений, включая вставленные строики или вновь созданные обькеты схемы.

Если серьезно хотите говорить про ACID то отсылайте хоть к тому кто эти принципы сформулирвал, а не к пересказчикам.

Меньше двух недель осталось до запрета иностранных слов в России

Mapar 19 фев в 11:53

Вот это крайне интересно, как будет выглядеть в этом свете статья или презентация в ИТ сфере?

От «DWH мертвы» до гибридных схем: эволюция Lakehouse за последние три года

Mapar 19 фев в 09:50

Ну так, ACID не равно транзакции. Lakehouse дает большую консистентность, чем Data Lake и это плюс.

Хочется полноценных транзакций в Lakehouse так их есть, скажем в DuckLake.

От «DWH мертвы» до гибридных схем: эволюция Lakehouse за последние три года

Mapar 19 фев в 09:45

Оно, как с любой зрелой технологией, она работает, завышенные ожидания ушли. Нашло свою нишу.

Проблема в том, что все пытаются найти серебряную пулю которая решит все проблемы, вместо того что бы сочетая технологии строить взвешенное решение.

По рынку бегает 100500 20-30 летних CDO, которые за плечами не имеют ни одного реализованного хранилища и кричат, что лейкхаус все полечит. Ударятся лбом, часть повзрослеют и будут выбирать не "универсальное спасение" а технологии подходящие для задачи.

Очередь задач на Postgres: SKIP LOCKED + lease/heartbeat + backpressure (практический опыт)

Mapar 12 янв в 08:54

Еще не вспомнили про FOR NO KEY UPDATE?!
Значит я первый. Почитайте, тут было пару статей в том числе и про паттерн очередей в PostgreSQL, и почему нужно использовать именно FOR NO KEY UPDATE, а не FOR UPDATE...

PostgreSQL: shared_buffers = 25% RAM?

Mapar 15 дек 2025 в 11:14

Я ожидал от статьи объяснения исходя из внутреннего устройства PG, а получил мы померили своей измерялкой, эмпирическое правило не догма.

Иными словами я эмпирическое правило поменял не на знания, а на 3 эмпирических правила из вывода в конце статьи.

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Mapar 11 ноя 2025 в 14:40

А указанные в статье доработки Impala доступны в OpenSource или только вашим заказчикам?

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Mapar 28 окт 2025 в 10:27

Так tpc тесты так и задумывались, только это превратилось в спорт, а со стороны покупателя в шараду, что накрутил вендор, что бы выиграть.

Мне такого форматы статьи гораздо больше нравится, когда не про цифры, а про реальные планы запросов и косяки оптимизатора.

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Mapar 28 окт 2025 в 10:25

Он бы на join слился, не его это

Low/No-Code ETL vs классический подход: что выбрать бизнесу

Mapar 28 окт 2025 в 09:05

Раньше инструменты Low-Code и No-Code ETL использовали в основном технические энтузиасты — аналитики или инженеры, которым было интересно попробовать новый подход для себя или в рамках пилотных проектов.

Вот тут смешно прям, Informatica, ODI, и прочие NiFi, давно корпоративные стандарты.

В целом статья слишком высокоуровневая, для каждого из видов платформ не хватает примеров реальных систем.

Ну и рекламируете свой LowCode - так картинок хоть накидайте. Оно же про визуальное программирование.

ClickHouse уже не один: StarRocks показывает, что lakehouse-аналитика может быть проще и быстрее»

Mapar 14 окт 2025 в 10:37

Очередной ChatGPT текст от автора...

2 3 ...

6 7