Обновить

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

Время на прочтение7 мин
Охват и читатели7K
Всего голосов 11: ↑10 и ↓1+9
Комментарии12

Комментарии 12

Процессинговые движки настраивались на максимальные производительность и утилизацию всех доступных аппаратных ресурсов

Евгений, спасибо за статью. Проводим у себя схожие сравнения. Можете поделиться конкретными настройками движков, упомянутыми выше (при условии, что они доступны в ванильных версиях)? В прошлых постах серии вы отказались поделиться ими, но обещали сделать это позднее

Владимир, конфигурация тестовых стендов, как и было обещано, указана.

Этого достаточно, чтобы проявив экспертизу и богатый опыт, изучив документацию, через несколько итераций тестирования, прийти к индивидуальным параметрам движков для оптимальной производительности.

Со списком "не ванильных" опций и изменений движков можно ознакомиться на сайте.

В прошлых комментариях вы писали:
`... будут опубликованы результаты TPC-DS как методики понятной всем. Опубликованы они будут со всеми конфигами чтобы любой мог воспроизвести и сравнить. `

"Конфигурация тестовых стендов" и "все конфиги" - чуть-чуть разные вещи, нет? :)

Позвольте объяснить вам свою позицию - На российском рынке присутствуют другие игроки-вендоры, разрабатывающие и продающие свои решения, которые утверждаю что умеют в Starrocks, умеют в Impala, Spark и Trino. У меня нет намерений обучать конкурентов. Это наше конкурентное преимущество - продемонстрировать клиенту не только доработками и улучшениями open source кода, но и уметь решать проблемы, настраивать систему (ПО, окружение, оборудование) на максимальную и стабильную пропускную способность для решения его (клиента) задач. При этом зрелый клиент не выбирает решение по публикациям в интернете, а приглашает всех участников продемонстрировать на практике.

Справедливая позиция, которую невозможно критиковать.
Вопрос был только в разнице между двумя упомянутыми цитатами :)

что-то все молчат о индексах StarRocks и сколько времени занимает их создание на 1тб, ваши тесты не валидны, сделайте первые запуски на 10 разных ah-hoc и посмотрим, что будет и есть большие сомнения, что настроили движки правильно для их сравнения. Все сделано в пользу StarRocks для $, по этому автор и боиться показать настройки.

В нашем решении StaкRocks используется как lakehouse-движок. Это означает что он использует только открытый табличный формат Iceberg и файловый формат хранения. Никаких "индексов starrocks" нет и в помине. Вы путаете Starrocks с использованием проприетарным закрытым родным форматов хранения. Поэтому, к сожалению, ваш комментарий не валидный на 100%.

StaкRocks поддерживает iceberg только на select.

StarRocks поддерживает не только Select, но и Insert в Iceberg. Но не поддерживает Update, Merge, Delete.

только append-only, insert overwrite уже нет, acid commit iceberg тоже нет и много чего из iceberg нет)) и инсерт пока только как эсперементальная функция, ждем доработки trino, но бесусловно StarRocks хорош, только пока под дашборды вместо клика)) trino под ad-hoc/etl легко. Вот если бы рассказывали не только о + но и о - и правду и решение проблем, а так все победили кроме заказчика который узнает обо всем потом...

ну вот именно поэтому платформа на одном движке - это проблема либо на старте либо отложенная. Не просто так же в среднем каждый клиент-заказчик использует больше 2х движков.

SELECT COUNT(DISTINCT a.COLLISION_ID, b.COLLISION_ID)

FROM quickstart.crashdata a

CROSS JOIN (

SELECT *

FROM quickstart.crashdata

LIMIT 190000

) b;

SELECT COUNT(DISTINCT a.COLLISION_ID, b.COLLISION_ID)

FROM quickstart.crashdata a

JOIN quickstart.crashdata b

ON a.BOROUGH = b.BOROUGH

OR a.BOROUGH IS NOT NULL;

Вот на таких запросах нужно проводить тесты

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
datasapience.ru
Дата регистрации
Численность
201–500 человек
Местоположение
Россия
Представитель
Елизавета Рощина