Комментарии 12
Процессинговые движки настраивались на максимальные производительность и утилизацию всех доступных аппаратных ресурсов
Евгений, спасибо за статью. Проводим у себя схожие сравнения. Можете поделиться конкретными настройками движков, упомянутыми выше (при условии, что они доступны в ванильных версиях)? В прошлых постах серии вы отказались поделиться ими, но обещали сделать это позднее
Владимир, конфигурация тестовых стендов, как и было обещано, указана.
Этого достаточно, чтобы проявив экспертизу и богатый опыт, изучив документацию, через несколько итераций тестирования, прийти к индивидуальным параметрам движков для оптимальной производительности.
Со списком "не ванильных" опций и изменений движков можно ознакомиться на сайте.
В прошлых комментариях вы писали:
`... будут опубликованы результаты TPC-DS как методики понятной всем. Опубликованы они будут со всеми конфигами чтобы любой мог воспроизвести и сравнить. `
"Конфигурация тестовых стендов" и "все конфиги" - чуть-чуть разные вещи, нет? :)
Позвольте объяснить вам свою позицию - На российском рынке присутствуют другие игроки-вендоры, разрабатывающие и продающие свои решения, которые утверждаю что умеют в Starrocks, умеют в Impala, Spark и Trino. У меня нет намерений обучать конкурентов. Это наше конкурентное преимущество - продемонстрировать клиенту не только доработками и улучшениями open source кода, но и уметь решать проблемы, настраивать систему (ПО, окружение, оборудование) на максимальную и стабильную пропускную способность для решения его (клиента) задач. При этом зрелый клиент не выбирает решение по публикациям в интернете, а приглашает всех участников продемонстрировать на практике.
что-то все молчат о индексах StarRocks и сколько времени занимает их создание на 1тб, ваши тесты не валидны, сделайте первые запуски на 10 разных ah-hoc и посмотрим, что будет и есть большие сомнения, что настроили движки правильно для их сравнения. Все сделано в пользу StarRocks для $, по этому автор и боиться показать настройки.
В нашем решении StaкRocks используется как lakehouse-движок. Это означает что он использует только открытый табличный формат Iceberg и файловый формат хранения. Никаких "индексов starrocks" нет и в помине. Вы путаете Starrocks с использованием проприетарным закрытым родным форматов хранения. Поэтому, к сожалению, ваш комментарий не валидный на 100%.
StaкRocks поддерживает iceberg только на select.
StarRocks поддерживает не только Select, но и Insert в Iceberg. Но не поддерживает Update, Merge, Delete.
только append-only, insert overwrite уже нет, acid commit iceberg тоже нет и много чего из iceberg нет)) и инсерт пока только как эсперементальная функция, ждем доработки trino, но бесусловно StarRocks хорош, только пока под дашборды вместо клика)) trino под ad-hoc/etl легко. Вот если бы рассказывали не только о + но и о - и правду и решение проблем, а так все победили кроме заказчика который узнает обо всем потом...
SELECT COUNT(DISTINCT a.COLLISION_ID, b.COLLISION_ID)
FROM quickstart.crashdata a
CROSS JOIN (
SELECT *
FROM quickstart.crashdata
LIMIT 190000
) b;
SELECT COUNT(DISTINCT a.COLLISION_ID, b.COLLISION_ID)
FROM quickstart.crashdata a
JOIN quickstart.crashdata b
ON a.BOROUGH = b.BOROUGH
OR a.BOROUGH IS NOT NULL;
Вот на таких запросах нужно проводить тесты
Информация
- Сайт
- datasapience.ru
- Дата регистрации
- Численность
- 201–500 человек
- Местоположение
- Россия
- Представитель
- Елизавета Рощина
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala