vmalyutin21 окт 2019 в 12:21

Вокруг Света за 4 Секунды на Columnstore (Часть 1)

18 мин

11K

PostgreSQL *

Из песочницы

+12

Комментарии 6

AterCattus 21 окт 2019 в 19:30

Почти 16 секунд на 52 миллиона строк выглядит как-то очень медленно. Тестировали ли вы это на большем объеме? Будет ли оно пропорционально замедляться?

Ну и как я понимаю, весь column-based датасет целиком влезает в память виртуалки (т.е. получаем 16 секунд перелопачивания in-memory данных), а row-based уже нет, и системе приходится читать с диска (что сильно все замедляет).

vmalyutin 23 окт 2019 в 11:27

В следующей части попробую найти, такой датасет, который будет иметь другое распределение и не будет влезать в память. Там и поглядим, что будет.

piton_nsk 22 окт 2019 в 13:56

Данные в operational_data, historycal_data надо регулярно загонять руками или как?

vmalyutin 23 окт 2019 в 11:29

В operational можно триггерами, а вот в historical только руками. Хорошая новость, что управляя секциями лаг будет минимален.

m1ke_cerber 23 окт 2019 в 11:29

Интересно. А вы случаем не проверяли как пойдут дела при объединении нескольких column-based таблиц?

vmalyutin 23 окт 2019 в 11:36

У Microsoft есть рекомендация не объединять column-based таблицы. Эти тоже не стоит, но в следующей части попробую. В целом, они подходят для агрегирующих запросов, где надо быстро достать данные и сделать нужные вычисления. В общем, думать надо над схемой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий