Обновить
8
0
Александр Филатов@phil88

инженер

Отправить сообщение

С версии 9.1 ORC и Parquet лицензируются, верно. Тем не менее, они лицензируются по физическому месту на диске. А это не тоже самое, что лицензия во внутреннем формате вертики.

На сколько мне известно на настоящий момент самописные UDF не лицензируются. Другое дело, что сырой поток событий с тысячами возможных полей за длительное время в ежедневных расчетах не требуется. Это скорее очень крутая дополнительная возможность для того, чтобы в адхоках что-то разово проверить. И надо иметь ввиду, что удобство работы через UDF конечно уступает тому, что предоставляет вертика из коробки

Добрый вечер.

Фичи на память такие: тип, номинальная длина/точность типа, текущая позиция в сортировке, количество уникальных значений, количество значений null, как часто следующие значения равны текущему.

Тяжеловесов вроде BZIP или GZIP мы используем в крайне режких случаях как раз по этой причине. ZSTD в общем случае хорош (и например в наших экспериментах с гринпламом использование ZSTD позволило выравняться по месту на дисках с вертикой), но старые вертичные кодировки при умелом применении хорошо жмут и работают быстро. По дефолту мы используем BLOCKDICT_COMP, DELTARANGE_COMP или LZO. Вот здесь хорошая вводная статья была.

Спасибо! У всех проблемы одинаковые) У нас есть планы выложить упомянутые инструменты тоже, когда появится немножечко времени

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность