Comments 8
Вижу слово Parquet, у меня вопрос нуба: чем можно открыть большие файлы .parquet и осуществлять поиск? Просто на локальной машине.
У меня Винда, WSL. Скрипты на питоне пытаются загрузить весь файл в память. Пытался также загрузить в ClickHouse, но ClickHouse кидает Exception при невалидном значении Date32 и прерывает импорт.
"Лёгкий", "сравним". И где? Оно же всяко по факту в 5 раз тяжелее clickhouse и в 50 медленнее?
Все сравнения в таблице , и да CH сложно столкнуть с пьедестала
Не знаю насчёт таймсериесов, но по установке дакдб полегче полного кликхауса. Скорость сравнить можно на сайте кликбенча, это бенчмарк самого кликхауса, и там как минимум в нескольких конфигурациях дакдб быстрее, в том числе при работе с паркетом
Все верно, но дьявол в нюансах. Почему именно с полным надо сравниваться? Да и если не углубляться в настройку, то нет, установка у клика - один шаг. А на выходе по функциональности сразу имеется практически все что пиарят в статье. Если с python-duckdb сравниваться - то надо помнить про chdb.
По бенчам datalake режима - duckdb после прогрева ощутимо ускоряется, а в cold run ведёт кликхаус. При этом datalake режим у клика более честный, а в нативном режиме он всё-таки быстрее чем duckdb, если я правильно запомнил когда смотрел сегодня днём.
GigAPI — это лёгкий «тайм-серии-лейкхаус» на базе DuckDB + Parquet с FDAP-стеком