All streams
Search
Write a publication
Pull to refresh

Comments 8

Вижу слово Parquet, у меня вопрос нуба: чем можно открыть большие файлы .parquet и осуществлять поиск? Просто на локальной машине.

У меня Винда, WSL. Скрипты на питоне пытаются загрузить весь файл в память. Пытался также загрузить в ClickHouse, но ClickHouse кидает Exception при невалидном значении Date32 и прерывает импорт.

Пробовали спросить GPT промптом?

Загрузить файл parquet локально, не загружая весь сразу в память, используя Python. Дай мне код.

"Лёгкий", "сравним". И где? Оно же всяко по факту в 5 раз тяжелее clickhouse и в 50 медленнее?

Все сравнения в таблице , и да CH сложно столкнуть с пьедестала

"chatgpt, дай сравнительную таблицу" это не про то как принято сравнивать системы на хабре :-(

Не знаю насчёт таймсериесов, но по установке дакдб полегче полного кликхауса. Скорость сравнить можно на сайте кликбенча, это бенчмарк самого кликхауса, и там как минимум в нескольких конфигурациях дакдб быстрее, в том числе при работе с паркетом

Все верно, но дьявол в нюансах. Почему именно с полным надо сравниваться? Да и если не углубляться в настройку, то нет, установка у клика - один шаг. А на выходе по функциональности сразу имеется практически все что пиарят в статье. Если с python-duckdb сравниваться - то надо помнить про chdb.

По бенчам datalake режима - duckdb после прогрева ощутимо ускоряется, а в cold run ведёт кликхаус. При этом datalake режим у клика более честный, а в нативном режиме он всё-таки быстрее чем duckdb, если я правильно запомнил когда смотрел сегодня днём.

Sign up to leave a comment.

Articles