azathot Feb 27 at 14:19

Сессионные вычислители — залог успеха аналитики будущего

Medium

6 min

Postgres Professional corporate blogPostgreSQL * Artificial IntelligenceDatabase Administration * Big Data *

Review

Comments 4

Pruntoff Mar 2 at 06:58

которые стартуют мгновенно, подкачивают только нужные данные из S3 в локальный кэш и гаснут после работы.

А можно подробнее? Как они стартуют мгновенно? Они уже "прогретые" где-то жрут ресурсы? Спарк джоба это не быстро. Я ещё не очень понял как физически данные перемещаются и почему это не становится узким местом. И последнее, как аналитику проводить exploratory analysis перед тем как понять какие данные нужные?

azathot Mar 2 at 07:21

Это просто питоновский демон, отдельным тредом запускается.
Это не спарк и никакая из общеупотребительных баз с тяжелым запуском, просто демон, без схемы данных и без ничего. Поэтому и стартует он в диапазоне секунды.

Ключевой фокус - подкачка выполняется только для данных, которые нужны для конкретного запроса. SELECT * к любой таблице - это верхние 100-1000 строчек, больше то не надо ничего, а это милисекунды.

Если же кидается запрос, например, select date, avg(amount) from T group by 1 к таблице в 1 млрд.:

Будут качаться только 2 колонки, за счет колоночного хранения.
2*4 байта * 1 млрд. = ~8ГБ
Родная компрессия Parquet - в 5 раз или более... Итого - ~1.5GB
1.5GB по нормальной сетке - это буквально секунда.
Мир поменялся, скачивание данных по сети стало быстрым.

Sleuthhound Mar 2 at 08:29

Кажется что это классический подход используемый в Serverless, но со своими прихватами в виде Parquet

Что-то типа Neon Serverless Postgres или иных решений на базе Neon

azathot Mar 2 at 09:49

Да, очень близко, это именно Serverless подход, просто это адаптация под OLAP задачи, аналитические. А Neon реализует serverless для OLTP задач。
Мы пока на OLTP не претендуем... хотя, возможно, скоро что-то вроде Neon в нашей платформе добавится, для легковесных дата-сервисов.