Pull to refresh

Comments 4

которые стартуют мгновенно, подкачивают только нужные данные из S3 в локальный кэш и гаснут после работы.

А можно подробнее? Как они стартуют мгновенно? Они уже "прогретые" где-то жрут ресурсы? Спарк джоба это не быстро. Я ещё не очень понял как физически данные перемещаются и почему это не становится узким местом. И последнее, как аналитику проводить exploratory analysis перед тем как понять какие данные нужные?

Это просто питоновский демон, отдельным тредом запускается.
Это не спарк и никакая из общеупотребительных баз с тяжелым запуском, просто демон, без схемы данных и без ничего. Поэтому и стартует он в диапазоне секунды.

Ключевой фокус - подкачка выполняется только для данных, которые нужны для конкретного запроса. SELECT * к любой таблице - это верхние 100-1000 строчек, больше то не надо ничего, а это милисекунды.

Если же кидается запрос, например, select date, avg(amount) from T group by 1 к таблице в 1 млрд.:

  1. Будут качаться только 2 колонки, за счет колоночного хранения.

  2. 2*4 байта * 1 млрд. = ~8ГБ

  3. Родная компрессия Parquet - в 5 раз или более... Итого - ~1.5GB

  4. 1.5GB по нормальной сетке - это буквально секунда.

    Мир поменялся, скачивание данных по сети стало быстрым.

Кажется что это классический подход используемый в Serverless, но со своими прихватами в виде Parquet

Что-то типа Neon Serverless Postgres или иных решений на базе Neon

Да, очень близко, это именно Serverless подход, просто это адаптация под OLAP задачи, аналитические. А Neon реализует serverless для OLTP задач。
Мы пока на OLTP не претендуем... хотя, возможно, скоро что-то вроде Neon в нашей платформе добавится, для легковесных дата-сервисов.

Sign up to leave a comment.

Information

Website
www.postgrespro.ru
Registered
Founded
Employees
501–1,000 employees
Location
Россия
Representative
Иван Панченко