Comments 4
которые стартуют мгновенно, подкачивают только нужные данные из S3 в локальный кэш и гаснут после работы.
А можно подробнее? Как они стартуют мгновенно? Они уже "прогретые" где-то жрут ресурсы? Спарк джоба это не быстро. Я ещё не очень понял как физически данные перемещаются и почему это не становится узким местом. И последнее, как аналитику проводить exploratory analysis перед тем как понять какие данные нужные?
Это просто питоновский демон, отдельным тредом запускается.
Это не спарк и никакая из общеупотребительных баз с тяжелым запуском, просто демон, без схемы данных и без ничего. Поэтому и стартует он в диапазоне секунды.
Ключевой фокус - подкачка выполняется только для данных, которые нужны для конкретного запроса. SELECT * к любой таблице - это верхние 100-1000 строчек, больше то не надо ничего, а это милисекунды.
Если же кидается запрос, например, select date, avg(amount) from T group by 1 к таблице в 1 млрд.:
Будут качаться только 2 колонки, за счет колоночного хранения.
2*4 байта * 1 млрд. = ~8ГБ
Родная компрессия Parquet - в 5 раз или более... Итого - ~1.5GB
1.5GB по нормальной сетке - это буквально секунда.
Мир поменялся, скачивание данных по сети стало быстрым.
Кажется что это классический подход используемый в Serverless, но со своими прихватами в виде Parquet
Что-то типа Neon Serverless Postgres или иных решений на базе Neon
Information
- Website
- www.postgrespro.ru
- Registered
- Founded
- Employees
- 501–1,000 employees
- Location
- Россия
- Representative
- Иван Панченко
Сессионные вычислители — залог успеха аналитики будущего