mkrupenin May 5 2021 at 16:31

Пример архитектуры аналитического решения с использованием платформы Snowflake

6 min

6.5K

EPAM corporate blogSQL*Big Data*Data storages*Data Engineering*

Translation

Comments 6

leventov May 5 2021 at 16:35

Основная претензия к Snowflake — data lock-in.

Open-source версия, или хотя бы публичная документация формата файлов на S3 нужна индустрии.

mkrupenin May 5 2021 at 17:05

Да, есть такое мнение, но немногие это учитывают как важный фактор при выборе платформы для аналитики.
Кому-то, возможно, будет интересно почитать короткую дискуссию на эту тему — она в комментариях к статье:
Selling the Data Lakehouse

alexxz May 5 2021 at 19:12

Несколько странное требование к базе данных. Большинство OLAP решений по факту пропиетарные и не раскрывают свои форматы. А зачем? Если вам надо загрузить или выгрузить данные - куча открытых форматов подерживается. В чем там lock in вы усматриваете?

leventov May 6 2021 at 16:18

Ну если рассматривать Snowflake как базу то ОК, но если рассматривать как ground-truth data lake, то пока что есть аргументы что лучше по старинке хранить Parquet файлы на S3. Athena по функционалу и мощности — лишь подобие Snowflake. А хотелось бы большего.

irishaspir Jun 8 2021 at 14:22

Максим, очень хорошая статья! Спасибо )

wibotwi Jul 4 2022 at 22:09

А как вы запускаете Airflow задачу, которая зовёт Snowflake copy? Раз в секунду? Как эта задача понимает, какие csv файлы новые а какие уже ранее обработанные?
Как вы прописываете зависимости между Airflow задачами? Ну вот например: когда данные появились в Snowflake, то нужно запустить задачи преобразования данных в Data Mart. Опять же преобразования Data Mart это скорее дерево задач, какие-то промежуточные таблицы могут порождать следующие (таблица с чистыми данными, потом с джойнами, а конечные таблицы например какие то матрики за месяц). Или зависимости не нужны, и каждый DAG просто независимо раз в секунду проверяет, готовы ли для него новые данные?
На каждом ли этапе у вас incremental batch update? Batch в данном случае то, что пришло из S3 в Snowflake, ведь даже потоковые данные вы в итоге батчуете (накапливаете в один файл в S3). Я та подозреваю что для каких-то метрик инкрементал апдейты вообще невозможны и надо пересчитывать всё (например total за последний год).