Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

PastorGL 23 авг 2024 в 10:19

Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

Средний

10 мин

2.4K

Big Data * Java * Open source * SQL * Программирование *

Туториал

В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 • 6 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

В данной части поговорим о том, как добавить в собственный диалект SQL поддержку процедур. Например,

-- library.tdl

CREATE PROCEDURE dwellTimeByMode(@signals, @target, @outPrefix,
  @modes = ['pedestrian', 'non_pedestrian', 'car', 'bike'],
  @groupid='cell10') AS BEGIN
    LOOP $mode IN $modes BEGIN
        SELECT * FROM $signals INTO "{$signals}/{$mode}" WHERE mode=$mode;

        CALL dwellTime(@signals_userid_attr=userid,
            @target_userid_attr=userid,
            @target_grouping_attr=$groupid
        ) INPUT signals FROM "{$signals}/{$mode}", target FROM $target
        OUTPUT INTO "{$outPrefix}/{$mode}";

        ANALYZE "{$signals}/{$mode}";
        ANALYZE "{$outPrefix}/{$mode}";
    END;
END;

--- ... --- ... --- ... ---

-- script.tdl

CALL dwellTimeByMode(@signals=$this_month, @target=$population, @outPrefix=$this_month);

Нафига это надо?

Ну, допустим, у нас уже есть некоторое количество SQL ETL кода, наработанного за время эксплуатации инструмента в продакшене, и становится заметно, что значительная часть скриптов на разных проектах совпадает, и из раза в раз повторяется. Логично было бы вынести все эти совпадающие куски в библиотеку, чтобы держать в одном месте, да и вызывать с какими надо параметрами, когда надо. Вот прям как на примере выше.

Читать дальше →

makondo 16 авг 2024 в 23:40

Data Lineage из топора

Средний

9 мин

Big Data * Data Engineering * SQL *

Кейс

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.

Разные самопальные data lineages

Sapienssolutions вчера в 13:38

Мгновенный доступ к данным для 1 000 + директоров с помощью ИИ. Кейс ритейлера

Простой

3 мин

309

Блог компании Sapiens solutionsBig Data * Визуализация данных * Искусственный интеллектУправление продажами *

Кейс

В этой статье расскажем о том, как компания Лэтуаль столкнулась с необходимостью организовать быстрый доступ к аналитике для управленческого состава, с какими сложностями столкнулась и к чему пришла в итоге (и как пригодился ИИ).

Одной из ключевых задач компании является ускорение реакции на изменения показателей в течение дня для всех уровней управленческой вертикали — от топ-менеджмента до управляющих оффлайн-магазинов. Для этого нужен быстрый и удобный доступ к оперативным показателям деятельности каждого магазина.

В компании был реализован механизм рассылок отчетности, однако он не удовлетворял всем требованиям.