Articles / Bookmarks / Profile of bigdata-dev / Habr

MaxRokatansky May 11 2021 at 12:09

Демистификация Join в Apache Spark

9 min

23K

OTUS corporate blogProgramming * Machine learning * Hadoop *

Translation

Операции Join часто используются в типовых потоках анализа данных для корреляции двух наборов данных. Apache Spark, будучи унифицированным аналитическим движком, также обеспечил прочную основу для выполнения широкого спектра сценариев Join.

На очень высоком уровне Join работает с двумя наборами входных данных, операция выполняется путем сопоставления каждой записи данных, принадлежащей одному из наборов входных данных, с каждой другой записью, принадлежащей другому набору входных данных. При обнаружении совпадения или несовпадения (в соответствии с заданным условием) операция Join может либо вывести отдельную сопоставляемую запись из любого из двух наборов данных, либо объединенную (Joined) запись. Объединенная запись представляет собой комбинацию отдельных сопоставляемых записей из обоих наборов данных.

Демистификация Join в Apache Spark

Пример архитектуры аналитического решения с использованием платформы Snowflake

Information