Ninil Nov 1 2021 at 13:15

Кастомные агрегаторы в Spark SQL

11 min

2.3K

Big Data * Data Engineering * Data storage *

Tutorial

Comments 3

sshikov Nov 1 2021 at 16:07

На мой взгляд, тут можно было бы добавить упоминание об очень похожих операциях над RDD. treeReduce/treeAggregate по сути, очень похожи на UDAF, и основаны на тех же самых фундаментальных вещах — свертке (которая выполняется на партиции), и merge (слияние результатов на двух партициях в один). Но и так очень даже неплохо.

Ninil Nov 1 2021 at 17:59

Спасибо за комментарий! Я хотел изначально, но потом отказался по двум причинам:

Объем для туториала и так получился не очень маленький
Все же сейчас RDD используется все реже и реже. В своей практике я, пожалую уже года 3-4 его не использовал.

sshikov Nov 1 2021 at 18:56

Да, я тоже стараюсь оставаться в рамках Dataset. Пожалуй, у нас в коде осталось одно место, где есть treeAggregate — это построение блум фильтра. Просто потому, что когда его писали, пример на RDD попался на глаза )