Flexxxey 19 окт 2023 в 13:00

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Сложный

13 мин

2.5K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Data Engineering*

+17

Комментарии 4

iboltaev 21 окт 2023 в 10:35

По-моему, это имеет много общего с hyperspace : https://youtu.be/ofn53mT7H6c?si=AECulwQfvDVIygWL

Flexxxey 24 окт 2023 в 11:45

Спасибо за ссылку, было интересно ознакомиться. Действительно, суть подходов - схожа.
- Hyperspace, судя по их странице на Microsoft, ориентирован на эффективные select и join запросы. В проекте SPYT при чтении из YTsaurus мы тоже реализуем Predicate Pushdown + оптимизация Aggregation и Join запросов из статьи.
- Также описанное в статье не требует предобработки, при подготовке витрин дата-инженеры обычно сортируют данные по типичным полям (id или datetime) в процессе заливки (так оно почти всегда занимает меньше места на диске), а YTsaurus сам поддерживает эту мету в актуальном состоянии.
Но вообще инструмент, конечно, заслуживает внимание и можно посмотреть в сторону его поддержки поверх YTsaurus и внутреннего формата хранения таблиц.

aozeritsky 23 окт 2023 в 21:55

Спасибо за статью. Для добавления этих правил пришлось патчить спарк или у него есть API для добавления произвольных правил? Если прогнать без оптимизаций и с оптимизациями на бенчмарке типа TPCH, то эффект заметен?

Flexxxey 24 окт 2023 в 12:03

У спарка есть API для добавление произвольных правил.
Вот тут при старте произвольной спарк сессии мы включаем свое правило (Rule). Тут используется наш хук на старт сессии. Обычно у команд дата-платформы уже есть такие хуки и тогда добавление правила - одна строчка.
А вот здесь мы включаем свои стратегии (Strategy), тоже одна строчка. Класс с подключением стратегий прописывается в опцию spark.sql.extensions.
Масштабной проверки на известных бенчмарках не делали. Вообще в планах есть провести тесты производительности Spark с YTsaurus и Spark с Hadoop. В рамках этого также можно будет посмотреть на отдельный эффект этой оптимизации. Спасибо за идею.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий