Как стать автором
Обновить

Комментарии 1

Но, что-то мне подсказывает, что на собеседовании к данному способу могут придраться, аргументируя это тем, что это все тот же скрипт SQL без специфики Spark.

Ну и вообще говоря, будут в чем-то правы. Специфика Spark все-таки не в том, чтобы выполнить запрос на таблице из 20 записей (хотя для примера это конечно нормально), а чтобы выполнить все тоже самое на миллиарде записей, и при этом уложиться в разумное время.

Спарк API когда-то срисовали с pandas, и это достаточно широко известный факт, поэтому учить спарк тем, кто уже знает pandas, реально не должно быть сложно — не считая как раз вот этой самой специфики, которая накладывает определенные ограничения на выбор способов решения.

Но в тоже время, эту специфику все равно скорее всего придется уже изучать в процессе работы. Так что если бы я интервьюировал разработчика к нам в проект, где на Spark основано почти все — меня бы такое решение вполне устроило (с поправкой на то, что я бы предпочел решение на скале — но оно бы практически отличалось мелочами).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории