VorobevEI Nov 28 2021 at 12:37

Apache Spark, объяснение ключевых терминов

9 min

24K

Apache*Big Data*Data Engineering*

From sandbox

Translation

-2

Comments 7

korsetlr473 Nov 28 2021 at 13:00

Пора уже написать статью по сравнению всех этих подобных Apache X , сколько их сейчас там ? штук 8 ? даже уже не знаешь что брать и применять и их отличия

sshikov Nov 28 2021 at 13:42

В Apache Spark 2.0

Спарк 2.0 это что-то уже настолько старое… У меня недавно не приняли баг в Jira на версию 2.4.5, потому что 2.4.8 будет кажется последней версией в этой ветке. Так что эта статья 2016 года прилично устарела.

Moltem Nov 28 2021 at 14:44

Норм статья:) быстро по всему прошлись:)

А будет разбор слово каждого пункта с практикой?:) чтобы ссылку на docker указали и можно было самому поиграться и попробовать:)

VorobevEI Nov 28 2021 at 14:47

Спасибо за приятный комментарий) хорошая идея с практикой, возможно через некоторое время займусь)

sshikov Nov 28 2021 at 17:13

Я вас разочарую — статья просто кривой перевод устаревшего текста. Текущий спарк — версии 3.2.0, и он очень далеко ушел от описываемого тут.

Скажем, вот, замечательный и вполне типовой перл, он же миф:

>(в 100 раз быстрее, чем Apache Hadoop)
Быстрее чем что? Спарк как правило работает поверх Хадупа, используя его файловую систему HDFS для хранения и Yarn для запуска задач (хотя умеет и иначе), так что не может быть «быстрее» ни каким образом. Это просто теплое с мягким, спарк и хадуп — разные вещи.

>Spark запускает программы до 100 раз быстрее, чем Hadoop MapReduce в памяти
Spark не запускает никакие программы — он этим просто не занимается. Это кривой перевод. Он выполняет аналогичные преобразования быстрее, чем если написать их на API MapReduce (что далеко не очевидно, кстати, потому что написать в обоих случаях можно сильно по-разному, с разной эффективностью).

Впрочем, это уже тоже не актуально, потому что если в 2015 году еще кто-то писал на MapReduce, то сейчас таких придется поискать днем с огнем, просто потому, что это очень неудобно, и появилась куча инструментов получше.

EvgenyVilkov Dec 1 2021 at 18:36

подписываюсь под каждым словом !

в 2015 году разве что сбертех лабал map reduce и ждал чуда

sshikov Dec 1 2021 at 19:29

>map reduce
Ну я и сам пописывал, прямо скажем, и даже несколько позже 2015. Чисто для понимания, можно ли что-то принципиально другое сделать, если взять инструмент пониже уровнем. Но быстро понял, что даже Apache Crunch, который сильно ниже уровнем, чем спарк, все равно по сравнению с MapReduce упрощает работу в разы.