Comments 10
Вроде бы архитектура правильно написана, но я не пойму, при чем тут kubernetes?
Какой организацией "стандартизирован" ваш отраслевой стандарт?
Вы желаемое за действительное выдаёте. В бигдате на своем железе это сборка cloudera или horthonworks без прослойки с виртуализацией. А на облачных сервисах из коробки есть и Спарк и Кафка и все остальное.
Все еще хуже.
Та-же клоудера и хортон могут преспокойно разворачиваться в облаке.
Это частый случай если переносят "on premises" в облако как есть.
Я не ставлю под сомнение его всеобщую распространенность. (хотя стоило бы)
Моя претензия в том, что вы его позиционируете как решение для бигдаты. А это неправильно. Spark и hive это не вебсервисы, которые и с базой и с внешним миром работают через сеть. Для ETL очень важно, чтобы данные были на той же железной машине, что и исполняемый код. Передавать данные по сети для обработки — ненужные накладные расходы.
Проектирование озера данных с открытым исходным кодом