от прочитанного ощущение что докладчик скакал по проектам, уделяя им неделю-две зачитывая рекламу продуктов.
если бы он посидел на проекте дольше двух недель врядли бы рассказывал о ненужности хадуп админа в менеджет хадупе облака. acid в хадупе говорит о том, что далее рекламных брошюрок он не смотрел. кое где в халупе есть атомарность на уровне таблицы, но никак не acid.
по мне так тоже разорительно выйдет. я полагаю текст был для примера, в реальности то никто не будет выкачивать каждый раз все со всех источников. т.е. придется воротить инкрементную загрузку, наверняка не раз в день и с постройкой истории.
значит будет некая MERGE команда на bigquery, она явно будет читать все хранилище накручивая счетчик.
а если еще захочется разные витрины ... может выйти слишком дорого.
в контексте хайлоад о пхп не слышно на конференциях от слова совсем, я не углублялся в вопрос, но лично мне кажется очевидно, что не встречается из-за подхода с умиранием.
потому что вижу что пхп обкладывает себя костылями что бы нивилировать этот недостаток, а противоположный лагерь вытесняет пхп и на подход «умирать» не смотрит.
в контексте хайлоад о пхп не слышно на конференциях от слова совсем, я не углублялся в вопрос, но лично мне кажется очевидно, что не встречается из-за подхода с умиранием.
пхп это это однопоточный скриптик, который по завершении теряет весь контекст. как на таком же что то сделать, ведь сайты это про многопоток и ассинхронность?
в 90х у пхп было понятие сессии, он на каждый хттп реквест лезла в базу и останавливала контекст пользователя. каждый раз. наверняка же ничего не изменилось.
тем, кому интересно узнать, как работает Apache Spark. Мы научимся писать простенькие пайплайны на этом фреймворке. Станет понятно как, например, взять и написать пайплайн обработки данных на Apache Spark или проанализировать данные в датасете.
таких туториалов не одна и не две тыщи, на кой тысяча первый то?
самое обидное что именно по спарку и нифига нет на темы чуток сложней считать/записать.
10-20 нод это $300-600к за 3 года. если дело лишь в удобстве, точно ли удобство стоит таких денег? «HDFS+Kafka±Storm+Hive» не столь уж сложно развернуть с амбари и на ваниле, за $10-20k вам легко бы кто-то помог нарисовать скрипты для ванилы и еще тучи денег остались бы на эксперименты.
ну на s3 то у вас явно просто временное хранилище, а не дата лейк с витринами. там же персональные данные, так просто в папочку не набросаешь.
т.е. что бы начать анализ новых данных, вам надо пройти все квесты с очисткой и интеграцией этих новых данных в dwh и только после этого тянуть из dwh на анализ, где выяснится…
странный выбор для 2019 года. а как захороненное в dwh анализировать то теперь? тянуть через jdbc в spark? имхо сейчас все же стараются дата дейк разлить перед витринами в dwh.
я к тому, что клоудера не отменяет содержание штата админов, но если админы есть, нет особого смысла платить за дистр и погружаться в его странные нюансы.
без боли думаю не собрать, есть некие скрипты bigtop, говорят помогают в сборке и мне кажется это более перспективно, чем выяснять, чего клоудера выпилила из спарк.
а по мне бесполезная трата денег. более $10k в год за ноду, это совсем перебор и сравнимо с oracle exadata. on-perm даже заплатив, все равно нужны админы присматривать, ну и в чем смысл выкладывать как за exadata? разумней тем же людям платить чуток больше и собирать себе ванильный хадуп со свежим софтом.
тем более что перспективы у клоудеры не очень, никогда не было прибыли, генерирует лишь убытки. многих клиентов обманула, закрыв доступ репозиториям. т.е. те кто были вынуждены заплатить расстроены и в ближайшее время будет массовый отток клиентов что не по своей воли заплатили. не факт что клоудера это переживет, не зря ее на днях продали какому-то фонду.
исправьте заголовок, озера данных — взгляд из индии.
Озеро данных (data lake) — это большой репозиторий необработанных исходных данных
может в индии это исходные данные, но Инмон описывает озеро с application pond, куда пишутся трансформируемые данные. databriks продвигает озеро с silver и golden таблицами, тоже после обработки и трасформации в их delta lake формат.
решение в облаке ищите или on-perm?
облако заказчиков ? надо так и у себя ?
это какой-то гуглотранслейт ?
onperm?
от прочитанного ощущение что докладчик скакал по проектам, уделяя им неделю-две зачитывая рекламу продуктов.
если бы он посидел на проекте дольше двух недель врядли бы рассказывал о ненужности хадуп админа в менеджет хадупе облака. acid в хадупе говорит о том, что далее рекламных брошюрок он не смотрел. кое где в халупе есть атомарность на уровне таблицы, но никак не acid.
по мне так тоже разорительно выйдет. я полагаю текст был для примера, в реальности то никто не будет выкачивать каждый раз все со всех источников. т.е. придется воротить инкрементную загрузку, наверняка не раз в день и с постройкой истории.
значит будет некая MERGE команда на bigquery, она явно будет читать все хранилище накручивая счетчик.
а если еще захочется разные витрины ... может выйти слишком дорого.
не было там реактора, там ядерная батарея. распад сам по себе идет, без заоблачных температур.
в контексте хайлоад о пхп не слышно на конференциях от слова совсем, я не углублялся в вопрос, но лично мне кажется очевидно, что не встречается из-за подхода с умиранием.
в 90х у пхп было понятие сессии, он на каждый хттп реквест лезла в базу и останавливала контекст пользователя. каждый раз. наверняка же ничего не изменилось.
таких туториалов не одна и не две тыщи, на кой тысяча первый то?
самое обидное что именно по спарку и нифига нет на темы чуток сложней считать/записать.
т.е. что бы начать анализ новых данных, вам надо пройти все квесты с очисткой и интеграцией этих новых данных в dwh и только после этого тянуть из dwh на анализ, где выяснится…
без боли думаю не собрать, есть некие скрипты bigtop, говорят помогают в сборке и мне кажется это более перспективно, чем выяснять, чего клоудера выпилила из спарк.
тем более что перспективы у клоудеры не очень, никогда не было прибыли, генерирует лишь убытки. многих клиентов обманула, закрыв доступ репозиториям. т.е. те кто были вынуждены заплатить расстроены и в ближайшее время будет массовый отток клиентов что не по своей воли заплатили. не факт что клоудера это переживет, не зря ее на днях продали какому-то фонду.
может в индии это исходные данные, но Инмон описывает озеро с application pond, куда пишутся трансформируемые данные. databriks продвигает озеро с silver и golden таблицами, тоже после обработки и трасформации в их delta lake формат.