Pull to refresh
42
0
Дмитрий Аношин @dimoobraznii

Analytics Engineer

Send message
Так что мешает? Можно попробовать, там видно будет.
Пока я был в России, я только написал SAP Lumira — 120 страниц книга по использованию продукта от простого к сложному. Я занимался обучение работы не нем на работе, и написал что-то вроде методички, как скачать, установить и настроить программу и основные элементы и use cases. Так же издатель берет на себя исправление и корректировки. Моя работа подразумевает работу с иностранными терминами, поэтому было достаточно комфортно.
Спасибо, что поправили!
Технически возможно делать все, но нельзя быть экспертам там и там. Я работаю в Амазон data engineer и помогаю data scientist масштабировать и деплоить их модели. Помимо этого у меня много других задач, которые больше про ETL и BigData. Так что я за разделение и специализацию. Полезно знать и то и другое, чтобы себя продать подороже, но делать придется что-то одно, если компания зрелая.
Несмотря на то что ваши комментарии больше напоминают комментарии про фильмы на rutracker, аля «под пиво зайдет» или «тема сисек не раскрыта», все равно спасибо за рекомендацию книги, я ее не читал, но обязательно прочитаю.

Я заметил в вашей публикации от 27 июня 2018 года такую фразу " DWH массово движется в сторону DataLake и Hadoop". Примерно о том же я слышал, когда работал в Терадата в 2011 году, я думаю можно и сейчас написать тоже самое, и найдется аудитория, которая будет кивать головой и которая скажет «по большому счету сплошная ерунда в тексте». Еще я понял что вы топите за Oracle судя по блогу и постам на хабре. Я бы так же топил за Teradata, если так и остался там работать или не работал ни с чем, кроме нее. Я хотел посмотреть где вы работаете, но к сожалению не нашел. Целью спорить с тролями умниками не преследовал. Кстати это поэтому карма такая низкая?

Скоро лето, удачи с озерами и прудами!

Я ни разу не сказал, что Data Lake это плохо. Я привел примеры что можно использовать только Data Lake, а можно и DW и Data Lake. Я можно только DW, если Snowflake.


Типа данных parquet, был выбран для моего проекта. Цель статья показать не техническим людям, что такое data lake.


Про delta lake я много видел у data bricks, было бы интересно узнать больше. GDPR проблема, эта та, которая сейчас у нас в Алекса с текущим решением на AWS.


"Сплошная ерунда в тексте" — это больше про менталитет людей, из разряда, я самый умный, у меня лучше чем у других и тп. Я написал на основе своего опыта. С удовольствие послушаю дельные советы, и новую информацию, которая будет всем полезна.

Я вот думаю создать вебинары на телеграм канале. Было бы интересно послушать вашу презентацию на этом примере, чтобы и другие смогли поучиться. У каждого человека уникальный опыт, и было бы хорошо им поделиться.

Вопрос про специфику это хороший вопрос. Но в целом у каждого свое мировозрение и восприятие. Когда я говорю, что бизнес пользователи работают с BI/DW я имею ввиду свой опыт работы с бизнес пользователями, которые обычно знают как работает Excel и пытаются всеми средствами выгрузить данные из DW и BI в эксель.

Хороший бизнес пользователь, это тот, кто знает SQL и может сам писать запросы. И тут уже не важно Data Lake (Athena/Spectrum в AWS) или DW. Но самая большая проблема для меня, что Custom SQL отчеты, с кучей подзапросов и непонятной логикой плодятся очень быстро, и никто, кроме бизнес пользователя не сможет сказать, что этот отчет делает, а потом он увольняется и как было недавно, оставляет вам 200 отчетов на SQL, и финансы говорят, на все нужно, хотя никто не понимает чего внутри и какие есть альтернативы (например в DW есть Star Schema со всеми метриками и она подключена к Tableau).

Deep dive — это уже меньше про бизнес пользователей, это про аналитиков, тут может и python понадобиться и Spark, и shell. То есть уже очень продвинутый уровень пользователя. И им вообще все-равно где данные и в каком формате, например JSON и доступ через API.

В любом случае, я за то, что у каждого свое мнение, и оно зависит от среды, в которой мы работает. И правильного ответа возможно и не существует. В посте я написал, главное это польза для бизнеса, а как уже 2ой приоритет, и зависит от нашего опыта технологий.
Действительно Амазон не в очень хороших отношения с Oracle. Но самое главное, зачем платить кому-то, если есть собственные решения, которые созданы для этой задачи.

Про цену тоже хороший комментарий, в амазоне все расслабляются, так как скидка на AWS, и косты начинают мониторить, когда речь о МЛН долларов. Так же выбор технологий внутри AWS зависит на 100% от команды. Например, мое предпочтение — это максимально использовать готовые сервисы, и не использовать open source и кастомизацию по возможности из-за time to market и поддержки такого решения.
Поправил, спасибо за фидбек.
Спасибо, полезная информация, пригодиться многим;
Почти как ребус, серьезно. А вообще, хорошее замечание, нужно вопросы перефразировать. Положительно не обязательно «Да» для меня.

-А как же хранилище данных?
-Хранилище нужно, без него никуда. (Это положительный ответ?)

В любом случае смысл я старался заложить, что можно и только с озером данных или только с хранилищем или хранилище + озеро данных.
А можно поподробней, как работает BigQuery? Я думаю всем будет полезно. Я точно знаю про Redshift, Azure DW и Snowflake.
Я имел ввиду миграцию Oracle DW на Amazon Redshift. Oracle изначально был в собственном датацентре, то есть много ресурсов на обслуживание (патчи, бекапы и тп), если погуглить, то этот проект назывался Rolling Stone. Он состял из двух элементов:
1) Это OLTP Oracle -> DynamoDB
2) Oracle DW -> Amazon Redshift (я как раз делал 2ой, и в контексте темы, я это и имел ввиду).

«Tl;DR: для big data существуют только облака, а AWS — их пророк /irony» — мой point, что Big Data легче делать на облаках (и не важно AWS, Azure, GCP. Просто я работал больше с AWS, и пишу про него, можно то же самое расписать про Azure, просто заменить Redshift на Azure SQL DW и тп). В облаках мы используем PaaS и SaaS, это сокращает время на создание инфраструктуры.

Полностью согласен про хранение агрегатов и метрик. В мое случае я использую DW для этого из-за удобства подключения к BI и работы бизнес пользователей.

У меня нет задачи вытаскивать данные из облака, все происходит там. Какой кейс вы имеете ввиду?
Точно, я это и имел ввиду, мне кажется BI инструменты лучше работают с DW, чем с Big Data. Безусловно, они все могут подключаться к Hive, Athena и тп, но сложней контролировать производительность. Раз на то пошло, бизнес пользователи могут вообще не понимать разницу между BI,DW,DL. Им просто нужен удобный интерфейс к данным.

Что-то, а рекламы облаков у меня точно нет. Я с ними работаю в Amazon (AWS) и в консалтинге rockyourdata.cloud. Я пишу о том, что происходит вокруг меня в Северной Америке, и я вижу рост популярности облаков и их преимуществ. Можно меня упрекнуть в рекламе Matillion или Tableau как вендоров, но врят ли в рекламе облаков.

Канал я использую для того, чтобы скидывать интересные мне материалы, это мое видение ситуации вокруг аналитики данных и инжиниринга данных.
Спасибо за текст!
12 ...
7

Information

Rating
Does not participate
Location
Vancouver, British Columbia, Канада
Registered
Activity