Comments / Profile of dimoobraznii / Habr

Дмитрий Аношин @dimoobraznii

Analytics Engineer

Profile Publications 6Comments 136Bookmarks

Поиск работы за границей и иммиграция в Канаду

dimoobraznii Apr 25 2020 at 19:41

Так что мешает? Можно попробовать, там видно будет.

Look

Поиск работы за границей и иммиграция в Канаду

dimoobraznii Apr 25 2020 at 19:41

Пока я был в России, я только написал SAP Lumira — 120 страниц книга по использованию продукта от простого к сложному. Я занимался обучение работы не нем на работе, и написал что-то вроде методички, как скачать, установить и настроить программу и основные элементы и use cases. Так же издатель берет на себя исправление и корректировки. Моя работа подразумевает работу с иностранными терминами, поэтому было достаточно комфортно.

Look

Поиск работы за границей и иммиграция в Канаду

dimoobraznii Apr 25 2020 at 19:39

Спасибо, что поправили!

Look

Data Engineer и Data Scientist: какая вообще разница?

dimoobraznii Apr 17 2020 at 19:48

Технически возможно делать все, но нельзя быть экспертам там и там. Я работаю в Амазон data engineer и помогаю data scientist масштабировать и деплоить их модели. Помимо этого у меня много других задач, которые больше про ETL и BigData. Так что я за разделение и специализацию. Полезно знать и то и другое, чтобы себя продать подороже, но делать придется что-то одно, если компания зрелая.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 26 2020 at 03:11

Несмотря на то что ваши комментарии больше напоминают комментарии про фильмы на rutracker, аля «под пиво зайдет» или «тема сисек не раскрыта», все равно спасибо за рекомендацию книги, я ее не читал, но обязательно прочитаю.

Я заметил в вашей публикации от 27 июня 2018 года такую фразу " DWH массово движется в сторону DataLake и Hadoop". Примерно о том же я слышал, когда работал в Терадата в 2011 году, я думаю можно и сейчас написать тоже самое, и найдется аудитория, которая будет кивать головой и которая скажет «по большому счету сплошная ерунда в тексте». Еще я понял что вы топите за Oracle судя по блогу и постам на хабре. Я бы так же топил за Teradata, если так и остался там работать или не работал ни с чем, кроме нее. Я хотел посмотреть где вы работаете, но к сожалению не нашел. Целью спорить с ~~тролями~~ умниками не преследовал. Кстати это поэтому карма такая низкая?

Скоро лето, удачи с озерами и прудами!

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 25 2020 at 22:21

Я ни разу не сказал, что Data Lake это плохо. Я привел примеры что можно использовать только Data Lake, а можно и DW и Data Lake. Я можно только DW, если Snowflake.

Типа данных parquet, был выбран для моего проекта. Цель статья показать не техническим людям, что такое data lake.

Про delta lake я много видел у data bricks, было бы интересно узнать больше. GDPR проблема, эта та, которая сейчас у нас в Алекса с текущим решением на AWS.

"Сплошная ерунда в тексте" — это больше про менталитет людей, из разряда, я самый умный, у меня лучше чем у других и тп. Я написал на основе своего опыта. С удовольствие послушаю дельные советы, и новую информацию, которая будет всем полезна.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 25 2020 at 22:12

Я вот думаю создать вебинары на телеграм канале. Было бы интересно послушать вашу презентацию на этом примере, чтобы и другие смогли поучиться. У каждого человека уникальный опыт, и было бы хорошо им поделиться.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 24 2020 at 19:14

Вопрос про специфику это хороший вопрос. Но в целом у каждого свое мировозрение и восприятие. Когда я говорю, что бизнес пользователи работают с BI/DW я имею ввиду свой опыт работы с бизнес пользователями, которые обычно знают как работает Excel и пытаются всеми средствами выгрузить данные из DW и BI в эксель.

Хороший бизнес пользователь, это тот, кто знает SQL и может сам писать запросы. И тут уже не важно Data Lake (Athena/Spectrum в AWS) или DW. Но самая большая проблема для меня, что Custom SQL отчеты, с кучей подзапросов и непонятной логикой плодятся очень быстро, и никто, кроме бизнес пользователя не сможет сказать, что этот отчет делает, а потом он увольняется и как было недавно, оставляет вам 200 отчетов на SQL, и финансы говорят, на все нужно, хотя никто не понимает чего внутри и какие есть альтернативы (например в DW есть Star Schema со всеми метриками и она подключена к Tableau).

Deep dive — это уже меньше про бизнес пользователей, это про аналитиков, тут может и python понадобиться и Spark, и shell. То есть уже очень продвинутый уровень пользователя. И им вообще все-равно где данные и в каком формате, например JSON и доступ через API.

В любом случае, я за то, что у каждого свое мнение, и оно зависит от среды, в которой мы работает. И правильного ответа возможно и не существует. В посте я написал, главное это польза для бизнеса, а как уже 2ой приоритет, и зависит от нашего опыта технологий.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 24 2020 at 19:06

Действительно Амазон не в очень хороших отношения с Oracle. Но самое главное, зачем платить кому-то, если есть собственные решения, которые созданы для этой задачи.

Про цену тоже хороший комментарий, в амазоне все расслабляются, так как скидка на AWS, и косты начинают мониторить, когда речь о МЛН долларов. Так же выбор технологий внутри AWS зависит на 100% от команды. Например, мое предпочтение — это максимально использовать готовые сервисы, и не использовать open source и кастомизацию по возможности из-за time to market и поддержки такого решения.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 24 2020 at 19:02

Поправил, спасибо за фидбек.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 24 2020 at 08:51

Спасибо, полезная информация, пригодиться многим;

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 24 2020 at 08:51

Почти как ребус, серьезно. А вообще, хорошее замечание, нужно вопросы перефразировать. Положительно не обязательно «Да» для меня.

-А как же хранилище данных?
-Хранилище нужно, без него никуда. (Это положительный ответ?)

В любом случае смысл я старался заложить, что можно и только с озером данных или только с хранилищем или хранилище + озеро данных.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 23 2020 at 19:41

А можно поподробней, как работает BigQuery? Я думаю всем будет полезно. Я точно знаю про Redshift, Azure DW и Snowflake.

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 23 2020 at 19:12

Я имел ввиду миграцию Oracle DW на Amazon Redshift. Oracle изначально был в собственном датацентре, то есть много ресурсов на обслуживание (патчи, бекапы и тп), если погуглить, то этот проект назывался Rolling Stone. Он состял из двух элементов:
1) Это OLTP Oracle -> DynamoDB
2) Oracle DW -> Amazon Redshift (я как раз делал 2ой, и в контексте темы, я это и имел ввиду).

«Tl;DR: для big data существуют только облака, а AWS — их пророк /irony» — мой point, что Big Data легче делать на облаках (и не важно AWS, Azure, GCP. Просто я работал больше с AWS, и пишу про него, можно то же самое расписать про Azure, просто заменить Redshift на Azure SQL DW и тп). В облаках мы используем PaaS и SaaS, это сокращает время на создание инфраструктуры.

Полностью согласен про хранение агрегатов и метрик. В мое случае я использую DW для этого из-за удобства подключения к BI и работы бизнес пользователей.

У меня нет задачи вытаскивать данные из облака, все происходит там. Какой кейс вы имеете ввиду?

Look

Нужно ли нам озеро данных? А что делать с хранилищем данных?

dimoobraznii Jan 23 2020 at 19:06

Точно, я это и имел ввиду, мне кажется BI инструменты лучше работают с DW, чем с Big Data. Безусловно, они все могут подключаться к Hive, Athena и тп, но сложней контролировать производительность. Раз на то пошло, бизнес пользователи могут вообще не понимать разницу между BI,DW,DL. Им просто нужен удобный интерфейс к данным.

Что-то, а рекламы облаков у меня точно нет. Я с ними работаю в Amazon (AWS) и в консалтинге rockyourdata.cloud. Я пишу о том, что происходит вокруг меня в Северной Америке, и я вижу рост популярности облаков и их преимуществ. Можно меня упрекнуть в рекламе Matillion или Tableau как вендоров, но врят ли в рекламе облаков.

Канал я использую для того, чтобы скидывать интересные мне материалы, это мое видение ситуации вокруг аналитики данных и инжиниринга данных.

Look

Pizza as a service: как Amazon на Redshift мигрировал

dimoobraznii Dec 25 2019 at 10:12

Спасибо за текст!

-2

Look

1 2 ...

5 6