Pull to refresh
3
0
Александр Стулов @astoulov

Эксперт по DWH & BI

Send message

ML и DataScience пафосная тема, но реально относительно редкая. Плюс, для задач ML и DataScience над быть экспертом в предметной области, чтобы грамотно поставить задачу и интерпретировать результат. Этому на курсах не учат.

Дата инженерия в этом смысле проще (универсальна), более распространена и выбор вакансий больше.

Поддержу коллегу, было бы здорово, если поделились своими критериями выбора и оценки. Это же ценный опыт. По работе знаком c OMD и было бы интересно, почему ваши DWH эксперты его забраковали

Добрый день. Подскажите, пожалуйста,

1) смотрели ли или смотрите сейчас в сторону Arenadata Дата Каталог?

2) Писали ли свои коннекторы или обходитесь теми, что есть из коробки

3) Насколько активно сообщество, отвечали/помогали ли вам разбираться с проблемами или в основном решали сами

Скорее не в довесок, а как часть продукта/платформы SAP можно рассматривать BEx и Analysis. Но, Power BI тоже внедрялся как часть общего решения фактически за бесплатно. Видел несколько таких внедрений в западных компаниях, когда в штаб-квартире принимали решение, что переходим на Power BI, т.к. он стал входить в пакет Office, которое доводилось до локального Российского рынка и принималось к исполнению. В компаниях, где центр принятия решения находился в России, думаю, таких переходов было меньше.

Qlik, конечно устроил революцию со своим подходом InMemory OLAP и занял достойное место, был модным, имел свои плюсы и минусы.

Во времена царствия на рынке РФ большой тройки аналитических платформ (Qlik, Tableau, Power BI)

ИМХО, слишком сильное утверждение. В компаниях, где SAP внедрялся годами, а в России таких немало, эти продукты могли быть дополнением, но не основным средством отчетности поверх BW.

Еще огромный плюс - работа с картами, которые доступны в РФ и бесплатны при наличии геоинформации в самой базе

Паспорт проекта это точно, не BRD. На самом высоком уровне Business Case описывает, что хочет бизнес, а потом это детализируется, но не в Паспорте проекта

Третьего октября наша компания проводит вебинар "Снижаем трудозатраты на разработку и поддержку ETL процессов с помощью open source фреймворка для базы данных Greenplum и ее коммерческой сборки Arenadata DB". Приглашаем всех желающих. На вебинаре подробно обсудим, как применять ETL фреймворк в проектах миграции хранилищ данных на Greenplum

В текущей ситуации в подборку надо добавлять отечественные аналоги, тем более, что их качество растет год от года. В прошлом году искал средство построение интеллект карт и одно из требований было - отсутствие ограничений на публикацию результатов в открытом доступе. Ни одно западное решение не удовлетворяло этому требованию за разумные деньги.

В итоге вышел на отечественный сервис https://mind-map-online.ru/main

Пример карты: https://mind-map-online.ru/sh-7e2118b61d37764f

Сергей, в какой памяти? Сегодня пришли транзакции по клиенту, завтра, через год. Согласно картинке из вашей статьи система должна перекодировать код клиента в суррогатный ключ. Варианта два:

  • использовать счетчик или аналог (предполагаю uuidv7 это аналог) для вставки записей в справочник (hub-таблицу) и lookup по справочнику при вставке в таблицы фактов

  • использовать хэш функцию (можно лить одновременно и в факты и справочники), но надо обрабатывать коллизии

Поясните, как организовать регламентную загрузку с использованием uuidv7 ?

Суррогатный ключ хорош, когда функция, генерящая его по бизнес-ключу дает стабильный результат. Это позволяет одновременно лить данные в факты и справочники или получать значение суррогатного ключа без обращения к hub-таблице. UUIDv7 это позволяет? Как я понял - нет.

Добрый день, можете немного пояснить фразу " Дельта BI поставляется по OEM-лицензии зарубежного производителя...". Кто разработчик продукта? Можете дать ссылку на сайт производителя?

Судя по скриншотам, продолжаете использовать Qlik. Расскажите, как повел себя вендор в условиях текущей ситуации

Именно, поэтому в конкретном случае попробовали использовать ORA_HASH, который дает целое число на выходе.

Спасибо за ссылку на статью. Очень подробно описано, какие алгоритмы хэширования применять для генерации суррогатных ключей. Если бы знал о ней ранее, вставил бы ссылку в своем посте.

Большинство компаний идет по пути применения MD5, принимая риск того, что коллизии возможны, но они пренебрежимо малы.

Мне было интересно решить задачу обработки коллизий, что позволило использовать фунцию с большей вероятностью дублей.

Не претендую на единственно верное решение. Поделился со всеми, т.к. описания подхода обработки дублей ранее не видел. Алгоритм апробовали на реальной системе и он показал свою применимость и эффективность.

Тем более не готов сравнивать на одной доске точечный алгоритм с решением класса Enterprise - Oracle Real User Experience. Может быть поделитесь опытом внедрения на Российском рынке?

Конечно, к колоночной СУБД придут. Но вопрос как формировать суррогатные ключи остается и для колоночной базы. Для того же объема данных, наверно, он будет стоять менее остро и можно будет использовать MD5 или SHA-1, но все равно останется.

Не очень понимаю, как комментарий выше относится к тому, что написано в статье.

Поясню на примере. У вас на входе есть информация кликах сайта. Одна из характеристик клика - параметр User Agent, который представляет собой строку довольно большой длины. Хранить ее непосредственно в таблице фактов невыгодно, значит надо делать справочник и суррогатный ключ для него. Просто перенумеровывать все возможные значения по производительности хуже, чем использовать хэш функцию. Но хэш функция может давать дубли, которые надо обрабатывать.

Например, ORA_HASH() для следующих двух строк дает одно значение ключа:

  • "Opera/5.0 (Linux (Wine); U; Linux i686; en-us) Chrome/41.6.250.668 Safari/587.44"

  • "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.88 (KHTML, like Gecko) Chrome/54.0.1608.78 Safari/537.88"

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

Project Manager, Data Engineer
Lead
Project management
DWH
Business Intelligence
SAP BI
QlikView
SAP Business Objects Bi
Data Analysis