ML и DataScience пафосная тема, но реально относительно редкая. Плюс, для задач ML и DataScience над быть экспертом в предметной области, чтобы грамотно поставить задачу и интерпретировать результат. Этому на курсах не учат.
Дата инженерия в этом смысле проще (универсальна), более распространена и выбор вакансий больше.
Поддержу коллегу, было бы здорово, если поделились своими критериями выбора и оценки. Это же ценный опыт. По работе знаком c OMD и было бы интересно, почему ваши DWH эксперты его забраковали
Скорее не в довесок, а как часть продукта/платформы SAP можно рассматривать BEx и Analysis. Но, Power BI тоже внедрялся как часть общего решения фактически за бесплатно. Видел несколько таких внедрений в западных компаниях, когда в штаб-квартире принимали решение, что переходим на Power BI, т.к. он стал входить в пакет Office, которое доводилось до локального Российского рынка и принималось к исполнению. В компаниях, где центр принятия решения находился в России, думаю, таких переходов было меньше.
Qlik, конечно устроил революцию со своим подходом InMemory OLAP и занял достойное место, был модным, имел свои плюсы и минусы.
Во времена царствия на рынке РФ большой тройки аналитических платформ (Qlik, Tableau, Power BI)
ИМХО, слишком сильное утверждение. В компаниях, где SAP внедрялся годами, а в России таких немало, эти продукты могли быть дополнением, но не основным средством отчетности поверх BW.
Паспорт проекта это точно, не BRD. На самом высоком уровне Business Case описывает, что хочет бизнес, а потом это детализируется, но не в Паспорте проекта
В текущей ситуации в подборку надо добавлять отечественные аналоги, тем более, что их качество растет год от года. В прошлом году искал средство построение интеллект карт и одно из требований было - отсутствие ограничений на публикацию результатов в открытом доступе. Ни одно западное решение не удовлетворяло этому требованию за разумные деньги.
Сергей, в какой памяти? Сегодня пришли транзакции по клиенту, завтра, через год. Согласно картинке из вашей статьи система должна перекодировать код клиента в суррогатный ключ. Варианта два:
использовать счетчик или аналог (предполагаю uuidv7 это аналог) для вставки записей в справочник (hub-таблицу) и lookup по справочнику при вставке в таблицы фактов
использовать хэш функцию (можно лить одновременно и в факты и справочники), но надо обрабатывать коллизии
Поясните, как организовать регламентную загрузку с использованием uuidv7 ?
Суррогатный ключ хорош, когда функция, генерящая его по бизнес-ключу дает стабильный результат. Это позволяет одновременно лить данные в факты и справочники или получать значение суррогатного ключа без обращения к hub-таблице. UUIDv7 это позволяет? Как я понял - нет.
Добрый день, можете немного пояснить фразу " Дельта BI поставляется по OEM-лицензии зарубежного производителя...". Кто разработчик продукта? Можете дать ссылку на сайт производителя?
Спасибо за ссылку на статью. Очень подробно описано, какие алгоритмы хэширования применять для генерации суррогатных ключей. Если бы знал о ней ранее, вставил бы ссылку в своем посте.
Большинство компаний идет по пути применения MD5, принимая риск того, что коллизии возможны, но они пренебрежимо малы.
Мне было интересно решить задачу обработки коллизий, что позволило использовать фунцию с большей вероятностью дублей.
Не претендую на единственно верное решение. Поделился со всеми, т.к. описания подхода обработки дублей ранее не видел. Алгоритм апробовали на реальной системе и он показал свою применимость и эффективность.
Тем более не готов сравнивать на одной доске точечный алгоритм с решением класса Enterprise - Oracle Real User Experience. Может быть поделитесь опытом внедрения на Российском рынке?
Конечно, к колоночной СУБД придут. Но вопрос как формировать суррогатные ключи остается и для колоночной базы. Для того же объема данных, наверно, он будет стоять менее остро и можно будет использовать MD5 или SHA-1, но все равно останется.
Не очень понимаю, как комментарий выше относится к тому, что написано в статье.
Поясню на примере. У вас на входе есть информация кликах сайта. Одна из характеристик клика - параметр User Agent, который представляет собой строку довольно большой длины. Хранить ее непосредственно в таблице фактов невыгодно, значит надо делать справочник и суррогатный ключ для него. Просто перенумеровывать все возможные значения по производительности хуже, чем использовать хэш функцию. Но хэш функция может давать дубли, которые надо обрабатывать.
Например, ORA_HASH() для следующих двух строк дает одно значение ключа:
"Opera/5.0 (Linux (Wine); U; Linux i686; en-us) Chrome/41.6.250.668 Safari/587.44"
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.88 (KHTML, like Gecko) Chrome/54.0.1608.78 Safari/537.88"
ML и DataScience пафосная тема, но реально относительно редкая. Плюс, для задач ML и DataScience над быть экспертом в предметной области, чтобы грамотно поставить задачу и интерпретировать результат. Этому на курсах не учат.
Дата инженерия в этом смысле проще (универсальна), более распространена и выбор вакансий больше.
Поддержу коллегу, было бы здорово, если поделились своими критериями выбора и оценки. Это же ценный опыт. По работе знаком c OMD и было бы интересно, почему ваши DWH эксперты его забраковали
Добрый день. Подскажите, пожалуйста,
1) смотрели ли или смотрите сейчас в сторону Arenadata Дата Каталог?
2) Писали ли свои коннекторы или обходитесь теми, что есть из коробки
3) Насколько активно сообщество, отвечали/помогали ли вам разбираться с проблемами или в основном решали сами
Скорее не в довесок, а как часть продукта/платформы SAP можно рассматривать BEx и Analysis. Но, Power BI тоже внедрялся как часть общего решения фактически за бесплатно. Видел несколько таких внедрений в западных компаниях, когда в штаб-квартире принимали решение, что переходим на Power BI, т.к. он стал входить в пакет Office, которое доводилось до локального Российского рынка и принималось к исполнению. В компаниях, где центр принятия решения находился в России, думаю, таких переходов было меньше.
Qlik, конечно устроил революцию со своим подходом InMemory OLAP и занял достойное место, был модным, имел свои плюсы и минусы.
ИМХО, слишком сильное утверждение. В компаниях, где SAP внедрялся годами, а в России таких немало, эти продукты могли быть дополнением, но не основным средством отчетности поверх BW.
Еще огромный плюс - работа с картами, которые доступны в РФ и бесплатны при наличии геоинформации в самой базе
Паспорт проекта это точно, не BRD. На самом высоком уровне Business Case описывает, что хочет бизнес, а потом это детализируется, но не в Паспорте проекта
Третьего октября наша компания проводит вебинар "Снижаем трудозатраты на разработку и поддержку ETL процессов с помощью open source фреймворка для базы данных Greenplum и ее коммерческой сборки Arenadata DB". Приглашаем всех желающих. На вебинаре подробно обсудим, как применять ETL фреймворк в проектах миграции хранилищ данных на Greenplum
В текущей ситуации в подборку надо добавлять отечественные аналоги, тем более, что их качество растет год от года. В прошлом году искал средство построение интеллект карт и одно из требований было - отсутствие ограничений на публикацию результатов в открытом доступе. Ни одно западное решение не удовлетворяло этому требованию за разумные деньги.
В итоге вышел на отечественный сервис https://mind-map-online.ru/main
Пример карты: https://mind-map-online.ru/sh-7e2118b61d37764f
Сергей, в какой памяти? Сегодня пришли транзакции по клиенту, завтра, через год. Согласно картинке из вашей статьи система должна перекодировать код клиента в суррогатный ключ. Варианта два:
использовать счетчик или аналог (предполагаю uuidv7 это аналог) для вставки записей в справочник (hub-таблицу) и lookup по справочнику при вставке в таблицы фактов
использовать хэш функцию (можно лить одновременно и в факты и справочники), но надо обрабатывать коллизии
Поясните, как организовать регламентную загрузку с использованием uuidv7 ?
Суррогатный ключ хорош, когда функция, генерящая его по бизнес-ключу дает стабильный результат. Это позволяет одновременно лить данные в факты и справочники или получать значение суррогатного ключа без обращения к hub-таблице. UUIDv7 это позволяет? Как я понял - нет.
Добрый день, можете немного пояснить фразу " Дельта BI поставляется по OEM-лицензии зарубежного производителя...". Кто разработчик продукта? Можете дать ссылку на сайт производителя?
Судя по скриншотам, продолжаете использовать Qlik. Расскажите, как повел себя вендор в условиях текущей ситуации
Именно, поэтому в конкретном случае попробовали использовать ORA_HASH, который дает целое число на выходе.
Спасибо за ссылку на статью. Очень подробно описано, какие алгоритмы хэширования применять для генерации суррогатных ключей. Если бы знал о ней ранее, вставил бы ссылку в своем посте.
Большинство компаний идет по пути применения MD5, принимая риск того, что коллизии возможны, но они пренебрежимо малы.
Мне было интересно решить задачу обработки коллизий, что позволило использовать фунцию с большей вероятностью дублей.
Не претендую на единственно верное решение. Поделился со всеми, т.к. описания подхода обработки дублей ранее не видел. Алгоритм апробовали на реальной системе и он показал свою применимость и эффективность.
Тем более не готов сравнивать на одной доске точечный алгоритм с решением класса Enterprise - Oracle Real User Experience. Может быть поделитесь опытом внедрения на Российском рынке?
Конечно, к колоночной СУБД придут. Но вопрос как формировать суррогатные ключи остается и для колоночной базы. Для того же объема данных, наверно, он будет стоять менее остро и можно будет использовать MD5 или SHA-1, но все равно останется.
Не очень понимаю, как комментарий выше относится к тому, что написано в статье.
Поясню на примере. У вас на входе есть информация кликах сайта. Одна из характеристик клика - параметр User Agent, который представляет собой строку довольно большой длины. Хранить ее непосредственно в таблице фактов невыгодно, значит надо делать справочник и суррогатный ключ для него. Просто перенумеровывать все возможные значения по производительности хуже, чем использовать хэш функцию. Но хэш функция может давать дубли, которые надо обрабатывать.
Например, ORA_HASH() для следующих двух строк дает одно значение ключа:
"Opera/5.0 (Linux (Wine); U; Linux i686; en-us) Chrome/41.6.250.668 Safari/587.44"
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.88 (KHTML, like Gecko) Chrome/54.0.1608.78 Safari/537.88"