Comments / Profile of astoulov / Habr

How to become an author

Александр Стулов @astoulov

Эксперт по DWH & BI

ProfileArticles2PostsNewsComments17

На что стоит рассчитывать на первой работе: путь стажера (data engineer)

astoulov Feb 26 2024 at 18:01

ML и DataScience пафосная тема, но реально относительно редкая. Плюс, для задач ML и DataScience над быть экспертом в предметной области, чтобы грамотно поставить задачу и интерпретировать результат. Этому на курсах не учат.

Дата инженерия в этом смысле проще (универсальна), более распространена и выбор вакансий больше.

+1

Как мы внедряли каталог данных DataHub и искали компромисс между BI, DWH и ИБ

astoulov Jan 26 2024 at 08:20

Поддержу коллегу, было бы здорово, если поделились своими критериями выбора и оценки. Это же ценный опыт. По работе знаком c OMD и было бы интересно, почему ваши DWH эксперты его забраковали

0

Каталог данных — почему без него непросто и как всё организовать с максимальной пользой

astoulov Oct 15 2023 at 11:15

Добрый день. Подскажите, пожалуйста,

1) смотрели ли или смотрите сейчас в сторону Arenadata Дата Каталог?

2) Писали ли свои коннекторы или обходитесь теми, что есть из коробки

3) Насколько активно сообщество, отвечали/помогали ли вам разбираться с проблемами или в основном решали сами

+1

Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?

astoulov Oct 12 2023 at 07:28

Скорее не в довесок, а как часть продукта/платформы SAP можно рассматривать BEx и Analysis. Но, Power BI тоже внедрялся как часть общего решения фактически за бесплатно. Видел несколько таких внедрений в западных компаниях, когда в штаб-квартире принимали решение, что переходим на Power BI, т.к. он стал входить в пакет Office, которое доводилось до локального Российского рынка и принималось к исполнению. В компаниях, где центр принятия решения находился в России, думаю, таких переходов было меньше.

Qlik, конечно устроил революцию со своим подходом InMemory OLAP и занял достойное место, был модным, имел свои плюсы и минусы.

+1

Рынок BI (Business intelligence) систем в России. Как рисуют рейтинги платформам?

astoulov Oct 11 2023 at 18:25

Во времена царствия на рынке РФ большой тройки аналитических платформ (Qlik, Tableau, Power BI)

ИМХО, слишком сильное утверждение. В компаниях, где SAP внедрялся годами, а в России таких немало, эти продукты могли быть дополнением, но не основным средством отчетности поверх BW.

0

BI-инструмент от Яндекса DataLens — теперь в опенсорсе

astoulov Sep 27 2023 at 23:30

Еще огромный плюс - работа с картами, которые доступны в РФ и бесплатны при наличии геоинформации в самой базе

0

Техническое задание в картинках?

astoulov Sep 25 2023 at 15:45

Паспорт проекта это точно, не BRD. На самом высоком уровне Business Case описывает, что хочет бизнес, а потом это детализируется, но не в Паспорте проекта

0

Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример

astoulov Sep 25 2023 at 06:23

Третьего октября наша компания проводит вебинар "Снижаем трудозатраты на разработку и поддержку ETL процессов с помощью open source фреймворка для базы данных Greenplum и ее коммерческой сборки Arenadata DB". Приглашаем всех желающих. На вебинаре подробно обсудим, как применять ETL фреймворк в проектах миграции хранилищ данных на Greenplum

+3

20 лучших инструментов для таск-менеджмента, планирования и интеллект-карт

astoulov Sep 7 2023 at 07:10

В текущей ситуации в подборку надо добавлять отечественные аналоги, тем более, что их качество растет год от года. В прошлом году искал средство построение интеллект карт и одно из требований было - отсутствие ограничений на публикацию результатов в открытом доступе. Ни одно западное решение не удовлетворяло этому требованию за разумные деньги.

В итоге вышел на отечественный сервис https://mind-map-online.ru/main

Пример карты: https://mind-map-online.ru/sh-7e2118b61d37764f

+3

Бизнес-ключ и суррогатный ключ нужны оба

astoulov Aug 14 2023 at 07:32

Сергей, в какой памяти? Сегодня пришли транзакции по клиенту, завтра, через год. Согласно картинке из вашей статьи система должна перекодировать код клиента в суррогатный ключ. Варианта два:

использовать счетчик или аналог (предполагаю uuidv7 это аналог) для вставки записей в справочник (hub-таблицу) и lookup по справочнику при вставке в таблицы фактов
использовать хэш функцию (можно лить одновременно и в факты и справочники), но надо обрабатывать коллизии

Поясните, как организовать регламентную загрузку с использованием uuidv7 ?

0

Бизнес-ключ и суррогатный ключ нужны оба

astoulov Aug 13 2023 at 06:17

Суррогатный ключ хорош, когда функция, генерящая его по бизнес-ключу дает стабильный результат. Это позволяет одновременно лить данные в факты и справочники или получать значение суррогатного ключа без обращения к hub-таблице. UUIDv7 это позволяет? Как я понял - нет.

-2

Исследование рынка российских (и не только) BI-платформ

astoulov Nov 9 2022 at 19:54

Добрый день, можете немного пояснить фразу " Дельта BI поставляется по OEM-лицензии зарубежного производителя...". Кто разработчик продукта? Можете дать ссылку на сайт производителя?

0

Как мы в СИБУРе делаем дашборды для людей. Часть 2: логичные дашборды для департамента логистики

astoulov Jun 8 2022 at 07:04

Судя по скриншотам, продолжаете использовать Qlik. Расскажите, как повел себя вендор в условиях текущей ситуации

0

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

astoulov Jun 6 2022 at 10:51

Именно, поэтому в конкретном случае попробовали использовать ORA_HASH, который дает целое число на выходе.

+1

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

astoulov Jun 6 2022 at 09:16

Спасибо за ссылку на статью. Очень подробно описано, какие алгоритмы хэширования применять для генерации суррогатных ключей. Если бы знал о ней ранее, вставил бы ссылку в своем посте.

Большинство компаний идет по пути применения MD5, принимая риск того, что коллизии возможны, но они пренебрежимо малы.

Мне было интересно решить задачу обработки коллизий, что позволило использовать фунцию с большей вероятностью дублей.

Не претендую на единственно верное решение. Поделился со всеми, т.к. описания подхода обработки дублей ранее не видел. Алгоритм апробовали на реальной системе и он показал свою применимость и эффективность.

Тем более не готов сравнивать на одной доске точечный алгоритм с решением класса Enterprise - Oracle Real User Experience. Может быть поделитесь опытом внедрения на Российском рынке?

0

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

astoulov Jun 6 2022 at 09:03

Конечно, к колоночной СУБД придут. Но вопрос как формировать суррогатные ключи остается и для колоночной базы. Для того же объема данных, наверно, он будет стоять менее остро и можно будет использовать MD5 или SHA-1, но все равно останется.

+1

Использование хеш-значений с обработкой коллизий в качестве суррогатных ключей в справочниках DWH

astoulov Jun 3 2022 at 16:55

Не очень понимаю, как комментарий выше относится к тому, что написано в статье.

Поясню на примере. У вас на входе есть информация кликах сайта. Одна из характеристик клика - параметр User Agent, который представляет собой строку довольно большой длины. Хранить ее непосредственно в таблице фактов невыгодно, значит надо делать справочник и суррогатный ключ для него. Просто перенумеровывать все возможные значения по производительности хуже, чем использовать хэш функцию. Но хэш функция может давать дубли, которые надо обрабатывать.

Например, ORA_HASH() для следующих двух строк дает одно значение ключа:

"Opera/5.0 (Linux (Wine); U; Linux i686; en-us) Chrome/41.6.250.668 Safari/587.44"
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.88 (KHTML, like Gecko) Chrome/54.0.1608.78 Safari/537.88"

0