Было бы очень интересно сравнение в реалиях современных версий упоминаемых продуктов! ClickHouse и Druid значительно шагнули вперёд за эти 5 лет, насчёт Pinot не в курсе.
Характер использования: конечно не 1 запрос, и даже не тысячи и их характер сильно различается.
Типы DWH: да, есть Time series и много других типов хранилищ, которые хорошо решают некий круг задач и плохо - другой. В извложенной выше концепции Streaming покрывает не только супер-актуальные данные продаж (которые нужны не только в онлайн-режиме), а также много другой информации, которая требуется например в режиме t-10m, какая-то для моментальной реакции, а какая-то для аналитики и пр. Что-то грузится в режиме Streaming только ввиду колоссального объёма данных и технической невозможности одноразово вытащить подобный объём в Batch-режиме. Приведённое сравнение in-memory действительно не самое удачное, но ничего более подходящего не нашёл. Отдельно отмечу, что на цветной архитектуре TO-BE с 3 уровнями платформ темпорально-ориентированные БД условно есть, точнее некоторые можно использовать подобным образом (ClickHouse например: https://clickhouse.com/docs/en/single/#can-i-use-clickhouse-as-a-time-series-database).
Один за всех: К сожалению подобной платформы, удовлетворяющей всем потребностям, на горизонте не видится (особенно с учётом п.1). Насчёт проектирования "с нуля" не совсем согласен, т.к. есть понимание текущих процессов, потоков данных и запросов к ним, откуда вытекает ряд потребностей, не покрываемых (особенно в перспективе ближайших лет) "золотой рыбкой" где оперативные данные и архив, аналитические запросы и high-load, оптимальная стоимость по лицензиям, железу (и его доступности во времена кризиса микросхем), сопровождению, наличию специалистов на рынке и т.д.
Ну, смотря что именно работает. Данные собираются и раздаются условно для всех 18 тысяч магазинов (на самом деле для проектов над ними в разных конфигурация по сетям, локации и пр.), в рамках этих проектов могут быть реализованы и вопрощены в жизнь разные модели. Ну думаю, что факт наличия данных в DWH как-то связан с оценкой единичной точкой сети, но уверен, что в рамках развития всей сети улучшение сервисов централизации корпоративных данных и улучшение качества, актуальности и пр. данных в будущем исключительно положительно скажется на пользовательского опыте. DWH - не готовая рыбка, а удочка, которую можно использовать в меру своих возможностей.
Задача - предоставить данные всем подразделениям компании "по потребностям", а именно с требуемой детализацией, актуальностью и в нужной степени нормализации. Классические подходы складывания всего и вся в DataLake уже не удовлетворяют потребностям бизнеса, поэтому рождаются разнообразные решения, о которых идёт речь в статье.
В части данных речь не идёт о регулярном взаимодействии система-система, централизованное хранилище предоставляет данные для анализа и использования в экосистемах доменов/продуктов в сценариях: различного рода прогнозы (товаров на полках, загруженности тех же касс и много другого), ML, BI-отчётность для многих задач от анализа вчерашнего дня/недели до оперативного воздействия при задержке выполнения какой-то задачи сотрудником (тут как раз нужна высокая актуальность данных) и любые другие сценарии использования данных.
Было бы очень интересно сравнение в реалиях современных версий упоминаемых продуктов! ClickHouse и Druid значительно шагнули вперёд за эти 5 лет, насчёт Pinot не в курсе.
Характер использования: конечно не 1 запрос, и даже не тысячи и их характер сильно различается.
Типы DWH: да, есть Time series и много других типов хранилищ, которые хорошо решают некий круг задач и плохо - другой. В извложенной выше концепции Streaming покрывает не только супер-актуальные данные продаж (которые нужны не только в онлайн-режиме), а также много другой информации, которая требуется например в режиме t-10m, какая-то для моментальной реакции, а какая-то для аналитики и пр. Что-то грузится в режиме Streaming только ввиду колоссального объёма данных и технической невозможности одноразово вытащить подобный объём в Batch-режиме.
Приведённое сравнение in-memory действительно не самое удачное, но ничего более подходящего не нашёл. Отдельно отмечу, что на цветной архитектуре TO-BE с 3 уровнями платформ темпорально-ориентированные БД условно есть, точнее некоторые можно использовать подобным образом (ClickHouse например: https://clickhouse.com/docs/en/single/#can-i-use-clickhouse-as-a-time-series-database).
Один за всех: К сожалению подобной платформы, удовлетворяющей всем потребностям, на горизонте не видится (особенно с учётом п.1). Насчёт проектирования "с нуля" не совсем согласен, т.к. есть понимание текущих процессов, потоков данных и запросов к ним, откуда вытекает ряд потребностей, не покрываемых (особенно в перспективе ближайших лет) "золотой рыбкой" где оперативные данные и архив, аналитические запросы и high-load, оптимальная стоимость по лицензиям, железу (и его доступности во времена кризиса микросхем), сопровождению, наличию специалистов на рынке и т.д.
Второй абзац: "... сотен систем-источников (СИ)", т.е. Система-источник по отношению к DWH - места откуда грузим данных.
Ну, смотря что именно работает. Данные собираются и раздаются условно для всех 18 тысяч магазинов (на самом деле для проектов над ними в разных конфигурация по сетям, локации и пр.), в рамках этих проектов могут быть реализованы и вопрощены в жизнь разные модели. Ну думаю, что факт наличия данных в DWH как-то связан с оценкой единичной точкой сети, но уверен, что в рамках развития всей сети улучшение сервисов централизации корпоративных данных и улучшение качества, актуальности и пр. данных в будущем исключительно положительно скажется на пользовательского опыте. DWH - не готовая рыбка, а удочка, которую можно использовать в меру своих возможностей.
Задача - предоставить данные всем подразделениям компании "по потребностям", а именно с требуемой детализацией, актуальностью и в нужной степени нормализации. Классические подходы складывания всего и вся в DataLake уже не удовлетворяют потребностям бизнеса, поэтому рождаются разнообразные решения, о которых идёт речь в статье.
В части данных речь не идёт о регулярном взаимодействии система-система, централизованное хранилище предоставляет данные для анализа и использования в экосистемах доменов/продуктов в сценариях: различного рода прогнозы (товаров на полках, загруженности тех же касс и много другого), ML, BI-отчётность для многих задач от анализа вчерашнего дня/недели до оперативного воздействия при задержке выполнения какой-то задачи сотрудником (тут как раз нужна высокая актуальность данных) и любые другие сценарии использования данных.