Компания CelerData, ранее известная как StarRocks Inc., объявила о выпуске последней версии своей унифицированной аналитической платформы — CelerData V3. В ней реализовано множество новых возможностей для пакетной обработки и работы с данными в реальном времени, включая возможность выполнять аналитику без предварительного ввода информации в озеро данных или lakehouse («озерный дом» объединяет преимущества и возможности хранилище и озера одновременно. «озерное хранилище»).
Предприятия уже давно основываются на сборе данных для аналитики. Они импортируют большие разрозненные файлы из различных источников в единое облачное хранилище — например, в озеро данных — и затем проводят анализ. Для этого обычно используются такие интеграционные инструменты, как Matillion и Airbyte.
CelerData V3 для прямой аналитики
Аналитическая платформа CelerData с обновлением 3.0, которое станет общедоступным в апреле 2023 года, позволит корпоративным пользователям осуществлять интеграцию с открытыми форматами таблиц, такими как Hudi, Iceberg и Delta Lake, и применять механизм запросов CelerData к данным без их ввода в озеро данных.
Таким образом, по словам компании, пользователи смогут выполнять запросы к потоковым и историческим данным в режиме реального времени, без необходимости ждать и объединять потоковые данные в пакеты для анализа. Этот шаг также упрощает архитектуру данных и улучшает оперативность аналитики.
«"Озерное хранилище" добавило критические возможности в архитектуру озера данных, внедрив контроль ACID, форматы таблиц и управление данными», — сказал Джеймс Ли (James Li), генеральный директор CelerData. Однако аналитические возможности «озерного хранилища» все еще ограничены и требуют больших затрат. Большинство механизмов запросов с трудом справляются с поддержкой интерактивных случайных запросов, они не способны поддерживать аналитику в реальном времени и разрушаются при столкновении с большим количеством одновременно работающих пользователей."
CelerData, с другой стороны, все больше внимания уделяет поддержке унифицированной аналитики для озер данных и озерных хранилищ. Платформа была построена на базе проекта с открытым исходным кодом StarRocks, который стартовал в 2020 году как форк аналитической базы данных Apache Doris с открытым исходным кодом. Однако с тех пор он разошелся с Doris и превратился в базу данных MPP (массово-параллельная архитектура) OLAP (On-Line Analytical Processing. Оперативная аналитическая обработка), обеспечивающую быструю поддержку запросов в реальном времени для выполнения работы в области аналитики.
Компания утверждает, что сегодня платформа может поддерживать тысячи пользователей одновременно при 10 000 QPS (запросов в секунду), обеспечивая, по крайней мере, в три раза более высокую производительность, чем другие распространенные системы запросов.
Что еще входит в новое обновление?
Помимо интеграции с открытыми форматами таблиц, последняя версия CelerData предоставляет пользователям возможность переносить данные в собственный формат хранения на озере, а также создавать мультитабличные материализованные представления. Это, по словам компании, также поможет ускорить выполнение запросов.
Кроме того, облачно-нативная архитектура обновления — с использованием облачного объектного хранилища — повысит надежность и снизит затраты предприятий на хранение данных. Это также позволит им обеспечить лучшую изоляцию рабочих нагрузок и ресурсов.
Эти разработки помогут CelerData выдержать конкуренцию на рынке механизмов запросов для аналитики данных. Сюда входит поддерживаемый компанией Imply проект Apache Druid, который также является аналитической базой данных реального времени с открытым исходным кодом, и проект аналитической базы данных Apache Pinot, поддерживаемый коммерческим вендором StarTree.
Скоро состоится открытый урок «Use case: примеры и разбор ошибок». На этом вебинаре разберем несколько нетривиальных ситуаций при проектировании use case диаграммы и описании отдельных сценариев, а также обсудим, почему важно не допускать ошибок при проектировании и как это может повлиять на реализацию итогового решения. Записаться на урок можно на странице онлайн-курса «Системный аналитик. Advanced».