Как стать автором
Обновить
1115.56
OTUS
Цифровые навыки от ведущих экспертов

Выпуск CelerData призван устранить ограничения, связанные с озерным хранилищем

Время на прочтение3 мин
Количество просмотров1.1K

Компания CelerData, ранее известная как StarRocks Inc., объявила о выпуске последней версии своей унифицированной аналитической платформы — CelerData V3. В ней реализовано множество новых возможностей для пакетной обработки и работы с данными в реальном времени, включая возможность выполнять аналитику без предварительного ввода информации в озеро данных или lakehouse («озерный дом» объединяет преимущества и возможности хранилище и озера одновременно. «озерное хранилище»).

Предприятия уже давно основываются на сборе данных для аналитики. Они импортируют большие разрозненные файлы из различных источников в единое облачное хранилище — например, в озеро данных — и затем проводят анализ. Для этого обычно используются такие интеграционные инструменты, как Matillion и Airbyte.

CelerData V3 для прямой аналитики

Аналитическая платформа CelerData с обновлением 3.0, которое станет общедоступным в апреле 2023 года, позволит корпоративным пользователям осуществлять интеграцию с открытыми форматами таблиц, такими как Hudi, Iceberg и Delta Lake, и применять механизм запросов CelerData к данным без их ввода в озеро данных. 

Таким образом, по словам компании, пользователи смогут выполнять запросы к потоковым и историческим данным в режиме реального времени, без необходимости ждать и объединять потоковые данные в пакеты для анализа. Этот шаг также упрощает архитектуру данных и улучшает оперативность аналитики.

«"Озерное хранилище" добавило критические возможности в архитектуру озера данных, внедрив контроль ACID, форматы таблиц и управление данными», — сказал Джеймс Ли (James Li), генеральный директор CelerData. Однако аналитические возможности «озерного хранилища» все еще ограничены и требуют больших затрат. Большинство механизмов запросов с трудом справляются с поддержкой интерактивных случайных запросов, они не способны поддерживать аналитику в реальном времени и разрушаются при столкновении с большим количеством одновременно работающих пользователей."

CelerData, с другой стороны, все больше внимания уделяет поддержке унифицированной аналитики для озер данных и озерных хранилищ. Платформа была построена на базе проекта с открытым исходным кодом StarRocks, который стартовал в 2020 году как форк аналитической базы данных Apache Doris с открытым исходным кодом. Однако с тех пор он разошелся с Doris и превратился в базу данных MPP (массово-параллельная архитектура) OLAP (On-Line Analytical Processing. Оперативная аналитическая обработка), обеспечивающую быструю поддержку запросов в реальном времени для выполнения работы в области аналитики.

Компания утверждает, что сегодня платформа может поддерживать тысячи пользователей одновременно при 10 000 QPS (запросов в секунду), обеспечивая, по крайней мере, в три раза более высокую производительность, чем другие распространенные системы запросов.

Что еще входит в новое обновление?

Помимо интеграции с открытыми форматами таблиц, последняя версия CelerData предоставляет пользователям возможность переносить данные в собственный формат хранения на озере, а также создавать мультитабличные материализованные представления. Это, по словам компании, также поможет ускорить выполнение запросов.

Кроме того, облачно-нативная архитектура обновления — с использованием облачного объектного хранилища — повысит надежность и снизит затраты предприятий на хранение данных. Это также позволит им обеспечить лучшую изоляцию рабочих нагрузок и ресурсов.

Эти разработки помогут CelerData выдержать конкуренцию на рынке механизмов запросов для аналитики данных. Сюда входит поддерживаемый компанией Imply проект Apache Druid, который также является аналитической базой данных реального времени с открытым исходным кодом, и проект аналитической базы данных Apache Pinot, поддерживаемый коммерческим вендором StarTree.

Скоро состоится открытый урок «Use case: примеры и разбор ошибок». На этом вебинаре разберем несколько нетривиальных ситуаций при проектировании use case диаграммы и описании отдельных сценариев, а также обсудим, почему важно не допускать ошибок при проектировании и как это может повлиять на реализацию итогового решения. Записаться на урок можно на странице онлайн-курса «Системный аналитик. Advanced».

Теги:
Хабы:
Всего голосов 10: ↑7 и ↓3+5
Комментарии0

Публикации

Информация

Сайт
otus.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
OTUS