Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Cloudera Data Platform как многогранное ценностное предложение

Блог компании Cloudera Big Data *
Перевод

Cloudera Data Platform (CDP) представляет собой сдвиг парадигмы в современной архитектуре платформы данных, удовлетворяя все существующие и будущие потребности в аналитике. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных - от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложные конвейеры данных и "демократизировать" активы данных.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 579
Комментарии 7

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 597
Комментарии 0

Следующий этап: построение конвейера данных от периферии до аналитики

Блог компании Cloudera Облачные вычисления *Big Data *Хранение данных *Data Engineering *

В данной статье рассматриваются данные о производстве, эксплуатации и продажах продукции производителя подключенных транспортных средств. Эти данные проходят разные этапы и преобразования, которые обычно характерны для крупной производственной компании, находящейся на переднем крае современных технологий. В рамках блога мы будем рассказывать о вымышленной компании по производству подключенных транспортных средств (электромобилей) - The Electric Car Company (ECC). Для этого ECC использует платформу данных Cloudera Data Platform (CDP). Она применяет Cloudera Data Platform  для прогнозирования событий и контроля процесса производства автомобилей на своих заводах по всему миру.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 1K
Комментарии 0

Создание системы мониторинга Kafka с помощью NiFi, Kudu и Tableau

Блог компании Cloudera Big Data *Визуализация данных Хранилища данных *Data Engineering *
Перевод

При масштабной работе с Apache Kafka вы рано или поздно столкнетесь с проблемой доступного дискового пространства, темпами роста тем или общими вопросами использования диска. Это особенно актуально при работе с внешними источниками - вне вашего прямого контроля и настройки жестких ограничений по размеру в вашей конфигурации хранения.

Инструмент kafka-log-dirs позволяет определить текущий размер и расположение всех доступных разделов в вашем кластере Kafka. Из-за своей природы этот инструмент представляет собой лишь снимок текущего состояния без какой-либо истории, и пользоваться им неудобно. Но мы покажем как это исправить!

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 2.1K
Комментарии 2

Фильтруйте больше — тратьте меньше с последней версией Cloudera Data Warehouse Runtime

Блог компании Cloudera Администрирование баз данных *Big Data *Хранение данных *Data Engineering *
Перевод

Сегодня одним из наиболее эффективных способов повышения производительности и минимизации затрат в системах баз данных является отказ от излишних операций, таких как чтение данных с уровня хранения (например, с дисков или из удаленного хранилища), их передача по сети или даже материализация данных при выполнении запроса. Apache Hive изначально улучшает выполнение распределенных запросов, передавая предикаты фильтров столбцов обработчикам подсистемы хранения, таким как HBase, или «читателям» данных в колоночном формате, например Apache ORC. Оценка этих предикатов вне механизма выполнения дает меньше данных для оценки запроса (сокращение данных) и приводит к уменьшению времени выполнения запроса и количества операций ввода-вывода.

Читать далее
Рейтинг 0
Просмотры 218
Комментарии 0

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.6K
Комментарии 0

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 167
Комментарии 0

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Блог компании Cloudera Big Data *Хранение данных *Hadoop *

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 437
Комментарии 0

Apache Ozone и узлы хранения данных высокой плотности

Блог компании Cloudera Big Data *Хранение данных *Хранилища данных *Hadoop *
Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 4
2