Как стать автором
Обновить

Компания Cloudera временно не ведёт блог на Хабре

Сначала показывать

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

Время на прочтение 7 мин
Количество просмотров 1.4K

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Читать далее
Рейтинг 0
Комментарии 1

Референсная архитектура Cloudera CDP Private Cloud Base

Время на прочтение 8 мин
Количество просмотров 1.2K

Выпуск версии Cloudera Data Platform  (CDP) Private Cloud Base означает появление гибридной облачной архитектуры следующего поколения. Ниже представлен обзор методов проектирования и развертывания кластеров («лучшие практики»), включая конфигурацию оборудования и операционной системы, а также руководство по организации сети и построению системы безопасности, интеграции с существующей корпоративной инфраструктурой.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Аудит в CDP Private Cloud Base с использованием внешних систем

Время на прочтение 10 мин
Количество просмотров 701

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Время на прочтение 8 мин
Количество просмотров 853

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Apache Ozone и узлы хранения данных высокой плотности

Время на прочтение 5 мин
Количество просмотров 2.1K

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 4

Следующий этап: построение конвейера данных от периферии до аналитики

Время на прочтение 6 мин
Количество просмотров 1.5K

В данной статье рассматриваются данные о производстве, эксплуатации и продажах продукции производителя подключенных транспортных средств. Эти данные проходят разные этапы и преобразования, которые обычно характерны для крупной производственной компании, находящейся на переднем крае современных технологий. В рамках блога мы будем рассказывать о вымышленной компании по производству подключенных транспортных средств (электромобилей) - The Electric Car Company (ECC). Для этого ECC использует платформу данных Cloudera Data Platform (CDP). Она применяет Cloudera Data Platform  для прогнозирования событий и контроля процесса производства автомобилей на своих заводах по всему миру.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 0

Фильтруйте больше — тратьте меньше с последней версией Cloudera Data Warehouse Runtime

Время на прочтение 5 мин
Количество просмотров 413

Сегодня одним из наиболее эффективных способов повышения производительности и минимизации затрат в системах баз данных является отказ от излишних операций, таких как чтение данных с уровня хранения (например, с дисков или из удаленного хранилища), их передача по сети или даже материализация данных при выполнении запроса. Apache Hive изначально улучшает выполнение распределенных запросов, передавая предикаты фильтров столбцов обработчикам подсистемы хранения, таким как HBase, или «читателям» данных в колоночном формате, например Apache ORC. Оценка этих предикатов вне механизма выполнения дает меньше данных для оценки запроса (сокращение данных) и приводит к уменьшению времени выполнения запроса и количества операций ввода-вывода.

Читать далее
Рейтинг 0
Комментарии 0

Создание системы мониторинга Kafka с помощью NiFi, Kudu и Tableau

Время на прочтение 9 мин
Количество просмотров 4.1K

При масштабной работе с Apache Kafka вы рано или поздно столкнетесь с проблемой доступного дискового пространства, темпами роста тем или общими вопросами использования диска. Это особенно актуально при работе с внешними источниками - вне вашего прямого контроля и настройки жестких ограничений по размеру в вашей конфигурации хранения.

Инструмент kafka-log-dirs позволяет определить текущий размер и расположение всех доступных разделов в вашем кластере Kafka. Из-за своей природы этот инструмент представляет собой лишь снимок текущего состояния без какой-либо истории, и пользоваться им неудобно. Но мы покажем как это исправить!

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Cloudera Data Platform как многогранное ценностное предложение

Время на прочтение 6 мин
Количество просмотров 1.9K

Cloudera Data Platform (CDP) представляет собой сдвиг парадигмы в современной архитектуре платформы данных, удовлетворяя все существующие и будущие потребности в аналитике. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных - от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложные конвейеры данных и "демократизировать" активы данных.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 7

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Время на прочтение 5 мин
Количество просмотров 3.3K

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Время на прочтение 7 мин
Количество просмотров 1.2K

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 0

Data governance: добавление сторонних метаданных в Apache Atlas

Время на прочтение 9 мин
Количество просмотров 3.7K

Управление и устойчивая обработка данных являются важнейшим фактором успеха практически во всех организациях. В то время как платформа Cloudera Data Platform (CDP) уже поддерживает весь жизненный цикл данных от 'Edge до AI', мы в Cloudera полностью осознаем, что предприятия имеют больше систем за пределами CDP. Очень важно избегать того, чтобы CDP становилась ещё одной обособленной платформой в вашем ИТ-ландшафте. Чтобы исправить это, она может быть полностью интегрирована в существующую корпоративную ИТ-среду, какой бы разнообразной она ни была, и даже помогать отслеживать и классифицировать широкий спектр существующих активов данных, чтобы обеспечить полную картину от начала и до конца. В этом блоге мы выделим ключевые аспекты CDP, которые обеспечивают управление данными и покажем, как их можно расширить, чтобы включить в них метаданные для не связанных с CDP систем со всего предприятия.

Читать далее
Рейтинг 0
Комментарии 0

Умные погодные приложения с Flink SQL

Время на прочтение 3 мин
Количество просмотров 1.2K

Умные погодные приложения с Flink SQL 

В этой статье мы покажем, как можно легко и быстро начать работу с потоковыми данными на примере анализа данных о погоде со всех метеостанций США, используя Apache NiFi, Kafka & Flink из стека Cloudera Data Platform.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 0

Пример использования гибридного облака на базе Cloudera Data Platform

Время на прочтение 6 мин
Количество просмотров 918

Пример использования гибридного облака на базе Cloudera Data Platform

В этой статье я продемонстрирую, как использовать мощные возможности гибридного облака на базе Cloudera Data Platform (CDP). Вы узнаете, как подключить локальный CDP Private Cloud Base кластер к CDP в публичном облаке и настроить репликацию данных, провести их профилирование и настроить политику маскировки полей с приватными данными.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Комментарии 5

Apache Ozone: следующее поколение хранилища для платформы больших данных

Время на прочтение 8 мин
Количество просмотров 6.6K

Apache Ozone: следующее поколение хранилища для платформы больших данных

Распределенная файловая система Apache Hadoop (HDFS) де-факто является файловой системой для больших данных. Верная своим корням big data, HDFS работает лучше всего, когда большинство файлов имеют большой размер - от десятков до сотен мегабайт.

Ozone - это распределенное хранилище, которое может управлять как малыми, так и большими файлами. Ozone разрабатывается и внедряется командой инженеров и архитекторов, имеющих значительный опыт управления большими кластерами Apache Hadoop. Это дало нам представление о том, что HDFS делает хорошо, и о некоторых вещах, которые можно делать по-другому.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 0

Тестирование производительности HBase с помощью YCSB

Время на прочтение 8 мин
Количество просмотров 737

Тестирование производительности HBase с помощью YCSB

При запуске любого теста производительности (инструмента по бенчмаркингу) на кластере критично всегда то, какой именно будет использоваться набор данных, и здесь мы покажем, почему при запуске теста производительности HBase на кластере важно выбрать «хорошо соответствующий по объему» набор данных.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Стриминг Edge2AI на NVIDIA JETSON Nano 2Гб с использованием агентов MiNiFi в приложениях FLaNK

Время на прочтение 16 мин
Количество просмотров 2K

Стриминг Edge2AI на новой карте NVIDIA JETSON Nano 2 Гб с использованием агентов MiNiFi в приложениях FLaNK

Устройство NVIDIA Jetson Nano 2GB великолепно - ничего лишнего. Скорость вполне подходит для большинства потребностей, особенно для задач разработки и прототипирования. Настройка проста, система быстрая, я настоятельно рекомендую всем, кто ищет быстрый способ поэкспериментировать с ИИ на периферии и другими пограничными рабочими нагрузками. Я также подключил свой Jetson к монитору, клавиатуре и мыши, и я могу использовать его сразу же как для вычислений на периферии, так и в качестве основного рабочего стола. С большим количеством таких устройств можно будет легко запустить MiNiFi агентов, модель классификации на Python и модели Deep Learning. Я также покажу, как быстро запустить на ней модель глубокого обучения для классификации изображений с веб камеры.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

Время на прочтение 9 мин
Количество просмотров 1.8K

Apache Spark на Kubernetes: чем полезен Apache YuniKorn 

Хотя Apache Spark предоставляет множество возможностей для разнообразных сценариев применения, его использование сопряжено с дополнительной сложностью и высокими затратами на обслуживание и администрирование кластера. В планировщике Kubernetes по умолчанию есть пробелы с точки зрения эффективного развертывания пакетных рабочих нагрузок на том же кластере, где также планируется длительная работа других сервисов. Для пакетных рабочих нагрузок из-за требуемого параллелизма вычислений в основном должно планироваться совместное и гораздо более частое выполнение. В этой статье мы подробно рассмотрим некоторые из этих пробелов и исследуем преимущества использования Apache YniKorn вместо стандартного планировщика.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 5

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Время на прочтение 4 мин
Количество просмотров 5.9K

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках
Всего голосов 7: ↑3 и ↓4 -1
Комментарии 24