Cloudera, Palo Alto - Американская компания, разработчик / Статьи / Хабр

Компания Cloudera временно не ведёт блог на Хабре

Статьи 19Посты

Cloudera 10 янв 2022 в 11:33

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

7 мин

1.4K

Блог компании ClouderaBig Data*Хранилища данных*Hadoop*Data Engineering*

Cloudera Streaming Analytics: унификация пакетной и потоковой обработки в SQL

В октябре 2020 года Cloudera приобрела компанию Eventador, а в начале 2021 года был выпущен продукт Cloudera Streaming Analytics (CSA) 1.3.0. Это был первый релиз, который включал в себя SQL Stream Builder (SSB), полученный в результате интеграции наработок Eventador в продукт для аналитики потоквых данных на базе Apache Flink.

SQL Stream Builder (SSB) - это новый компонент со своим дружелюбным веб-интерфейсом, позволяющий анализировать потоковые и исторические данные в режиме реального времени в SQL, под капотом которого работает Apache Flink.

Cloudera 29 сен 2021 в 17:47

Референсная архитектура Cloudera CDP Private Cloud Base

8 мин

1.2K

Блог компании ClouderaBig Data*Hadoop*Data Engineering*

Выпуск версии Cloudera Data Platform (CDP) Private Cloud Base означает появление гибридной облачной архитектуры следующего поколения. Ниже представлен обзор методов проектирования и развертывания кластеров («лучшие практики»), включая конфигурацию оборудования и операционной системы, а также руководство по организации сети и построению системы безопасности, интеграции с существующей корпоративной инфраструктурой.

Cloudera 31 авг 2021 в 13:47

Аудит в CDP Private Cloud Base с использованием внешних систем

10 мин

731

Блог компании ClouderaBig Data*Хранение данных*Hadoop*Data Engineering*

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Cloudera 19 авг 2021 в 09:45

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

8 мин

867

Блог компании ClouderaBig Data*Хранение данных*Hadoop*

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Cloudera 13 авг 2021 в 10:14

Apache Ozone и узлы хранения данных высокой плотности

5 мин

2.2K

Блог компании ClouderaBig Data*Хранение данных*Хранилища данных*Hadoop*

Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Cloudera 7 июл 2021 в 10:23

Следующий этап: построение конвейера данных от периферии до аналитики

6 мин

1.5K

Блог компании ClouderaОблачные вычисления*Big Data*Хранение данных*Data Engineering*

В данной статье рассматриваются данные о производстве, эксплуатации и продажах продукции производителя подключенных транспортных средств. Эти данные проходят разные этапы и преобразования, которые обычно характерны для крупной производственной компании, находящейся на переднем крае современных технологий. В рамках блога мы будем рассказывать о вымышленной компании по производству подключенных транспортных средств (электромобилей) - The Electric Car Company (ECC). Для этого ECC использует платформу данных Cloudera Data Platform (CDP). Она применяет Cloudera Data Platform для прогнозирования событий и контроля процесса производства автомобилей на своих заводах по всему миру.

-1

Cloudera 1 июл 2021 в 10:56

Фильтруйте больше — тратьте меньше с последней версией Cloudera Data Warehouse Runtime

5 мин

436

Блог компании ClouderaАдминистрирование баз данных*Big Data*Хранение данных*Data Engineering*

Перевод

Сегодня одним из наиболее эффективных способов повышения производительности и минимизации затрат в системах баз данных является отказ от излишних операций, таких как чтение данных с уровня хранения (например, с дисков или из удаленного хранилища), их передача по сети или даже материализация данных при выполнении запроса. Apache Hive изначально улучшает выполнение распределенных запросов, передавая предикаты фильтров столбцов обработчикам подсистемы хранения, таким как HBase, или «читателям» данных в колоночном формате, например Apache ORC. Оценка этих предикатов вне механизма выполнения дает меньше данных для оценки запроса (сокращение данных) и приводит к уменьшению времени выполнения запроса и количества операций ввода-вывода.

Cloudera 25 июн 2021 в 09:50

Создание системы мониторинга Kafka с помощью NiFi, Kudu и Tableau

9 мин

4.2K

Блог компании ClouderaBig Data*Визуализация данных*Хранилища данных*Data Engineering*

Перевод

При масштабной работе с Apache Kafka вы рано или поздно столкнетесь с проблемой доступного дискового пространства, темпами роста тем или общими вопросами использования диска. Это особенно актуально при работе с внешними источниками - вне вашего прямого контроля и настройки жестких ограничений по размеру в вашей конфигурации хранения.

Инструмент kafka-log-dirs позволяет определить текущий размер и расположение всех доступных разделов в вашем кластере Kafka. Из-за своей природы этот инструмент представляет собой лишь снимок текущего состояния без какой-либо истории, и пользоваться им неудобно. Но мы покажем как это исправить!

Cloudera 7 июн 2021 в 10:47

Cloudera Data Platform как многогранное ценностное предложение

6 мин

1.9K

Блог компании ClouderaBig Data*

Перевод

Cloudera Data Platform (CDP) представляет собой сдвиг парадигмы в современной архитектуре платформы данных, удовлетворяя все существующие и будущие потребности в аналитике. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных - от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложные конвейеры данных и "демократизировать" активы данных.

-1

Kiryl_Halozhyn 1 июн 2021 в 12:22

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

5 мин

3.5K

Блог компании ClouderaApache*Big Data*Hadoop*Data Engineering*

Перевод

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Cloudera 24 мая 2021 в 09:00

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

7 мин

1.2K

Блог компании ClouderaApache*Big Data*Hadoop*Data Engineering*

Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Kiryl_Halozhyn 5 мая 2021 в 10:28

Data governance: добавление сторонних метаданных в Apache Atlas

9 мин

3.7K

Блог компании ClouderaData Mining*Big Data*Хранение данных*Data Engineering*

Перевод

Управление и устойчивая обработка данных являются важнейшим фактором успеха практически во всех организациях. В то время как платформа Cloudera Data Platform (CDP) уже поддерживает весь жизненный цикл данных от 'Edge до AI', мы в Cloudera полностью осознаем, что предприятия имеют больше систем за пределами CDP. Очень важно избегать того, чтобы CDP становилась ещё одной обособленной платформой в вашем ИТ-ландшафте. Чтобы исправить это, она может быть полностью интегрирована в существующую корпоративную ИТ-среду, какой бы разнообразной она ни была, и даже помогать отслеживать и классифицировать широкий спектр существующих активов данных, чтобы обеспечить полную картину от начала и до конца. В этом блоге мы выделим ключевые аспекты CDP, которые обеспечивают управление данными и покажем, как их можно расширить, чтобы включить в них метаданные для не связанных с CDP систем со всего предприятия.

Cloudera 25 мар 2021 в 11:00

Умные погодные приложения с Flink SQL

3 мин

1.2K

Блог компании ClouderaApache*Big Data*Data Engineering*

Перевод

Умные погодные приложения с Flink SQL

В этой статье мы покажем, как можно легко и быстро начать работу с потоковыми данными на примере анализа данных о погоде со всех метеостанций США, используя Apache NiFi, Kafka & Flink из стека Cloudera Data Platform.

Cloudera 19 мар 2021 в 10:00

Пример использования гибридного облака на базе Cloudera Data Platform

6 мин

931

Блог компании ClouderaBig Data*Hadoop*Облачные сервисы*

Перевод

Пример использования гибридного облака на базе Cloudera Data Platform

В этой статье я продемонстрирую, как использовать мощные возможности гибридного облака на базе Cloudera Data Platform (CDP). Вы узнаете, как подключить локальный CDP Private Cloud Base кластер к CDP в публичном облаке и настроить репликацию данных, провести их профилирование и настроить политику маскировки полей с приватными данными.

-1

Cloudera 16 мар 2021 в 10:00

Apache Ozone: следующее поколение хранилища для платформы больших данных

8 мин

6.9K

Блог компании ClouderaApache*Big Data*Хранение данных*Хранилища данных*

Перевод

Apache Ozone: следующее поколение хранилища для платформы больших данных

Распределенная файловая система Apache Hadoop (HDFS) де-факто является файловой системой для больших данных. Верная своим корням big data, HDFS работает лучше всего, когда большинство файлов имеют большой размер - от десятков до сотен мегабайт.

Ozone - это распределенное хранилище, которое может управлять как малыми, так и большими файлами. Ozone разрабатывается и внедряется командой инженеров и архитекторов, имеющих значительный опыт управления большими кластерами Apache Hadoop. Это дало нам представление о том, что HDFS делает хорошо, и о некоторых вещах, которые можно делать по-другому.

Cloudera 5 мар 2021 в 12:02

Тестирование производительности HBase с помощью YCSB

8 мин

768

Блог компании ClouderaNoSQL*Администрирование баз данных*Apache*Хранилища данных*

Перевод

Тестирование производительности HBase с помощью YCSB

При запуске любого теста производительности (инструмента по бенчмаркингу) на кластере критично всегда то, какой именно будет использоваться набор данных, и здесь мы покажем, почему при запуске теста производительности HBase на кластере важно выбрать «хорошо соответствующий по объему» набор данных.

Cloudera 3 мар 2021 в 09:00

Стриминг Edge2AI на NVIDIA JETSON Nano 2Гб с использованием агентов MiNiFi в приложениях FLaNK

16 мин

Блог компании ClouderaBig Data*Машинное обучение*Hadoop*Видеокарты

Перевод

Стриминг Edge2AI на новой карте NVIDIA JETSON Nano 2 Гб с использованием агентов MiNiFi в приложениях FLaNK

Устройство NVIDIA Jetson Nano 2GB великолепно - ничего лишнего. Скорость вполне подходит для большинства потребностей, особенно для задач разработки и прототипирования. Настройка проста, система быстрая, я настоятельно рекомендую всем, кто ищет быстрый способ поэкспериментировать с ИИ на периферии и другими пограничными рабочими нагрузками. Я также подключил свой Jetson к монитору, клавиатуре и мыши, и я могу использовать его сразу же как для вычислений на периферии, так и в качестве основного рабочего стола. С большим количеством таких устройств можно будет легко запустить MiNiFi агентов, модель классификации на Python и модели Deep Learning. Я также покажу, как быстро запустить на ней модель глубокого обучения для классификации изображений с веб камеры.

Cloudera 25 фев 2021 в 09:00

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

9 мин

1.8K

Блог компании ClouderaApache*Big Data*Облачные сервисы*Data Engineering*

Перевод

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

Хотя Apache Spark предоставляет множество возможностей для разнообразных сценариев применения, его использование сопряжено с дополнительной сложностью и высокими затратами на обслуживание и администрирование кластера. В планировщике Kubernetes по умолчанию есть пробелы с точки зрения эффективного развертывания пакетных рабочих нагрузок на том же кластере, где также планируется длительная работа других сервисов. Для пакетных рабочих нагрузок из-за требуемого параллелизма вычислений в основном должно планироваться совместное и гораздо более частое выполнение. В этой статье мы подробно рассмотрим некоторые из этих пробелов и исследуем преимущества использования Apache YniKorn вместо стандартного планировщика.

Cloudera 22 фев 2021 в 16:49

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

4 мин

5.9K

Блог компании ClouderaApache*Big Data*Хранение данных*Hadoop*

Recovery Mode

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках

-1