Как стать автором
Обновить
30.73
Рейтинг
Cloudera
Американская компания, разработчик
Сначала показывать
  • Новые
  • Лучшие

Аудит в CDP Private Cloud Base с использованием внешних систем

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 172
Комментарии 0

Как перейти на CDP с унаследованных дистрибутивов: четыре способа модернизации и миграции

Блог компании Cloudera Big Data *Хранение данных *Hadoop *

Переход к любой новой технологии требует тщательного планирования и скоординированных усилий. В этой статье мы разобрали четыре способа перехода с унаследованной платформы, такой как Cloudera CDH или HDP, на CDP Public Cloud или CDP Private Cloud. Четыре метода - это In-place Upgrade, Side-car Migration, Rolling Side-car Migration и Migrate to Public Cloud.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 444
Комментарии 0

Apache Ozone и узлы хранения данных высокой плотности

Блог компании Cloudera Big Data *Хранение данных *Хранилища данных *Hadoop *
Перевод

Сегодня специалисты по анализу корпоративных данных стремятся максимально эффективно использовать свои платформы. Хранилище данных играет одну из самых важных ролей, это основа для всех вычислительных механизмов и приложений. Еще один тренд - переход к горизонтально масштабируемой модели хранения, которая позволяет получить хранилища данных высокой плотности, обладающие также высокой надежностью, масштабируемостью и производительностью. Компании Cloudera и Cisco протестировали, насколько это реально, используя узлы хранения с высокой плотностью.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 4

Следующий этап: построение конвейера данных от периферии до аналитики

Блог компании Cloudera Облачные вычисления *Big Data *Хранение данных *Data Engineering *

В данной статье рассматриваются данные о производстве, эксплуатации и продажах продукции производителя подключенных транспортных средств. Эти данные проходят разные этапы и преобразования, которые обычно характерны для крупной производственной компании, находящейся на переднем крае современных технологий. В рамках блога мы будем рассказывать о вымышленной компании по производству подключенных транспортных средств (электромобилей) - The Electric Car Company (ECC). Для этого ECC использует платформу данных Cloudera Data Platform (CDP). Она применяет Cloudera Data Platform  для прогнозирования событий и контроля процесса производства автомобилей на своих заводах по всему миру.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 1K
Комментарии 0

Фильтруйте больше — тратьте меньше с последней версией Cloudera Data Warehouse Runtime

Блог компании Cloudera Администрирование баз данных *Big Data *Хранение данных *Data Engineering *
Перевод

Сегодня одним из наиболее эффективных способов повышения производительности и минимизации затрат в системах баз данных является отказ от излишних операций, таких как чтение данных с уровня хранения (например, с дисков или из удаленного хранилища), их передача по сети или даже материализация данных при выполнении запроса. Apache Hive изначально улучшает выполнение распределенных запросов, передавая предикаты фильтров столбцов обработчикам подсистемы хранения, таким как HBase, или «читателям» данных в колоночном формате, например Apache ORC. Оценка этих предикатов вне механизма выполнения дает меньше данных для оценки запроса (сокращение данных) и приводит к уменьшению времени выполнения запроса и количества операций ввода-вывода.

Читать далее
Рейтинг 0
Просмотры 220
Комментарии 0

Создание системы мониторинга Kafka с помощью NiFi, Kudu и Tableau

Блог компании Cloudera Big Data *Визуализация данных Хранилища данных *Data Engineering *
Перевод

При масштабной работе с Apache Kafka вы рано или поздно столкнетесь с проблемой доступного дискового пространства, темпами роста тем или общими вопросами использования диска. Это особенно актуально при работе с внешними источниками - вне вашего прямого контроля и настройки жестких ограничений по размеру в вашей конфигурации хранения.

Инструмент kafka-log-dirs позволяет определить текущий размер и расположение всех доступных разделов в вашем кластере Kafka. Из-за своей природы этот инструмент представляет собой лишь снимок текущего состояния без какой-либо истории, и пользоваться им неудобно. Но мы покажем как это исправить!

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 2.1K
Комментарии 2

Cloudera Data Platform как многогранное ценностное предложение

Блог компании Cloudera Big Data *
Перевод

Cloudera Data Platform (CDP) представляет собой сдвиг парадигмы в современной архитектуре платформы данных, удовлетворяя все существующие и будущие потребности в аналитике. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных - от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложные конвейеры данных и "демократизировать" активы данных.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 593
Комментарии 7

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.7K
Комментарии 0

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 603
Комментарии 0

Data governance: добавление сторонних метаданных в Apache Atlas

Блог компании Cloudera Data Mining *Big Data *Хранение данных *Data Engineering *
Перевод

Управление и устойчивая обработка данных являются важнейшим фактором успеха практически во всех организациях. В то время как платформа Cloudera Data Platform (CDP) уже поддерживает весь жизненный цикл данных от 'Edge до AI', мы в Cloudera полностью осознаем, что предприятия имеют больше систем за пределами CDP. Очень важно избегать того, чтобы CDP становилась ещё одной обособленной платформой в вашем ИТ-ландшафте. Чтобы исправить это, она может быть полностью интегрирована в существующую корпоративную ИТ-среду, какой бы разнообразной она ни была, и даже помогать отслеживать и классифицировать широкий спектр существующих активов данных, чтобы обеспечить полную картину от начала и до конца. В этом блоге мы выделим ключевые аспекты CDP, которые обеспечивают управление данными и покажем, как их можно расширить, чтобы включить в них метаданные для не связанных с CDP систем со всего предприятия.

Читать далее
Рейтинг 0
Просмотры 1K
Комментарии 0

Умные погодные приложения с Flink SQL

Блог компании Cloudera Apache *Big Data *Data Engineering *
Перевод

Умные погодные приложения с Flink SQL 

В этой статье мы покажем, как можно легко и быстро начать работу с потоковыми данными на примере анализа данных о погоде со всех метеостанций США, используя Apache NiFi, Kafka & Flink из стека Cloudera Data Platform.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 894
Комментарии 0

Пример использования гибридного облака на базе Cloudera Data Platform

Блог компании Cloudera Big Data *Hadoop *Облачные сервисы
Перевод

Пример использования гибридного облака на базе Cloudera Data Platform

В этой статье я продемонстрирую, как использовать мощные возможности гибридного облака на базе Cloudera Data Platform (CDP). Вы узнаете, как подключить локальный CDP Private Cloud Base кластер к CDP в публичном облаке и настроить репликацию данных, провести их профилирование и настроить политику маскировки полей с приватными данными.

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 427
Комментарии 5

Apache Ozone: следующее поколение хранилища для платформы больших данных

Блог компании Cloudera Apache *Big Data *Хранение данных *Хранилища данных *
Перевод

Apache Ozone: следующее поколение хранилища для платформы больших данных

Распределенная файловая система Apache Hadoop (HDFS) де-факто является файловой системой для больших данных. Верная своим корням big data, HDFS работает лучше всего, когда большинство файлов имеют большой размер - от десятков до сотен мегабайт.

Ozone - это распределенное хранилище, которое может управлять как малыми, так и большими файлами. Ozone разрабатывается и внедряется командой инженеров и архитекторов, имеющих значительный опыт управления большими кластерами Apache Hadoop. Это дало нам представление о том, что HDFS делает хорошо, и о некоторых вещах, которые можно делать по-другому.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.2K
Комментарии 0

Тестирование производительности HBase с помощью YCSB

Блог компании Cloudera NoSQL *Администрирование баз данных *Apache *Хранилища данных *
Перевод

Тестирование производительности HBase с помощью YCSB

При запуске любого теста производительности (инструмента по бенчмаркингу) на кластере критично всегда то, какой именно будет использоваться набор данных, и здесь мы покажем, почему при запуске теста производительности HBase на кластере важно выбрать «хорошо соответствующий по объему» набор данных.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 175
Комментарии 0

Стриминг Edge2AI на NVIDIA JETSON Nano 2Гб с использованием агентов MiNiFi в приложениях FLaNK

Блог компании Cloudera Big Data *Машинное обучение *Hadoop *Видеокарты
Перевод

Стриминг Edge2AI на новой карте NVIDIA JETSON Nano 2 Гб с использованием агентов MiNiFi в приложениях FLaNK

Устройство NVIDIA Jetson Nano 2GB великолепно - ничего лишнего. Скорость вполне подходит для большинства потребностей, особенно для задач разработки и прототипирования. Настройка проста, система быстрая, я настоятельно рекомендую всем, кто ищет быстрый способ поэкспериментировать с ИИ на периферии и другими пограничными рабочими нагрузками. Я также подключил свой Jetson к монитору, клавиатуре и мыши, и я могу использовать его сразу же как для вычислений на периферии, так и в качестве основного рабочего стола. С большим количеством таких устройств можно будет легко запустить MiNiFi агентов, модель классификации на Python и модели Deep Learning. Я также покажу, как быстро запустить на ней модель глубокого обучения для классификации изображений с веб камеры.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.1K
Комментарии 0

Apache Spark на Kubernetes: чем полезен Apache YuniKorn

Блог компании Cloudera Apache *Big Data *Облачные сервисы Data Engineering *
Перевод

Apache Spark на Kubernetes: чем полезен Apache YuniKorn 

Хотя Apache Spark предоставляет множество возможностей для разнообразных сценариев применения, его использование сопряжено с дополнительной сложностью и высокими затратами на обслуживание и администрирование кластера. В планировщике Kubernetes по умолчанию есть пробелы с точки зрения эффективного развертывания пакетных рабочих нагрузок на том же кластере, где также планируется длительная работа других сервисов. Для пакетных рабочих нагрузок из-за требуемого параллелизма вычислений в основном должно планироваться совместное и гораздо более частое выполнение. В этой статье мы подробно рассмотрим некоторые из этих пробелов и исследуем преимущества использования Apache YniKorn вместо стандартного планировщика.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 1.1K
Комментарии 5

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Блог компании Cloudera Apache *Big Data *Хранение данных *Hadoop *

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках
Всего голосов 7: ↑3 и ↓4 -1
Просмотры 4K
Комментарии 24

Информация

Дата основания
2008
Местоположение
США
Сайт
ru.cloudera.com
Численность
1 001–5 000 человек
Дата регистрации
Представитель
Кирилл