Все потоки

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

exc3pti0n 7 янв 2024 в 10:16

OpenWire — смотрим на атаку с платформы Cyberdefenders

Простой

4 мин

2.2K

Информационная безопасность * Apache * CTF *

Во время вашей смены в качестве аналитика второй линии SOC вы получаете информацию с первой линии относительно общедоступного сервера. Этот сервер был помечен как установивший подключения к нескольким подозрительным IP-адресам. В ответ вы запускаете стандартный протокол реагирования на инциденты, который создает изоляцию сервера от сети для предотвращения потенциального горизонтального перемещения или утечки данных и получение перехваченного пакета от утилиты NSM для анализа. Ваша задача — проанализировать PCAP и проверить наличие признаков вредоносной активности.

Читать далее

+3

aasmc 4 янв 2024 в 14:56

Рассчитываем рейтинг товара на основе оценок пользователей с KafkaStreams и OpenSearch

Средний

14 мин

5.5K

Java * Apache * Kotlin *

Туториал

Всем привет! Меня зовут Александр. Последний год тружусь фрилансером на проекте по созданию очередного маркетплейса. Мои задачи включают разработку скоринговой системы продуктов, которая бы позволяла формировать выборку товаров по популярности на основе нескольких показателей. Одним из показателей являются оценки пользователей по шкале от 1 до 5. Думаю, что не станет открытием Америки то, что расчет рейтинга товара по среднему арифметическому всех оценок приводит к насовсем корректным результатам выборки. Например, при таком подходе товар "А" с одной оценкой 5 в рейтинге будет выше товара "Б", у которого сотня оценок 5 и одна оценка 4. Решение данной проблемы давно найдено - для расчета следует применить доверительный интервал биномиального распределения по методу Уилсона (Wilson Score Confidence Interval).

Читать далее

+9

svtDanny 2 янв 2024 в 07:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.7K

Apache * Big Data * Хранение данных * Data Engineering *

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее

+3

Albert_Wesker 28 дек 2023 в 14:01

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Сложный

11 мин

10K

Блог компании Timeweb CloudСистемное администрирование * IT-инфраструктура * Apache * Хранение данных *

Обзор

Перевод

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.

Читать дальше →

+15

MaxRokatansky 13 дек 2023 в 14:57

Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

8 мин

3K

Блог компании OTUSApache * Data Engineering *

Перевод

Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я решил приобщиться и внести свой небольшой вклад в это дело, продемонстрировав вам несколько интересных деталей реализации.

Читать далее

+5

aasmc 10 дек 2023 в 15:12

Kafka Connect на примере Debezium PostgresConnector

Средний

19 мин

30K

PostgreSQL * Java * Apache * Kotlin *

Туториал

В предыдущей статье про микросервисную архитектуру на основе событий с использованием Kafka Streams достаточно поверхностно был упомянут io.confluent.connect.jdbc.JdbcSourceConnector, который использовался для вычитания данных из SQLite и отправки их в топик Kafka. Сейчас я бы хотел более подробно разобрать технологию Kafka Connect на примере io.debezium.connector.postgresql.PostgresConnector. Как и в прошлый раз, я реализовал небольшой демо проект, код которого доступен на GitHub. В проекте кода совсем немного, однако чтобы понять все настройки, примененные в коннекторе, придется достаточно подробно пройтись по теоретической части. Итак, приступим.

Читать далее

+4

alexeyinkin 4 дек 2023 в 11:02

Как я стал Google Developer Expert по Flutter

Простой

5 мин

8K

Flutter * Dart * Apache *

Ретроспектива

У Google есть программа для экспертов в их технологиях. Чтобы попасть в неё, нужно выступать, писать, обучать, менторить или делать open-source в технологиях Google. Программа называется “Google Developer Experts”, и это самое привилегированное сообщество разработчиков, о котором я знаю.

Читать далее

+4

plotn1 30 ноя 2023 в 15:26

Нетипичные сценарии использования BI-системы (Apache Superset)

Средний

12 мин

18K

Блог компании РостелекомВизуализация данных * Apache *

Туториал

Всем привет!

Сегодня поговорим о немного нетипичной для меня теме, а именно — Apache Superset. Обычно я пишу длинные «философские» статьи «на свободную тему», но в этот раз — это будет туториал. Так что кому‑то может показаться банальностью, но, опять таки, вдруг кому поможет. Почему‑то именно по суперсету на Хабре оскорбительно мало материалов. Да, у него в целом неплохая документация, но она все же — документация, поэтому в меру сухая, в ней нет дополнительных объяснений, примеров. Попробуем хоть немного исправить эту ситуацию.

Читать далее

+16

Falcon_eye 29 ноя 2023 в 15:33

Apache Spark… Это база

Средний

6 мин

14K

Data Mining * Apache * Big Data * Data Engineering *

Обзор

✏️ Технотекст 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее

0

Georgiy_Ubilava 24 ноя 2023 в 16:09

Анализируем 15 млн чеков за 3 секунды: как мы прошли путь от калькулятора акций до CDP-платформы

12 мин

6K

Блог компании Crystal Service IntegrationВизуализация данных * Apache * Анализ и проектирование систем *

Из песочницы

Рассказываем историю о том, как калькулятор скидок в составе кассового ПО стал CDP-платформой с аналитическим модулем, управляемым с минимальным участием разработчиков.

Читать далее

+10

aasmc 23 ноя 2023 в 10:19

Микросервисы на основе событий с Kafka Streams и Spring Boot

Средний

32 мин

21K

Apache * Kotlin * Java *

Туториал

Из песочницы

Всем привет! Это моя первая статья на Habr, так что не судите строго за стиль, а вот по содержанию буду рад любой конструктивной критике.

Статья основана на публикациях Confluent о том, как можно реализовать микросервисную архитектуру на основе событий с помощью Kafka Streams и KSQL.

Читать далее

+7

kracko23 11 ноя 2023 в 13:30

Поднимаем BI Apache Superset в 2023 году — гайд с последними обновлениями

Простой

4 мин

19K

PostgreSQL * IT-инфраструктура * Apache * Визуализация данных * DIY или Сделай сам

Из песочницы

Поднимаем BI Apache Superset в 2023 году - полный гайд с последними обновлениями и полезными настройками самого BI после установки.

Читать далее

+5

n27051538 10 ноя 2023 в 10:21

Безопасный Zookeeper: SASL with Digest-MD5

Средний

20 мин

5.2K

Блог компании BercutВысоконагруженные системы * IT-инфраструктура * Apache *

Туториал

Привет! Столкнулся с тем, что быстро не нашел простой инструкции, как с использованием SSL и SASL настроить безопасный кластер из нескольких Linux узлов Zookeeper, и решил это исправить.

В этой статье поговорим о том, как:

• Настроить Zookeeper в кластере из трех узлов без шифрования (Plain);

• Добавить шифрование во внутрикластерное взаимодействие (Quorum TLS);

• Создать сертификаты для подключения к узлам Zookeeper клиентов (Server TLS);

• Создать сертификаты для подключения клиентов к узлам (Client TLS);

• Добавить авторизацию в шифрованный кластер (SASL with MD5);

• Показать на примере, как работают ACL, посмотреть, чем отличается суперпользователь super от всех остальных (как работает ACL в действии).

Читать далее

+9

Liloon21 9 ноя 2023 в 09:17

Apache Kafka и Spring Boot: лёгкая интеграция

Простой

10 мин

50K

Блог компании СлёрмApache *

Туториал

Перевод

Kafka — это универсальный и мощный инструмент для построения конвейеров данных в реальном времени и событийно-ориентированных приложений. Перевели туториал, где рассматривается интеграция Kafka с экосистемой Spring Boot.

Читать далее

+1

neoflex 7 ноя 2023 в 12:50

Опыт внедрения UI CMAK для управления кластерами Kafka

3 мин

3.1K

Блог компании NeoflexOpen source * Apache *

Apache Kafka – это платформа для обработки потоков данных в реальном времени, которая позволяет эффективно передавать и обрабатывать огромные объемы данных. Не погруженным в технологию пользователям сложно настраивать и осуществлять мониторинг Kafka без специализированных инструментов с графическим интерфейсом.

В этой статье мы поделимся опытом внедрения такого инструмента и расскажем про CMAK.

Читать далее

+2

vladislav_shevchenko 7 ноя 2023 в 10:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Средний

14 мин

22K

Блог компании Альфа-БанкApache * Big Data * DevOps * Data Engineering *

Туториал

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

Читать далее

+19

SiplatovKirill 22 окт 2023 в 10:30

Airflow в Kubernetes. Часть 1

Средний

10 мин

13K

Data Engineering * Kubernetes * DevOps * Apache * Python *

Из песочницы

Приветствую!

На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача может показаться нетривиальной. Конечно, можно выполнить несколько команд из официального гайда, но если нужно будет что-то поправить, то без понимания, что происходит внутри, обойтись будет сложно.

Эта статья призвана облегчить данную задачу. Она поможет тем, кто уже работал с Airflow, но еще не касался технологии Kubernetes.

Читать далее

+7

ITSumma 16 окт 2023 в 11:27

Потоковая обработка данных: анализ альтернативных решений

8 мин

4.7K

Блог компании ITSummaБазы данных * Apache * Big Data * Data Engineering *

Обзор

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

Читать далее

+21

dinky 15 окт 2023 в 07:18

intermediate сертификат в apache

Простой

2 мин

1.8K

Туториал

Задача — настроить безпопасное соединение (ssl, которое сейчас tls) к вашему хосту, на котором работает apache2. Самоподписанные сертификаты нам не подходят, так как требуется чтобы с нашим сайтом работали интернет магазины. Они самоподписанным сертификатам не доверяют.

Читать далее

+1

R0bur 11 окт 2023 в 07:22

Перенаправление запросов к веб-серверу Apache на новый домен с помощью .htaccess

Простой

8 мин

5.7K

Apache * Серверное администрирование * Доменные имена *

Из песочницы

Иногда возникает необходимость в переносе сайта, обслуживаемого веб-сервером Apache, на новый домен. Снизить издержки такого переноса помогает настройка перенаправления HTTP-запросов к старому домену на новый.

Решение, описанное в этой статье:
• перенаправляет HTTP-запросы с домена old.com и всех его поддоменов на домен new.com и соответствующие его поддомены;
• исключает префикс www. путём перенаправления HTTP-запросов с доменов www.*.new.com на *.new.com;
• может использоваться для преобразования HTTP-запросов в HTTPS-запросы.

Читать далее

+4

1 2 ...

8

9 10 ...