Все потоки

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

mdaff 27 сен 2023 в 09:12

Зеркалирование топиков Kafka по-бруклински

Сложный

22 мин

8.2K

Блог компании Ozon TechВысоконагруженные системы * Системное администрирование * IT-инфраструктура * Apache *

Туториал

Буквально на секунду представьте, что у вас есть парочка здоровенных кластеров Apache Kafka, каждый из которых держит по нескольку миллионов rps. И тут вас попросили зеркалировать топик из одного кластера в другой. Максимально близко к реалтайму, да ещё и с некоторыми специфическими условиями. Если стало страшно, интересно или страшно интересно, то это статья для вас.

Под катом я расскажу, что такое зеркалирование и зачем оно нужно. Как нам перестало хватать Mirror Maker’а. Поговорим о возможных решениях и выборе между ними. И дам подробную инструкцию, как вам развернуть такое решение у себя.

Читать далее

+29

maks-java 21 сен 2023 в 12:52

Построение гибкой и распределенной архитектуры с использованием Kafka и Kafka Connect: Часть 2 — Получатель и Helm Chart

Средний

18 мин

6.4K

DevOps * Apache * IT-инфраструктура * Java * Программирование *

Данная статья является продолжением статьи - Ивентная модель данных с использованием Kafka и Kafka Connect: Построение гибкой и распределенной архитектуры.

Добро пожаловать во вторую часть статьи о построении гибкой и распределенной архитектуры с использованием Apache Kafka и Kafka Connect! В первой части мы ознакомились с ивентной моделью данных, разработали сервис отправителя и настроили интеграцию с Kafka, чтобы асинхронно отправлять сообщения. Теперь настало время рассмотреть вторую часть этого увлекательного проекта.

Читать далее

+1

randall 20 сен 2023 в 08:34

Как узнать больше об Apache Kafka: от базовых настроек до архитектуры сервисов

Простой

3 мин

8.3K

Блог компании MWSБлог компании МТССистемное администрирование * Apache * Профессиональная литература *

Обзор

Apache Kafka — распределенный программный брокер сообщений с открытым исходным кодом. Его ключевая задача заключается в сборе данных у приложений и их хранении в распределенном хранилище. Сегодня обсудим литературу, которая поможет разобраться в его работе и понять, какую роль он играет в проектах, связанных с большими данными.

Представляем вашему вниманию избранную подборку новых высокооцененных книг для начинающих и опытных специалистов.

Читать далее

+20

atshaman 14 сен 2023 в 04:47

Использование kafka-rest для построения интеграционных API

Простой

12 мин

12K

Проектирование API * Apache *

Кейс

Есть простая, можно сказать, типовая – задача, передать данные из системы «А» в систему «Б». А – классическая legacy-трехзвенка из 00х с IIS-MSSQL, «Б» - новая-нулевая-микросервисная с внутренней шиной на apache kafka и собственным ETL на Apache NiFi, развернута в k8s. Направление передачи – из «А» в «Б», по расписанию , в общем ничего сложного – «Работенка на 5 минут»: идем в NiFi делаем QueryDatabaseTable->PublishKafkaRecord и продолжаем спать – но тут начинаются «Нюансы»(ТМ) в виде ИБ, которая говорит, что прямая интеграция корпоративных систем – харам, архитектуры которой (дикие люди!) не нравится хождение в чужую БД (Подержи моё пиво! Я сто раз так делал!) и прочих скучных регламентов, требующих «наличия аутентификации», «направления установления соединения совпадающего с направлением передачи» и тому подобных глупостей.

И вот тут на сцену выходит корпоративная интеграционная шина – (low|no)-code решение, которое умеет в расписания, подключение к ИС по различным протоколам (в том числе и *dbc), передачу данных с помощью REST\SOAP, аутентификацию, обработку ошибок, алертинг и кучу других вещей. Оооок, шина по расписанию будет ходить в БэДэ (Или не БэДэ – там уже видно будет), забирать данные и передавать… А куда, собственно, передавать?

Первый вариант – «в kafka’у!» хорош примерно всем – кроме реализации. Собственно, бинарный протокол kafka’и шина не умеет, ИБ не умеет в инспекцию этого самого протокола, ingress-nginx контроллер не умеет (Нормально – не умеет, ssl-passthrough в данном случае не очень-то «нормально») в публикацию kafka’и, а согласовывать с ИБ публикацию брокеров через LB – удачи, пацаны. Плюс нормальная аутентификация\авторизация на kafka’е – тот еще геморрой между нами говоря. Отметаем.

Читать далее

+3

shpringer 13 сен 2023 в 12:35

Пять подходов к созданию ad-hoc-датафреймов в PySpark

7 мин

2.4K

Блог компании VKApache * Data Engineering * Облачные вычисления *

Перевод

Дата-инженеры, работающие с PySpark, часто сталкиваются с задачей создать логику обработки данных. Обычно речь идет о тестировании набора классов и функций. Современные платформы данных на основе Spark подчас содержат сотни, а то и тысячи разных модульных тестов, которые помогают командам по работе с данными сохранять целостную базу кода. В ежедневные рабочие задачи дата-инженера входит создание небольших датафреймов, которые используются в модульных тестах как входные и выходные значения.

Читать дальше →

+10

shpringer 12 сен 2023 в 08:06

Стайлгайд PySpark: как сделать код элегантным

4 мин

3.8K

Блог компании VKApache * DevOps * Python * Облачные вычисления *

Перевод

Команда VK Cloud перевела статью о правилах оформления кода в PySpark. Они не обязательны для исполнения, но помогут сделать ваш код более читабельным и удобным для последующих проверок и изменений.

Читать дальше →

+13

dp1976 5 сен 2023 в 06:25

Apache Ignite: как эта технология изменила подход к большим данным в Comindware

8 мин

8.3K

Блог компании ComindwareОблачные вычисления * Apache * Распределённые системы *

Вряд ли можно поспорить сегодня с аргументом, что скорость и эффективность обработки информации стали ключевыми факторами успеха любого цифрового проекта. При этом традиционные подходы к хранению и обработке данных уже не могут удовлетворить растущие потребности бизнеса и пользователей. Именно в этот момент на сцену выходит Apache Ignite — высокопроизводительная, распределенная платформа для вычислений в памяти. Рассказывает Александр Столяров, ведущий программист компании Comindware.

Читать далее

+1

sshawnta 31 авг 2023 в 09:54

Как полностью устранить дублирующие записи в ClickHouse

Простой

4 мин

10K

Блог компании MWSБлог компании МТСApache * Data Engineering * SQL *

Обзор

Всем привет!

Меня зовут Валерий Локтаев, я backend-разработчик сервиса биллинга в CloudMTS.

В этой статье я расскажу, как насовсем убрать дублирующие записи в ClickHouse (CH). Логичный вопрос — откуда вообще взялась проблема? Можно взять движок таблицы ReplacingMergeTree, указать ORDER BY в качестве ключа дедупликации, и CH чудесным образом удалит все дубли в базе.

ReplacingMergeTree, безусловно, отличное решение. Но представьте, что ваша задача — сделать так, чтобы в таблице дубли никогда не появлялись, даже на несколько секунд.

Далее я расскажу, в каких случаях это необходимо и какое решение удалось подобрать.

Читать дальше →

+19

AlexChroot 25 авг 2023 в 14:15

1.0.BackupStorage на NixOS

Средний

15 мин

3.6K

Настройка Linux * Системное администрирование * PostgreSQL * Apache * Хранение данных *

Туториал

Всем привет, меня зовут Алексей, являюсь IT‑инженером в одной из крупных компаний. Иногда включаю внутреннего авантюриста и ищу что‑то редкое и очень интересное.И в данной статье хочу поделиться стеком, который имеет право на жизнь.

Да и надеюсь, что информация для кого‑то будет интересна, как и для меня.

Если бы я раньше нашел такой туториал — быстрее бы разобрался со всеми нюансами.

Читать далее

+4

alitenicole 24 авг 2023 в 14:00

Мы заглянули под капот Kafka и решили проблему потерянных сообщений

Простой

8 мин

13K

Блог компании СлёрмDevOps * Apache * IT-инфраструктура *

Перевод

Kafka — это масштабируемая, отказоустойчивая платформа для обмена сообщениями в реальном времени. Она позволяет обрабатывать миллионы сообщений в секунду. Однако некоторые ситуации приводят к потере событий. Например, Kafka требует хорошего стабильного сетевого соединения между клиентами и брокерами; если сеть нестабильна, это может легко привести к потере сообщений.

Команда разработчиков Trendyol Tech видоизменила архитектуру и решила эту проблему с помощью outbox-шаблона, но столкнулась с другой проблемой — дублированием событий. Приводим перевод статьи о том, как разработчики залезли под капот Kafka и нашли решение этих двух проблем.

Читать далее

+3

serejkee 21 авг 2023 в 09:00

Apache Flink ML – прогнозирование в реальном времени

Средний

7 мин

2.6K

Блог компании NeoflexПрограммирование * Java * Apache *

Туториал

Всем привет!

В этой статье рассмотрим применение библиотеки Apache Flink ML для построения конвейеров машинного обучения. Затем реализуем простой проект по прогнозированию поведения системы, а также ответим на вопросы: какие задачи Machine Learning подходят для Flink и какие особенности Flink делают его подходящим для использования в задачах Machine Learning.

Читать далее

+2

neshkeev 15 авг 2023 в 03:06

Обработка больших и очень больших графов: Pregel

Средний

24 мин

2.5K

Распределённые системы * Apache * Алгоритмы *

Статья является продолжением предыдущей статьи в рамках цикла статей, посвященных обработке больших и очень больших графов. В статье реализованы распределенные версии четырех классических алгоритмов: "Связные компоненты", "Кратчайшее расстояние", "Топологическая сортировка" и PageRank на Apache Spark DataFrame API. Алгоритмы составлены в соответствии с идеями популярного фреймворка распределенной обработки графов Pregel.

Читать далее

+3

MaxRokatansky 14 авг 2023 в 19:56

Доступ к потоковой передаче данных в режиме реального времени

10 мин

4.7K

Блог компании OTUSApache *

Перевод

Как Redpanda и Materialize — продукты, не основанные на JVM — делают потоковую обработку доступной для широких масс за счет снижения операционных издержек? Обсудим в статье.

Читать далее

+4

alitenicole 14 авг 2023 в 12:16

Apache Spark 3.4 для Databricks Runtime 13.0

10 мин

1.7K

Блог компании СлёрмIT-инфраструктура * Apache * Big Data * Data Engineering *

Перевод

Databricks — это аналитическая платформа для облачных вычислений, работы с большими данными и машинного обучения. Компания разрабатывает data lake и работает с фреймворком Apache Spark. Приводим перевод статьи Databricks о нововведениях Apache Spark 3.4, который вошел в релиз Databricks Runtime 13.0.

Читать далее

+3

atshaman 7 авг 2023 в 10:23

Что такое «хорошо» и что такое «плохо» в NiFi. Часть 3

Средний

9 мин

5.1K

Блог компании ЦифраSQL * Apache * Промышленное программирование *

Переносимость процессоров и паттерны

Вот и обещанная третья часть саги о том, что в NiFi можно делать и как это делать правильно, без претензий на истину в последней инстанции, конечно. Сегодня расскажу о переносимости процессоров и дам несколько паттернов для самых популярных задач на платформе ZIIoT. Если вдруг вам интересно почитать про оптимизацию схем и производительности в NiFi — велком в первую часть. Если мечтаете узнать больше о мониторинге, то вторая часть — must read. Только потом сюда не забудьте вернуться.

Читать далее

+4

maks-java 31 июл 2023 в 07:09

Ивентная модель данных с использованием Kafka и Kafka Connect: Построение гибкой и распределенной архитектуры

Средний

16 мин

14K

Программирование * Java * IT-инфраструктура * Apache * DevOps *

Туториал

Привет, Хабр! В наше время при постоянном росте объемов данных и необходимостью более быстрой и надежной обработки информации, мы сталкиваемся с требованием к эффективному обмену и синхронизации данных между различными системами. Отслеживание и обработка данных в реальном времени стало жизненно необходимым для современных приложений.

В этой статье мы рассмотрим, как Kafka Connect – мощный инструмент из экосистемы Apache Kafka – приходит на помощь при решении сложной задачи синхронизации данных между базами данных. Мы рассмотрим, как используя Kafka Connect, мы можем эффективно следить за изменениями в одной базе данных, обрабатывать их в нашем Java приложении и мгновенно записывать их в другую базу данных, обеспечивая надежность и безопасность данных.

Построим гибкую и масштабируемую архитектуру, которая позволит нам забыть о проблемах связанных с несогласованными данными и наслаждаться мгновенным доступом к актуальной информации для наших бизнес-процессов.

Читать далее

+2

MaxRokatansky 16 июл 2023 в 06:08

Аутентификация клиента Kafka SSL в мультитенантной архитектуре

6 мин

18K

Блог компании OTUSApache *

Перевод

Apache Kafka является ключевым продуктом не только для преобразования сообщений, но и при обработке данных в реальном времени, а также для многих других случаев использования. Архитектуры, размещенные в облаке, утверждают, что они безопасны с точки зрения коммуникации и обеспечения общей безопасности. Но когда дело доходит до частого взаимодействия клиента/потребителя с сервером/производителем, Kafka обеспечивает встроенную поддержку SSL, а также пользовательскую аутентификацию. В этой статье мы шаг за шагом настроим такой механизм аутентификации.

Читать далее

+3

rvishnevsky 13 июл 2023 в 11:55

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Сложный

36 мин

6.1K

Блог компании РосбанкData Mining * Apache * Big Data * Data Engineering *

Туториал

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать далее

+4

alexandergolovnya 12 июл 2023 в 19:23

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

Средний

23 мин

47K

Data Engineering * Распределённые системы * Apache * Java * Программирование *

Из песочницы

При реализации потоковой обработки и анализа данных может возникнуть необходимость агрегирования записей для объединения нескольких независимых поток данных или обогащения какой-либо модели данных. Для этой цели может использоваться Kafka Streams, которая позволяет выполнять обработку данных в режиме реального времени.

В этой статье мы рассмотрим основные компоненты Kafka Streams и теоретические аспекты их использования. Мы будем использовать последние версии технологий, доступных на сегодня: Kafka 3.4.0 и Java 17 в качестве языка программированию. Для снижения входного порога мы будем использовать только нативные возможности Kafka и Kafka Streams, и не будем рассматривать решения с использованием различных фреймворков вроде Spring.

Читать далее

+13

tendoo 4 июл 2023 в 07:41

Как Flink Table API упрощает разработку

8 мин

1.8K

Блог компании NeoflexApache * Scala * Программирование *

Туториал

Apache Flink является популярным фреймворком для обработки больших данных и аналитики в режиме реального времени. Одним из ключевых компонентов этого фреймворка является Table API, который предоставляет удобный и выразительный способ работы с данными в формате таблиц, аналогичный SQL.

Если вы разработчик, который хочет узнать больше о том, как использовать Apache Flink Table API для обработки потоковых данных, или если вы интересуетесь современными инструментами аналитики данных, эта статья для вас.

Читать далее

+2

1 2 ...

9

10 11 ...