Все потоки

Apache *

Свободный веб-сервер

11,42

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Pavel_EKB 5 сен 2025 в 20:56

Практика Kafka: проектирование топиков и обмен сообщениями

Средний

29 мин

30K

Python * Apache * Микросервисы * Big Data *

Туториал

Ранее мы с вами развернули кластер Kafka. Что дальше?

В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.

Подробно разберем структуру сообщений Kafka,

Углубимся в основы проектирования: от топиков до настройки клиентов,

На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.

Читать далее

+8

badcasedaily1 4 сен 2025 в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

6.5K

Блог компании OTUSApache * Программирование * Big Data * Data Engineering *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

+6

leks15_05 4 сен 2025 в 06:24

Kafka Reasign Partitions или как управлять топиками в kafka

Средний

6 мин

9.3K

Apache * Accessibility * DevOps *

Из песочницы

Привет, Хабр!

Меня зовут Дмитрий, вот уже два с половиной года я работаю DevOps инженером в крупной фин.тех компании. Специализируюсь, в основном, на брокерах сообщений. Большая часть сервисов у нас написана на java, нам нужна высокая отказоустойчивость, максимальная гарантия доставки и, поэтому, основной брокер — kafka. Собственно, о ней и хочу сегодня поговорить.

В статье расскажу о том, как я реализовал CLI для управления партициями в kafka, их переезд, балансировка.

Читать далее

+2

StanislavRG 28 авг 2025 в 10:16

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Простой

13 мин

8.6K

Блог компании ArenadataData Engineering * Искусственный интеллектBig Data * Apache *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

Читать далее

+8

Pavel_EKB 25 авг 2025 в 09:38

Запускаем Kafka в режиме KRaft на Windows через WSL

Простой

16 мин

9K

Хранение данных * Учебный процесс в ITApache * Высоконагруженные системы *

Туториал

Пошаговое руководство по установке и настройке кластера Apache Kafka с тремя брокерами в режиме KRaft (без ZooKeeper) на Windows — без виртуальных машин и Confluent Cloud.

Чтобы сделать кластер удобнее в использовании и приблизить его функциональность к облачным решениям, мы добавим веб-интерфейс на основе Kafka UI.

В результате получится гибкая система, которую можно масштабировать и настраивать под свои задачи.

Для кого эта статья?

Для тех, кто только начинает работать с Kafka и хочет разобраться в её устройстве на практике.

Для тех, кто работает на Windows, но не хочет ставить виртуальную машину.

Для тех, кто хочет понять внутреннее устройство Kafka, а не просто запустить «чёрный ящик».

Читать далее

+1

GraDus59 25 авг 2025 в 06:00

Как интегрировать Kafka Apache с CRM Битрикс24

Средний

5 мин

6.9K

Блог компании Битрикс24Анализ и проектирование систем * PHP * Apache * 1С-Битрикс *

Кейс

Всем привет! Меня зовут Перебиковский Ярослав и это моя первая статья для Хабр.

Я ведущий разработчик компании «Эм Си Арт» — интегратора Битрикс24. Мы давние партнеры Битрикс24 и у нас в арсенале есть множество кастомных и, что важнее, интересных решений. Одним из них хотелось бы поделиться — расскажу о нем в разрезе пользователя, разработчика, архитектуры и опишу использованные подходы.

У одного из наших клиентов возникла нетривиальная задача — интегрировать CRM Битрикс24 с сайтом, написанным на Go. В качестве брокера сообщений клиент использовал Kafka - как самый устойчивый к нагрузкам и подходящий по ряду других параметров. Но оказалось, что готовых решений для интеграции с этим стеком технологий не было ни у нас, ни на рынке вообще. Поэтому решили написать собственный модуль с нуля.

Читать далее

+12

select_zvezdo4ka_from 22 авг 2025 в 13:59

Apache Superset — почему все топы рынка выбрали именно его?

Простой

6 мин

35K

Apache * Визуализация данных * Big Data * DIY или Сделай сам

Попытка по-иному ответить на вопрос «какую BI‑систему выбрать»? Вместо сравнения систем сделаем проще — оценим рынок и расскажем о возможностях той системы, которую предпочли топы.

Читать далее

0

Kartafan 20 авг 2025 в 08:00

Разграничение доступа к данным дашборда в Superset с помощью фильтрации на основе логина (снова Jinja)

Простой

2 мин

6.1K

Визуализация данных * SQL * Apache *

Туториал

Сегодня мы рассмотрим достаточное простое решение, как ограничить доступ к любому вашему дашборду на Суперсете, зная лишь емейл или логин пользователя, без использования стандартных не самых удобных прав пользователя «зашитых» в Superset.

Читать далее

+4

badcasedaily1 6 авг 2025 в 14:24

Fast Lane / Slow Lane: разделение трафика через две очереди Kafka

Простой

7 мин

6.1K

Блог компании OTUSApache * Программирование *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим Fast Lane / Slow Lane для Kafka: как одним росчерком кода защитить SLA‑критичный поток от толстых сообщений, не перекраивая пол‑стека и не устраивая зоопарк из очередей.

Читать далее

+2

select_zvezdo4ka_from 5 авг 2025 в 18:00

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

6 мин

13K

Data Engineering * Big Data * Базы данных * Серверное администрирование * Apache *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+8

kracko23 31 июл 2025 в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

11K

Визуализация данных * Apache * Data Engineering * Big Data * Data Mining *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

+4

badcasedaily1 29 июл 2025 в 16:55

Тестируем Kafka с Testcontainers

Простой

6 мин

14K

Блог компании OTUSApache * Тестирование IT-систем * Java *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как протестировать Kafka с помощью Testcontainers.

Testcontainers — это библиотека, которая из JUnit-теста запускает Docker-контейнеры как обычные Java-объекты. Вы пишете пару строк — а на фоне поднимается полноценная инфраструктура: база, брокер, Redis, что угодно. После теста контейнер гарантированно останавливается, поэтому окружение всегда чистое, а CI не засоряется процессами.

Kafka в Testcontainers запускается теми же двумя строками. Получаем реальный брокер, который ничем не отличается от продакшен-копии, но живёт ровно столько, сколько идёт тест.

Читать далее

+8

select_zvezdo4ka_from 29 июл 2025 в 16:15

Column Level Security (CLS) в Apache Superset. Jinja + Handlebars

Средний

4 мин

13K

Карьера в IT-индустрииDIY или Сделай самВизуализация данных * Apache *

Из песочницы

🔒 Column Level Security (CLS) в Apache Superset: защита данных на уровне столбцов

Узнайте, как гибко ограничивать доступ к конфиденциальным данным с помощью Jinja и Handlebars. Практические примеры и готовые решения для ваших дашбордов.

Читать далее

+3

ngis 29 июл 2025 в 07:51

CyberCalc@CyberOffice.pro

Простой

3 мин

2.1K

Open source * Apache * Софт

Зачем офисному пакету, где вычисления по формуле присутствуют и в электронной таблице, и в текстовом процессоре, дополнение-калькулятор?

Риторический вопрос.

Хобби оправдывает любые действия вопреки здравому смыслу.

Далее обзор офисного приложения, работающего в среде Apache OpenOffice 4 и производных сборках, далее AOO.

+4

German_D 27 июл 2025 в 09:39

Apache Kafka: что нужно знать тестировщику

Средний

12 мин

31K

Тестирование веб-сервисов * Тестирование IT-систем * Тестирование мобильных приложений * Apache *

Обзор

Если ты уже начал осваивать тестирование, но Кафка для тебя — по-прежнему только чешский писатель, у нас плохие новости….

Но есть и хорошие! Сегодня мы поговорим про брокер сообщений Apache Kafka: из чего он состоит, как работает, зачем нужен и где применяется. А главное — разберем на конкретных примерах, как его можно протестировать.

Читать далее

+12

MaxRokatansky 23 июл 2025 в 13:36

Apache Kafka в гарантиях или как надежно доставить сообщение

8 мин

17K

Блог компании OTUSApache * Распределённые системы * Высоконагруженные системы * Микросервисы *

Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы событий ежедневно. Но что происходит, если сообщение потерялось, пришло дважды или нарушилась логика бизнес‑процесса? Гарантии доставки в Kafka — это страховка от хаоса в условиях высокой нагрузки и сбоев.

В этой статье мы разберем три вида гарантий доставки сообщений на примерах.

Читать далее

+8

pihel 1 июл 2025 в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

8K

Блог компании КОРУС КонсалтингSQL * Apache * Big Data * Data Engineering *

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

+4

amaryamidze 23 июн 2025 в 18:45

Как мы построили сервис KPI для сотрудников

Простой

6 мин

8.6K

.NET * Apache * ИнфографикаУправление разработкой * Визуализация данных *

Из песочницы

Привет! Меня зовут Арсен, я разработчик в DDPlanet и сегодня хочу поделиться нашим опытом разработки системы KPI для оценки производительности сотрудников в нашей компании. Как мы пришли к необходимости такой системы, как реализовывали первую и последующие версии и почему выбрали те или иные инструменты при разработке.

Читать далее

+12

Den4irou4 15 июн 2025 в 23:10

Пробный поход в веб-kubernetes-1С, вопреки привычкам

Средний

5 мин

7.6K

1С * DevOps * Системное администрирование * Apache *

Кейс

Поскольку компания со страшной силы использует 1С, то сложились некие неизменные традиции, одна из которых – это веб-публикации 1С. Плодятся они примерно так: 1 ИБ (информационная база) + например несколько ИБ с тем же смыслом = 1 отдельный web(iis)-сервер, а таких конструкций полно. Получается, что помимо лицензий, мы тратим кучу ресурсов просто на веб-доступ. Поступила идея, что пора экономить (а заодно отказоустойчивость). Пока на этапе экспериментов/тестов.

Читать далее

+2

skirdinns 11 июн 2025 в 10:16

Интеграция с ClickHouse: NiFi vs Airflow

5 мин

3.6K

Блог компании ИТ-интегратор Белый кодIT-компанииApache *

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

Читать далее

+2

4

5 6 ...