Все потоки

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

@Rusfatal 14 сен в 06:12

Superset deep-linking: как Rison и Jinja превращают сводный дашборд в инструмент фокус-анализа

Средний

15 мин

6.2K

Визуализация данных * Apache * HTML * SQL *

Из песочницы

За один клик из сводного дашборда — на «дочерний» с уже выставленными фильтрами. Разберём, как в Apache Superset прокидывать выбранные значения через URL-параметр native_filters в формате Rison и собирать ссылку Jinja-макросами.

Читать далее

+2

@feeelin 12 сен в 07:22

Баги носят данные. Проверка Apache NiFi

Средний

11 мин

5.9K

Блог компании PVS-StudioJava * Open source * Apache * Программирование *

Сбор, обработка и перемещение данных — ключевые процессы в IT. Но что, если они нарушатся из-за коварных багов в коде? Рассказываем об ошибках, найденных статическим анализатором в проекте Apache NiFi.

Читать далее

+10

@Pavel_EKB 5 сен в 20:56

Практика Kafka: проектирование топиков и обмен сообщениями

Средний

29 мин

9K

Python * Apache * Микросервисы * Big Data *

Туториал

Ранее мы с вами развернули кластер Kafka. Что дальше?

В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.

Подробно разберем структуру сообщений Kafka,

Углубимся в основы проектирования: от топиков до настройки клиентов,

На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.

Читать далее

+8

@badcasedaily1 4 сен в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

5.2K

Блог компании OTUSApache * Программирование * Big Data * Data Engineering *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

+6

@leks15_05 4 сен в 06:24

Kafka Reasign Partitions или как управлять топиками в kafka

Средний

6 мин

5.1K

Apache * Accessibility * DevOps *

Из песочницы

Привет, Хабр!

Меня зовут Дмитрий, вот уже два с половиной года я работаю DevOps инженером в крупной фин.тех компании. Специализируюсь, в основном, на брокерах сообщений. Большая часть сервисов у нас написана на java, нам нужна высокая отказоустойчивость, максимальная гарантия доставки и, поэтому, основной брокер — kafka. Собственно, о ней и хочу сегодня поговорить.

В статье расскажу о том, как я реализовал CLI для управления партициями в kafka, их переезд, балансировка.

Читать далее

+2

@StanislavRG 28 авг в 10:16

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Простой

13 мин

5.7K

Блог компании ArenadataData Engineering * Искусственный интеллектBig Data * Apache *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

Читать далее

+8

@Pavel_EKB 25 авг в 09:38

Запускаем Kafka в режиме KRaft на Windows через WSL

Простой

16 мин

5.3K

Хранение данных * Учебный процесс в ITApache * Высоконагруженные системы *

Туториал

Пошаговое руководство по установке и настройке кластера Apache Kafka с тремя брокерами в режиме KRaft (без ZooKeeper) на Windows — без виртуальных машин и Confluent Cloud.

Чтобы сделать кластер удобнее в использовании и приблизить его функциональность к облачным решениям, мы добавим веб-интерфейс на основе Kafka UI.

В результате получится гибкая система, которую можно масштабировать и настраивать под свои задачи.

Для кого эта статья?

Для тех, кто только начинает работать с Kafka и хочет разобраться в её устройстве на практике.

Для тех, кто работает на Windows, но не хочет ставить виртуальную машину.

Для тех, кто хочет понять внутреннее устройство Kafka, а не просто запустить «чёрный ящик».

Читать далее

+1

@GraDus59 25 авг в 06:00

Как интегрировать Kafka Apache с CRM Битрикс24

Средний

5 мин

5.9K

Блог компании Битрикс241С-Битрикс * Apache * PHP * Анализ и проектирование систем *

Кейс

Всем привет! Меня зовут Перебиковский Ярослав и это моя первая статья для Хабр.

Я ведущий разработчик компании «Эм Си Арт» — интегратора Битрикс24. Мы давние партнеры Битрикс24 и у нас в арсенале есть множество кастомных и, что важнее, интересных решений. Одним из них хотелось бы поделиться — расскажу о нем в разрезе пользователя, разработчика, архитектуры и опишу использованные подходы.

У одного из наших клиентов возникла нетривиальная задача — интегрировать CRM Битрикс24 с сайтом, написанным на Go. В качестве брокера сообщений клиент использовал Kafka - как самый устойчивый к нагрузкам и подходящий по ряду других параметров. Но оказалось, что готовых решений для интеграции с этим стеком технологий не было ни у нас, ни на рынке вообще. Поэтому решили написать собственный модуль с нуля.

Читать далее

+12

@select_zvezdo4ka_from 22 авг в 13:59

Apache Superset — почему все топы рынка выбрали именно его?

Простой

6 мин

14K

Apache * Визуализация данных * Big Data * DIY или Сделай сам

Попытка по-иному ответить на вопрос "какую BI-систему выбрать"? Вместо сравнения систем сделаем проще - оценим рынок и расскажем о возможностях той системы, которую предпочли топы

Читать далее

0

@Kartafan 20 авг в 08:00

Разграничение доступа к данным дашборда в Superset с помощью фильтрации на основе логина (снова Jinja)

Простой

2 мин

4.3K

Визуализация данных * SQL * Apache *

Туториал

Сегодня мы рассмотрим достаточное простое решение, как ограничить доступ к любому вашему дашборду на Суперсете, зная лишь емейл или логин пользователя, без использования стандартных не самых удобных прав пользователя «зашитых» в Superset.

Читать далее

+4

@badcasedaily1 6 авг в 14:24

Fast Lane / Slow Lane: разделение трафика через две очереди Kafka

Простой

7 мин

5.1K

Блог компании OTUSApache * Программирование *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим Fast Lane / Slow Lane для Kafka: как одним росчерком кода защитить SLA‑критичный поток от толстых сообщений, не перекраивая пол‑стека и не устраивая зоопарк из очередей.

Читать далее

+2

@select_zvezdo4ka_from 5 авг в 18:00

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

6 мин

7.2K

Apache * Серверное администрирование * Базы данных * Big Data * Data Engineering *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+8

@kracko23 31 июл в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

6.4K

Визуализация данных * Apache * Data Engineering * Big Data * Data Mining *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

+4

@badcasedaily1 29 июл в 16:55

Тестируем Kafka с Testcontainers

Простой

6 мин

8.7K

Блог компании OTUSJava * Тестирование IT-систем * Apache *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как протестировать Kafka с помощью Testcontainers.

Testcontainers — это библиотека, которая из JUnit-теста запускает Docker-контейнеры как обычные Java-объекты. Вы пишете пару строк — а на фоне поднимается полноценная инфраструктура: база, брокер, Redis, что угодно. После теста контейнер гарантированно останавливается, поэтому окружение всегда чистое, а CI не засоряется процессами.

Kafka в Testcontainers запускается теми же двумя строками. Получаем реальный брокер, который ничем не отличается от продакшен-копии, но живёт ровно столько, сколько идёт тест.

Читать далее

+8

@select_zvezdo4ka_from 29 июл в 16:15

Column Level Security (CLS) в Apache Superset. Jinja + Handlebars

Средний

4 мин

9.5K

Apache * Визуализация данных * DIY или Сделай сам

Из песочницы

🔒 Column Level Security (CLS) в Apache Superset: защита данных на уровне столбцов

Узнайте, как гибко ограничивать доступ к конфиденциальным данным с помощью Jinja и Handlebars. Практические примеры и готовые решения для ваших дашбордов.

Читать далее

+3

@ngis 29 июл в 07:51

CyberCalc@CyberOffice.pro

Простой

3 мин

1.7K

Open source * Apache * Софт

Зачем офисному пакету, где вычисления по формуле присутствуют и в электронной таблице, и в текстовом процессоре, дополнение-калькулятор?

Риторический вопрос.

Хобби оправдывает любые действия вопреки здравому смыслу.

Далее обзор офисного приложения, работающего в среде Apache OpenOffice 4 и производных сборках, далее AOO.

+4

@German_D 27 июл в 09:39

Apache Kafka: что нужно знать тестировщику

Средний

12 мин

9.3K

Тестирование веб-сервисов * Тестирование IT-систем * Тестирование мобильных приложений * Apache *

Обзор

Если ты уже начал осваивать тестирование, но Кафка для тебя — по-прежнему только чешский писатель, у нас плохие новости….

Но есть и хорошие! Сегодня мы поговорим про брокер сообщений Apache Kafka: из чего он состоит, как работает, зачем нужен и где применяется. А главное — разберем на конкретных примерах, как его можно протестировать.

Читать далее

+12

@MaxRokatansky 23 июл в 13:36

Apache Kafka в гарантиях или как надежно доставить сообщение

8 мин

4.6K

Блог компании OTUSApache * Распределённые системы * Высоконагруженные системы * Микросервисы *

Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы событий ежедневно. Но что происходит, если сообщение потерялось, пришло дважды или нарушилась логика бизнес‑процесса? Гарантии доставки в Kafka — это страховка от хаоса в условиях высокой нагрузки и сбоев.

В этой статье мы разберем три вида гарантий доставки сообщений на примерах.

Читать далее

+8

@pihel 1 июл в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

2.7K

Блог компании КОРУС КонсалтингData Engineering * Big Data * Apache * SQL *

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

+4

@amaryamidze 23 июн в 18:45

Как мы построили сервис KPI для сотрудников

Простой

6 мин

3.4K

Визуализация данных * Управление разработкой * ИнфографикаApache * .NET *

Из песочницы

Привет! Меня зовут Арсен, я разработчик в DDPlanet и сегодня хочу поделиться нашим опытом разработки системы KPI для оценки производительности сотрудников в нашей компании. Как мы пришли к необходимости такой системы, как реализовывали первую и последующие версии и почему выбрали те или иные инструменты при разработке.

Читать далее

+12

2

3 4 ...