Обновить
64K+

Apache *

Свободный веб-сервер

6,05
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6.5K

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

Kafka Reasign Partitions или как управлять топиками в kafka

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели9K

Привет, Хабр!

Меня зовут Дмитрий, вот уже два с половиной года я работаю DevOps инженером в крупной фин.тех компании. Специализируюсь, в основном, на брокерах сообщений. Большая часть сервисов у нас написана на java, нам нужна высокая отказоустойчивость, максимальная гарантия доставки и, поэтому, основной брокер — kafka. Собственно, о ней и хочу сегодня поговорить.

В статье расскажу о том, как я реализовал CLI для управления партициями в kafka, их переезд, балансировка.

Читать далее

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.3K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

Читать далее

Запускаем Kafka в режиме KRaft на Windows через WSL

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели8.9K

Пошаговое руководство по установке и настройке кластера Apache Kafka с тремя брокерами в режиме KRaft (без ZooKeeper) на Windows — без виртуальных машин и Confluent Cloud.

Чтобы сделать кластер удобнее в использовании и приблизить его функциональность к облачным решениям, мы добавим веб-интерфейс на основе Kafka UI.

В результате получится гибкая система, которую можно масштабировать и настраивать под свои задачи.

Для кого эта статья?

Для тех, кто только начинает работать с Kafka и хочет разобраться в её устройстве на практике.

Для тех, кто работает на Windows, но не хочет ставить виртуальную машину.

Для тех, кто хочет понять внутреннее устройство Kafka, а не просто запустить «чёрный ящик».

Читать далее

Как интегрировать Kafka Apache с CRM Битрикс24

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.8K

Всем привет! Меня зовут Перебиковский Ярослав и это моя первая статья для Хабр.

Я ведущий разработчик компании «Эм Си Арт» — интегратора Битрикс24. Мы давние партнеры Битрикс24 и у нас в арсенале есть множество кастомных и, что важнее, интересных решений. Одним из них хотелось бы поделиться — расскажу о нем в разрезе пользователя, разработчика, архитектуры и опишу использованные подходы.

У одного из наших клиентов возникла нетривиальная задача — интегрировать CRM Битрикс24 с сайтом, написанным на Go. В качестве брокера сообщений клиент использовал Kafka - как самый устойчивый к нагрузкам и подходящий по ряду других параметров. Но оказалось, что готовых решений для интеграции с этим стеком технологий не было ни у нас, ни на рынке вообще. Поэтому решили написать собственный модуль с нуля.

Читать далее

Apache Superset — почему все топы рынка выбрали именно его?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели34K

Попытка по-иному ответить на вопрос «какую BI‑систему выбрать»? Вместо сравнения систем сделаем проще — оценим рынок и расскажем о возможностях той системы, которую предпочли топы.

Читать далее

Разграничение доступа к данным дашборда в Superset с помощью фильтрации на основе логина (снова Jinja)

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели6K

Сегодня мы рассмотрим достаточное простое решение, как ограничить доступ к любому вашему дашборду на Суперсете, зная лишь емейл или логин пользователя, без использования стандартных не самых удобных прав пользователя «зашитых» в Superset.

Читать далее

Fast Lane / Slow Lane: разделение трафика через две очереди Kafka

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.1K

Привет, Хабр!

Сегодня мы рассмотрим Fast Lane / Slow Lane для Kafka: как одним росчерком кода защитить SLA‑критичный поток от толстых сообщений, не перекраивая пол‑стека и не устраивая зоопарк из очередей.

Читать далее

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

Время на прочтение6 мин
Охват и читатели12K

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

Лайфхаки BI SuperSet (часть 1)

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели11K

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

Тестируем Kafka с Testcontainers

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели14K

Привет, Хабр!

Сегодня мы рассмотрим, как протестировать Kafka с помощью Testcontainers.

Testcontainers — это библиотека, которая из JUnit-теста запускает Docker-контейнеры как обычные Java-объекты. Вы пишете пару строк — а на фоне поднимается полноценная инфраструктура: база, брокер, Redis, что угодно. После теста контейнер гарантированно останавливается, поэтому окружение всегда чистое, а CI не засоряется процессами.

Kafka в Testcontainers запускается теми же двумя строками. Получаем реальный брокер, который ничем не отличается от продакшен-копии, но живёт ровно столько, сколько идёт тест.

Читать далее

Column Level Security (CLS) в Apache Superset. Jinja + Handlebars

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели13K

🔒 Column Level Security (CLS) в Apache Superset: защита данных на уровне столбцов

Узнайте, как гибко ограничивать доступ к конфиденциальным данным с помощью Jinja и Handlebars. Практические примеры и готовые решения для ваших дашбордов.

Читать далее

CyberCalc@CyberOffice.pro

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.1K

Зачем офисному пакету, где вычисления по формуле присутствуют и в электронной таблице, и в текстовом процессоре, дополнение-калькулятор?

Риторический вопрос.

Хобби оправдывает любые действия вопреки здравому смыслу.

Далее обзор офисного приложения, работающего в среде Apache OpenOffice 4 и производных сборках, далее AOO.

Далее

Ближайшие события

Apache Kafka: что нужно знать тестировщику

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели29K

Если ты уже начал осваивать тестирование, но Кафка для тебя — по-прежнему только чешский писатель, у нас плохие новости….

Но есть и хорошие! Сегодня мы поговорим про брокер сообщений Apache Kafka: из чего он состоит, как работает, зачем нужен и где применяется. А главное — разберем на конкретных примерах, как его можно протестировать.

Читать далее

Apache Kafka в гарантиях или как надежно доставить сообщение

Время на прочтение8 мин
Охват и читатели15K

Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы событий ежедневно. Но что происходит, если сообщение потерялось, пришло дважды или нарушилась логика бизнес‑процесса? Гарантии доставки в Kafka — это страховка от хаоса в условиях высокой нагрузки и сбоев.

В этой статье мы разберем три вида гарантий доставки сообщений на примерах.

Читать далее

Что нового в Apache Spark 4.0

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.8K

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

Как мы построили сервис KPI для сотрудников

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.5K

Привет! Меня зовут Арсен, я разработчик в DDPlanet и сегодня хочу поделиться нашим опытом разработки системы KPI для оценки производительности сотрудников в нашей компании. Как мы пришли к необходимости такой системы, как реализовывали первую и последующие версии и почему выбрали те или иные инструменты при разработке.

Читать далее

Пробный поход в веб-kubernetes-1С, вопреки привычкам

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели7.4K

Поскольку компания со страшной силы использует 1С, то сложились некие неизменные традиции, одна из которых – это веб-публикации 1С. Плодятся они примерно так: 1 ИБ (информационная база) + например несколько ИБ с тем же смыслом = 1 отдельный web(iis)-сервер, а таких конструкций полно. Получается, что помимо лицензий, мы тратим кучу ресурсов просто на веб-доступ. Поступила идея, что пора экономить (а заодно отказоустойчивость). Пока на этапе экспериментов/тестов.

Читать далее

Интеграция с ClickHouse: NiFi vs Airflow

Время на прочтение5 мин
Охват и читатели3.5K

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

Читать далее

Часть 2: Как я реализовал взаимодействие микросервисов — Kafka и gRpc

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели27K

Привет! Меня зовут Бромбин Андрей, и сегодня я продолжаю цикл статей о создании микросервисного приложения с нуля. В этом выпуске мы сосредоточимся на взаимодействии между микросервисами, используя два подхода: асинхронный с помощью Kafka и синхронный через gRPC.

Независимо от вашего опыта, этот туториал предоставит вам готовые решения и ценные знания для создания Java Spring Microservices. Начинающие разработчики получат чёткое пошаговое руководство, а опытные специалисты — новые идеи, практические примеры и возможности для обмена опытом с коллегами. Разрабатывайте микросервисы эффективно и достигайте отличных результатов!
Читать далее