Как стать автором

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

German_D 9 часов назад

Apache Kafka: что нужно знать тестировщику

Средний

12 мин

1.5K

Тестирование веб-сервисов*Тестирование IT-систем*Тестирование мобильных приложений*Apache*

Обзор

Если ты уже начал осваивать тестирование, но Кафка для тебя — по-прежнему только чешский писатель, у нас плохие новости….

Но есть и хорошие! Сегодня мы поговорим про брокер сообщений Apache Kafka: из чего он состоит, как работает, зачем нужен и где применяется. А главное — разберем на конкретных примерах, как его можно протестировать.

Читать далее

0

MaxRokatansky 23 июл в 13:36

Apache Kafka в гарантиях или как надежно доставить сообщение

8 мин

3.5K

Блог компании OTUSApache*Распределённые системы*Высоконагруженные системы*Микросервисы*

Apache Kafka — это основа современных распределенных систем, обрабатывающий триллионы событий ежедневно. Но что происходит, если сообщение потерялось, пришло дважды или нарушилась логика бизнес‑процесса? Гарантии доставки в Kafka — это страховка от хаоса в условиях высокой нагрузки и сбоев.

В этой статье мы разберем три вида гарантий доставки сообщений на примерах.

Читать далее

+7

pihel 1 июл в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

3.3K

Блог компании КОРУС КонсалтингApache*Big Data*Data Engineering*SQL*

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

+4

amaryamidze 23 июн в 18:45

Как мы построили сервис KPI для сотрудников

Простой

6 мин

4.5K

Визуализация данных*Управление разработкой*ИнфографикаApache*.NET*

Из песочницы

Привет! Меня зовут Арсен, я разработчик в DDPlanet и сегодня хочу поделиться нашим опытом разработки системы KPI для оценки производительности сотрудников в нашей компании. Как мы пришли к необходимости такой системы, как реализовывали первую и последующие версии и почему выбрали те или иные инструменты при разработке.

Читать далее

+12

victor_shtal 19 июн в 08:06

Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports

Средний

3 мин

967

Big Data*Data Engineering*Data Mining*DevOps*Apache*

Кейс

Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.

Читать далее

+5

Den4irou4 15 июн в 23:10

Пробный поход в веб-kubernetes-1С, вопреки привычкам

Средний

5 мин

3.4K

1С*DevOps*Системное администрирование*Apache*

Кейс

Поскольку компания со страшной силы использует 1С, то сложились некие неизменные традиции, одна из которых – это веб-публикации 1С. Плодятся они примерно так: 1 ИБ (информационная база) + например несколько ИБ с тем же смыслом = 1 отдельный web(iis)-сервер, а таких конструкций полно. Получается, что помимо лицензий, мы тратим кучу ресурсов просто на веб-доступ. Поступила идея, что пора экономить (а заодно отказоустойчивость). Пока на этапе экспериментов/тестов.

Читать далее

+2

skirdinns 11 июн в 10:16

Интеграция с ClickHouse: NiFi vs Airflow

5 мин

1.8K

Блог компании ИТ-интегратор Белый кодApache*IT-компании

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

Читать далее

+2

br0mberg 10 июн в 13:01

Часть 2: Как я реализовал взаимодействие микросервисов — Kafka и gRpc

Средний

21 мин

12K

Блог компании RUVDS.comApache*Java*Анализ и проектирование систем*Микросервисы*

Туториал

Привет! Меня зовут Бромбин Андрей, и сегодня я продолжаю цикл статей о создании микросервисного приложения с нуля. В этом выпуске мы сосредоточимся на взаимодействии между микросервисами, используя два подхода: асинхронный с помощью Kafka и синхронный через gRPC.

Независимо от вашего опыта, этот туториал предоставит вам готовые решения и ценные знания для создания Java Spring Microservices. Начинающие разработчики получат чёткое пошаговое руководство, а опытные специалисты — новые идеи, практические примеры и возможности для обмена опытом с коллегами. Разрабатывайте микросервисы эффективно и достигайте отличных результатов!

Читать далее

+83

David_David1 4 июн в 09:51

Как подготовиться к интеграции: чек-лист, который поможет ничего не упустить

Средний

19 мин

2K

Блог компании ПСБApache*Базы данных*

FAQ

Привет, Хабр! На связи Давид Саргсян. Я занимаюсь системным анализом цифровых продуктов банка ПСБ.

В этой статье расскажу о том, как не упустить ничего важного на этапах выбора концепции и проектирования вашей будущей интеграции.

Читать далее

+9

skillfactory_school 2 июн в 08:39

Apache Flink для начинающих: архитектура, библиотеки и применение

Простой

12 мин

2.7K

Apache*Big Data*Data Engineering*Машинное обучение*

Обзор

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.

Читать далее

0

skillfactory_school 28 мая в 13:22

Потоковая обработка данных с Kafka Streams: что это и как использовать

Простой

11 мин

2.5K

Обзор

Apache Kafka — это распределенная платформа, которая передает и обрабатывает данные в режиме реального времени. Ее используют для логирования, передачи событий, потоковой аналитики и интеграции микросервисов.

Для работы с данными внутри Kafka есть Kafka Streams — библиотека, которая помогает строить потоковые приложения. С ее помощью можно обрабатывать события в реальном времени, например, выполнять ETL-процессы без использования внешних систем.

В статье рассказываем, как устроен Kafka Streams, и разбираем практические примеры его применения.

Читать далее

+1

Kaboupi 28 мая в 07:09

Долгожданный релиз Airflow 3

Средний

11 мин

7.8K

Блог компании КОРУС КонсалтингData Engineering*Apache*Python*Big Data*

Обзор

Из песочницы

Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»).

В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день.

22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки.

В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

Читать далее

+22

AI-SHA 20 мая в 09:59

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Средний

11 мин

3.5K

Блог компании КриптонитBig Data*Open source*Python*Apache*

Аналитика

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и спрогнозировали дальнейшее развитие на основе выявленных тенденций.

Растущая востребованность Spark объясняется не только открытым исходным кодом и гибкостью, но и лёгкостью интеграции с современными технологиями — от машинного обучения до облачных платформ.

«В России Apache Spark становится не просто популярным фреймворком для обработки данных, а частью экосистемы отечественных решений в сфере Big Data. Особенно это касается объектов критической инфраструктуры, где всегда отдаётся предпочтение только самым надёжным и проверенным решениям», — пояснил Иван Попович, руководитель направления обработки данных компании «Криптонит».

Для критически важных отраслей (госуправление, финансы, энергетика) важна локализация данных и соответствие требованиям регуляторов.

«Открытый исходный код здесь играет ключевую роль, так как обеспечивает прозрачность и возможность тщательной верификации. Также он даёт уникальную возможность адаптировать решение под конкретные требования проекта. Хотя само по себе наличие открытого кода не является гарантией безопасности, Apache Spark за 15 лет своего развития доказал эффективность и надёжность в самых различных областях применения», — добавил эксперт.

В последние годы Spark проникает в новые сферы. Он всё активнее используется в агропромышленном комплексе, энергетике, нефтегазовой и химической отрасли. В основном его применяют для оптимизации производства, прогнозирования аварий и повышения энергоэффективности.

Читать далее

+8

MaxRokatansky 20 мая в 08:39

JSON vs бинарные форматы: почему Kafka выбирает скорость?

7 мин

7.4K

Блог компании OTUSApache*

В современных распределенных системах, где компоненты могут быть реализованы на разных языках программирования, возникает необходимость в эффективной коммуникации между ними. Брокеры сообщений играют ключевую роль в этом процессе, обеспечивая асинхронную передачу данных и снижая зависимость между модулями. Однако для бесперебойного взаимодействия критически важно выбрать наиболее универсальный формат обмена информацией. Ведь важно понять, что и как мы будем передавать, и тут есть несколько вариантов.

Читать далее

+1

badcasedaily1 15 мая в 08:55

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Простой

6 мин

2.6K

Блог компании OTUSData Engineering*DevOps*Big Data*Apache*

Обзор

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.

Читать далее

+4

Akhtem94 10 мая в 11:46

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

Сложный

3 мин

943

Java*Apache*Big Data*Хранение данных*

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

Читать далее

0

Akhtem94 7 мая в 12:53

Join таблиц в реальном времени на Apache Flink

Сложный

5 мин

1.5K

Java*Big Data*Apache*Data Engineering*MySQL*

Из песочницы

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

Читать далее

0

skillfactory_school 30 апр в 08:16

Apache NiFi для новичков: обзор функций, принцип работы, полезные ссылки

Простой

9 мин

1.3K

Обзор

Вместе с экспертом по работе с данными рассказываем об удобном инструменте, который помогает управлять данными и организовывать их взаимодействие между собой.

Читать далее

0

skillfactory_school 30 апр в 07:22

Apache Zookeeper: гид для начинающих

Простой

6 мин

5.9K

Обзор

Разбираемся, что это за инструмент, какие у него есть плюсы, минусы и аналоги.

Apache ZooKeeper — это сервис, который помогает разным частям распределенной системы (серверам, приложениям, процессам) работать согласованно.

Читать далее

+1

brmn 27 апр в 08:54

Kafka без дисков: плюсы и минусы KIP‑1150 (Diskless Topics)

Средний

9 мин

2K

Apache*Data Engineering*Amazon Web Services*

Аналитика

TL;DR: KIP‑1150 (Diskless Topics) предлагает Kafka писать сообщения сразу в облачное хранилище (S3 и аналоги), минуя диски брокеров. Это сильно экономит деньги и упрощает масштабирование в облаке, но увеличивает задержки и делает Kafka зависимой от облачных сервисов. Отлично для дешёвых, «толстых» потоков логов, но плохо подходит для real‑time систем с миллисекундными требованиями.

Читать далее

+9

1

2 3 ...