Все потоки

Apache *

Свободный веб-сервер

12,82

Рейтинг

СтатьиПостыНовостиАвторыКомпании

rusia2054 26 мар 2025 в 04:16

Подводный камень в docker env и java

Простой

3 мин

7.4K

Java * Apache * Системы сборки *

Из песочницы

Столкнулся с небольшим и интересным моментом: внедрение переменных окружения (а ля environment variables) в стандартный микросервис написанный на Java (классика жанра – Spring Boot).

Читать далее (Тема не сложная)

+1

OyminiRole1776 25 мар 2025 в 07:23

работа с Kafka в Go: практическое применение

Средний

9 мин

33K

Apache * Проектирование API * Go * IT-стандарты * Алгоритмы *

Туториал

Recovery Mode

Автор статьи Якушков Федор.

Apache Kafka — это мощная распределённая платформа для обработки потоков данных, которая завоевала популярность благодаря своей способности эффективно управлять большими объёмами информации в реальном времени. В этой статье мы подробно разберём, как использовать Kafka в языке программирования Go с помощью библиотеки kafka-go. Мы рассмотрим все ключевые аспекты: от event-driven архитектуры до топиков и партиций, от создания продюсеров и консьюмеров до управления оффсетами и обработки ошибок. Разберем гарантии доставки, а также обсудим, где и как применять Kafka в проектах.

Читать далее

+2

Usetech 20 мар 2025 в 13:26

Хроники архитектурного дизайна. Часть 2: использование шаблонов гарантированной доставки

Средний

7 мин

4.4K

Блог компании ЮзтехApache * Анализ и проектирование систем *

Туториал

Меня зовут Роман Ремизов. Я — системный аналитик ГК Юзтех. В рамках цикла статей «Хроники архитектурного дизайна» я делюсь своей экспертизой о разных автоматизированных банковских системах (АБС) и рассказываю, что нужно знать перед тем, как приступить к архитектурному дизайну.

Данная статья, как и первая из этого цикла, написана с допустимым уровнем конкретики. И ещё, стоит помнить, что все банки разные и на других проектах могут преобладать иные архитектурные решения.

В этой статье мы обсудим такую интересную тему, как использование шаблонов гарантированной доставки.

Читать далее

+1

daim_dani 17 мар 2025 в 14:01

Как читать сообщения, если никто из брокеров не предоставил удобный интерфейс

Простой

16 мин

9.8K

Блог компании Axenix (ex-Accenture)Тестирование IT-систем * IT-инфраструктура * Apache * Java *

Обзор

✏️ Технотекст 8

Пишите вы себе EDA на основе Apache Kafka, и ваши сервисы тщательно логируют все свои действия, процесс отлажен и работает годами. Вдруг один из сервисов отчитался в логах, что отправил событие в брокер, но другой по какой-то его не прочитал. Как понять, кто виноват?

Как правило, брокер сообщений между сервисами – черная коробка, которая работает, что называется «As Is». Разработчики подключают зависимости, вешают аннотации консюмеров и продюсеров, оно заводится и все рады. Но что они там подключили и как это работает никто не видит.

Так давайте же посмотрим, как мы можем открыть этот чёрный ящик на примере наиболее популярных брокеров сообщений.

Читать далее

+14

PyLounge 13 мар 2025 в 08:43

Offset Explorer: разбираемся в базе

Средний

15 мин

27K

Блог компании ИдаПроджектApache * Программирование * Тестирование веб-сервисов *

Туториал

Всем привет! Меня зовут Макс. Я Lead Backend в компании ИдаПроджект и автор YouTube-канала PyLounge.

Любой крупный проект так или иначе используют брокеры сообщений — и чаще всего это Apache Kafka. Так что уметь взаимодействовать с Kafka (хотя бы на базовом уровне) будет полезно как разработчику, так и тестировщику или аналитику.

Я в своей работе практически ежедневно взаимодействую с кафкой, поэтому решил поделиться опытом. В команде мы используем графический интерфейс Offset Explorer (далее OE), о котором сегодня и пойдет речь.

Погнали!

Читать далее

+13

DmitriiReshetnikov 9 мар 2025 в 18:57

Работа с библиотеками, которые не установлены в Airflow

3 мин

4.6K

Data Engineering * Big Data * Python * Apache *

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit

Читать далее

+3

Andrey_Biryukov 28 фев 2025 в 13:41

Знакомимся с PySpark

6 мин

34K

Блог компании OTUSApache *

Фреймворк с открытым исходным кодом Apache Spark, входящий в экосистему проектов Apache Hadoop, используется для реализации распределённой обработки данных. Для работы в Spark могут использоваться различные языки программирования: Scala, Java, Python и R.

В рамках данной статьи мы не будем рассуждать о преимуществах использования того или иного языка, на эту тему достаточно публикаций. Мы рассмотрим PySpark — фреймворк с открытым исходным кодом, построенный на базе Apache Spark и предназначенный для упрощения и ускорения решения масштабных задач обработки данных и аналитики. PySpark предлагает высокоуровневый API для языка программирования Python, что позволяет легко интегрироваться с существующими экосистемами Python.

Но для начала рассмотрим архитектуру Apache Spark.

Читать далее

+1

Alex-1988 25 фев 2025 в 08:14

Миграция данных Cassandra с помощью Cassandra Data Migrator

Средний

5 мин

1.8K

Блог компании ЦифраApache * Базы данных *

Туториал

Я хочу рассказать, как мы решаем задачи миграции данных кластеров Cassandra с помощью инструмента Cassandra Data Migrator (CDM). Выбор этой темы продиктован продуктовыми задачами по корректной миграции данных между кластерами Cassandra сложной топологии. Статей с обзором этого решения в русскоязычном сегменте я не нашел и решил описать сам, так как оно будет полезно всем администраторам СУБД Cassandra.

Читать далее

0

techno_mot 15 фев 2025 в 12:11

Данные на льду: как Apache Iceberg перевернул мир аналитических систем

11 мин

38K

Блог компании SelectelApache * IT-компанииОблачные вычисления * Хранение данных *

Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.

Читать дальше →

+55

vitallyastiy 12 фев 2025 в 12:15

Миграция BI-аналитики: как перейти на Apache Superset и не потерять пользователей

Простой

7 мин

9.3K

Блог компании m2_techApache * Визуализация данных * Хранение данных *

Кейс

Привет! Меня зовут Виталий Флёрин, я руководитель отдела BI-аналитики в M2. За год мы успешно перевели всю отчетность компании с Cognos Analytics на Apache Superset и увеличили MAU до 200 (каждый третий сотрудник компании). В статье хочу поделиться опытом внедрения новой системы отчетности и ее эффективного использования.

Материал будет полезен BI-специалистам, кто работает над развитием внутренних систем и хочет переехать на Superset.

История началась с того, что после ухода Cognos Analytics с российского рынка, нам нужно было выбрать новую BI для компании и мигрировать всю отчетность. Текущая система была развернута on-premises и продолжала работать в штатном режиме. Да, без обновлений и поддержки, но благодаря этому мы смогли тщательно подойти к выбору нового решения и обеспечить плавный переход пользователей на новую платформу.

Читать далее

+22

InfernumPegasus 6 фев 2025 в 12:16

modern-cpp-kafka для C++. Решаем проблемы владения и сериализации

Средний

11 мин

4.5K

C++ * Apache * C *

Из песочницы

Идея написания этого небольшого руководства появилась у меня, когда я начал изучать одну из самых популярных библиотек для работы с Apache Kafka - modern-cpp-kafka.

Однако, как водится, ничто не идеально, и порой приходиться делать самые простые вещи за библиотеку.

Читать далее

+2

gitinsky 12 янв 2025 в 12:15

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

Средний

4 мин

4.4K

Apache * DevOps * Big Data * Data Engineering * Хранение данных *

Из песочницы

В статье расскажу, как настроить мониторинг Apache NiFi и алерты при переполнении очереди по достижении 8000 FlowFiles.

Зачем вам читать эту статью? Переполнение очереди FlowFiles в Apache NiFi может привести к замедлению или остановке обработки данных, мониторинг позволит своевременно среагировать на проблемы с производительностью и выявить узкие места.

Читать далее

+1

Hramoff 4 янв 2025 в 22:20

Как мы деплоим Apache Airflow для промышленного использования в Kubernetes

Средний

16 мин

12K

Kubernetes * Apache * Python *

Туториал

Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией.

Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от обеспечения безопасности конфиденциальных данных до эффективного управления ресурсами. Одной из ключевых проблем, с которыми сталкиваются команды, является безопасное управление секретами, оптимизация конфигураций и наблюдаемость.

В этой статье мы рассмотрим, как использовать инструменты, такие как Sops и YAML-якоря, для упрощения управления конфиденциальными данными и улучшения читаемости конфигураций. А так же как обеспечить полную наблюдаемость инсталляции Apache Airflow.

Читать далее

+11

kmorozov 1 янв 2025 в 08:20

Делаем свой docker-образ Apache Kafka 4.0

Средний

7 мин

12K

Высоконагруженные системы * Java * Kubernetes * Apache *

Туториал

В 2024 году мы не дождались выхода в свет Apache Kafka 4.0, в которой окончательно исчезнет поддержка ZooKeeper, оставив нам для создания кластеров только KRaft. Кто-то давно уже перешёл на эту прекрасную технологию, другие же размышляют, как им жить дальше — оставаться на линейке 3.х или в омут с головой.

Новогодние каникулы самое подходящее время для того, чтобы пощупать новую версию. Хотя код невозбранно доступен в Github проекта Apache Kafka, docker-образов текущих сборок 4.0 мне найти не удалось. Также поддержку 4.0 ещё не добавили в довольно популярный, и с недавних пор мною любимый, k8s-оператор strimzi. Ну что же, придётся устроить себе праздник самому!

Читать далее

+1

temirlan100 30 дек 2024 в 07:10

Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression

Простой

8 мин

5.2K

Apache * Java *

Туториал

Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ноль, один, два, три] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events.

Читать далее

+1

Korneva_AV 26 дек 2024 в 13:14

Создание динамических таблиц в SuperSet

5 мин

22K

Блог компании Magnit TechХранение данных * Визуализация данных * Big Data * Apache *

Туториал

Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet. /*После QlikSense и Tableau казалось, что это так себе затея*/

Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.

Читать далее

+17

DVZakusilo 19 дек 2024 в 12:28

[Записки разработчика] airflow->symfony-console->bitrix agents

Средний

7 мин

2.8K

PHP * Symfony * 1С-Битрикс * Apache *

Туториал

Всем привет, случалось такое, что вам надо поставить кучу агентов битрикса на крон, а потом сидеть и разбираться - сколько они отрабатывают, отрабатывают ли вообще, когда падают или зависают?

Ну конечно случалось. Так вот, чтобы получить визуальное представление о том, что там происходит, было принято решение, вынести агенты даже не на крон, а на apache airflow. Поведаю вам, как это было реализовано.

Агенты

По факту, агенты - это выполнение php команд по-расписанию. Но мы пойдем дальше и выделим их в отдельную сущность, в классы с расширением Agents.php

Создадим интерфейс для агентов

Читать далее

+2

APetraki 12 дек 2024 в 10:45

Karavan историй: от решения задачи к готовому продукту

Сложный

10 мин

2.9K

Блог компании К2ТехApache * Open source *

Кейс

Привет, Хабр! Меня зовут Саша Петраки, два года я занимаюсь разработкой интеграционных решений в К2Тех. И сегодня хочу рассказать, почему мы с командой снова задались вопросом: “Как связать воедино все информационные системы компании?” Казалось бы, ответ очевиден — настроить интеграции между ними. Но если раньше для решения этой задачи можно было использовать готовые импортные продукты, то сейчас необходим другой подход, причем сделать это, как правило, требуется максимально быстро.

Нам поступил запрос от коллег из департамента внутренней автоматизации (ДВА). Мы искали пути решения… а в итоге докрутили ПО до такой степени, что получился готовый продукт с возможностями low-code для типовых задач и pro-code для кастомных кейсов. О его создании, реализованных кейсах и результатах разработки пойдет речь в нашей статье.

Читать далее

+18

sann05 11 дек 2024 в 10:10

Airflow 3 is Coming

Средний

5 мин

11K

Data Engineering * Big Data * Apache * Python * Open source *

Обзор

Recovery Mode

Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно стать стандартом.

Если вы еще не знаете, что такое Airflow, то, к сожалению, это статья будет сложной. Давайте вместе освежим память.

Airflow - это платформа с открытым исходным кодом для написания и управления рабочих процессов. Airflow была основана в 2014 году в AirBnB. С тех пор платформа прошла путь до версии 1.0 в 2015 году, стала Apache Top Level Project в 2019 и плотно обосновалась как Enterprise Production-Ready в 2020 с версией 2.0.

Читать далее

+6

parus-lead 9 дек 2024 в 15:06

Симулятор брокера Apache Kafka: Kafka Visualization от компании SoftwareMill

Простой

7 мин

17K

Обзор

На сегодняшний день потоковая обработка и анализ данных стала неотъемлемой частью многих бизнес-процессов и технологических решений. Для эффективного управления большими объемами данных необходимы инструменты, которые не только обеспечивают надежность передачи сообщений, но и позволяют визуализировать их потоки, обеспечивая прозрачность и удобство мониторинга.

В моей предыдущей статье про симулятор одного из самых популярных брокеров сообщений — RabbitMQ (https://habr.com/ru/articles/859 982/) много читателей оставляли в личку разные вопросы, но одним из самых популярных и часто задаваемых стал: «Очень классный и удобный симулятор! А есть ли такой же для Kafka?» И тут я понял: действительно, несправедливо рассказывать и, так сказать, нести в массы симулятор одного типа брокеров, но совершенно забыть про другой. Ну что ж, Кафка, значит, Кафка!

На просторах всемирной паутины, к сожалению, стопроцентного аналога‑конструктора, такого как RabbitMQ Simulator, к сожалению, я не нашел. Но мы же знаем, что этой статьи не было бы, если бы я не нашел что‑то интересное.

И сегодня это будет Kafka Visualization от компании SoftwareMill.

Читать далее

+21

6

7 8 ...