Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

@blacksan 11 апр в 14:41

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Средний

5 мин

1.9K

Java * Высоконагруженные системы * Apache * IT-инфраструктура * Хранение данных *

Туториал

Добрый день! Меня зовут Богдан, я тимлид в одном из отечественных финтехов. Сегодня я хочу поделиться нашей историей: как нам удалось, ненарочно, зашедулить падение всех нод одного из наших кластеров Kafka.

В один из холодных февральских дней пришло сообщение от мониторинга с виртуальных машин кластера Kafka: «Свободное дисковое пространство достигло значения < 15%». Было решено исследовать, нужно ли добавлять дискового пространства или же можно потюнить настройки ретеншена данных.

Тут стоит немного вспомнить теорию. Как известно, в Kafka сообщения распределяются по партициям, а каждая партиция на брокере представлена набором сегментов. Число сегментов у партиций может быть разным — оно варьируется в зависимости от интенсивности записи и настроек размера сегмента.

Сегмент (если упростить) — это лог-файл, в который просто пишутся данные в конец. По достижении временного предела либо его размера он ротируется: создается новый сегмент, и запись идет уже в него.

Держа вышесказанное в голове, мы отправились смотреть настройки хранения сегментов в нашем кластере Kafka..

@mina987 31 мар в 08:15

Передача пароля по интернету: что безопаснее — хэширование или TLS?

Простой

4 мин

2.7K

Apache * Информационная безопасность * Криптография *

Из песочницы

В этой статье мы рассмотрим, какие методы передачи пароля через интернет наиболее безопасны. Хэширование паролей или протокол TLS — что выбрать для защиты данных? Разберемся, как работают эти технологии и какие риски скрываются за каждой из них.

Читать полностью

@rusia2054 26 мар в 04:16

Подводный камень в docker env и java

Простой

3 мин

2.9K

Java * Apache * Системы сборки *

Из песочницы

Столкнулся с небольшим и интересным моментом: внедрение переменных окружения (а ля environment variables) в стандартный микросервис написанный на Java (классика жанра – Spring Boot).

Читать далее (Тема не сложная)

@OyminiRole1776 25 мар в 07:23

работа с Kafka в Go: практическое применение

Средний

9 мин

8.3K

Apache * Проектирование API * Go * IT-стандарты * Алгоритмы *

Туториал

Recovery Mode

Автор статьи Якушков Федор.

Apache Kafka — это мощная распределённая платформа для обработки потоков данных, которая завоевала популярность благодаря своей способности эффективно управлять большими объёмами информации в реальном времени. В этой статье мы подробно разберём, как использовать Kafka в языке программирования Go с помощью библиотеки kafka-go. Мы рассмотрим все ключевые аспекты: от event-driven архитектуры до топиков и партиций, от создания продюсеров и консьюмеров до управления оффсетами и обработки ошибок. Разберем гарантии доставки, а также обсудим, где и как применять Kafka в проектах.

@Usetech 20 мар в 13:26

Хроники архитектурного дизайна. Часть 2: использование шаблонов гарантированной доставки

Средний

7 мин

1.7K

Блог компании UsetechАнализ и проектирование систем * Apache *

Туториал

Меня зовут Роман Ремизов. Я — системный аналитик ГК Юзтех. В рамках цикла статей «Хроники архитектурного дизайна» я делюсь своей экспертизой о разных автоматизированных банковских системах (АБС) и рассказываю, что нужно знать перед тем, как приступить к архитектурному дизайну.

Данная статья, как и первая из этого цикла, написана с допустимым уровнем конкретики. И ещё, стоит помнить, что все банки разные и на других проектах могут преобладать иные архитектурные решения.

В этой статье мы обсудим такую интересную тему, как использование шаблонов гарантированной доставки.

@daim_dani 17 мар в 14:01

Как читать сообщения, если никто из брокеров не предоставил удобный интерфейс

Простой

16 мин

3.7K

Блог компании Axenix (ex-Accenture)IT-инфраструктура * Apache * Java * Тестирование IT-систем *

Обзор

Пишите вы себе EDA на основе Apache Kafka, и ваши сервисы тщательно логируют все свои действия, процесс отлажен и работает годами. Вдруг один из сервисов отчитался в логах, что отправил событие в брокер, но другой по какой-то его не прочитал. Как понять, кто виноват?

Как правило, брокер сообщений между сервисами – черная коробка, которая работает, что называется «As Is». Разработчики подключают зависимости, вешают аннотации консюмеров и продюсеров, оно заводится и все рады. Но что они там подключили и как это работает никто не видит.

Так давайте же посмотрим, как мы можем открыть этот чёрный ящик на примере наиболее популярных брокеров сообщений.

+14

@PyLounge 13 мар в 08:43

Offset Explorer: разбираемся в базе

Средний

15 мин

7.5K

Блог компании ИдаПроджектApache * Программирование * Тестирование веб-сервисов *

Туториал

Всем привет! Меня зовут Макс. Я Lead Backend в компании ИдаПроджект и автор YouTube-канала PyLounge.

Любой крупный проект так или иначе используют брокеры сообщений — и чаще всего это Apache Kafka. Так что уметь взаимодействовать с Kafka (хотя бы на базовом уровне) будет полезно как разработчику, так и тестировщику или аналитику.

Я в своей работе практически ежедневно взаимодействую с кафкой, поэтому решил поделиться опытом. В команде мы используем графический интерфейс Offset Explorer (далее OE), о котором сегодня и пойдет речь.

Погнали!

+13

@DmitriiReshetnikov 9 мар в 18:57

Работа с библиотеками, которые не установлены в Airflow

3 мин

1.8K

Apache * Python * Big Data * Data Engineering *

Данные библиотеки можно использовать при работе со SparkOperator:

1. Создание виртуального окружения с необходимыми библиотеками

2. Создание задачи в даге и установка окружения в SparkSubmit

@Andrey_Biryukov 28 фев в 13:41

Знакомимся с PySpark

6 мин

9.2K

Блог компании OTUSApache *

Фреймворк с открытым исходным кодом Apache Spark, входящий в экосистему проектов Apache Hadoop, используется для реализации распределённой обработки данных. Для работы в Spark могут использоваться различные языки программирования: Scala, Java, Python и R.

В рамках данной статьи мы не будем рассуждать о преимуществах использования того или иного языка, на эту тему достаточно публикаций. Мы рассмотрим PySpark — фреймворк с открытым исходным кодом, построенный на базе Apache Spark и предназначенный для упрощения и ускорения решения масштабных задач обработки данных и аналитики. PySpark предлагает высокоуровневый API для языка программирования Python, что позволяет легко интегрироваться с существующими экосистемами Python.

Но для начала рассмотрим архитектуру Apache Spark.

@Alex-1988 25 фев в 08:14

Миграция данных Cassandra с помощью Cassandra Data Migrator

Средний

5 мин

742

Блог компании ЦифраБазы данных * Apache *

Туториал

Я хочу рассказать, как мы решаем задачи миграции данных кластеров Cassandra с помощью инструмента Cassandra Data Migrator (CDM). Выбор этой темы продиктован продуктовыми задачами по корректной миграции данных между кластерами Cassandra сложной топологии. Статей с обзором этого решения в русскоязычном сегменте я не нашел и решил описать сам, так как оно будет полезно всем администраторам СУБД Cassandra.

@techno_mot 15 фев в 12:11

Данные на льду: как Apache Iceberg перевернул мир аналитических систем

11 мин

12K

Блог компании SelectelApache * IT-компанииОблачные вычисления * Хранение данных *

Вы когда-нибудь ловили себя на мысли, что ваш Data Lake больше похож на черный ящик, чем на систему хранения? Дубли, потерянные версии, медленные запросы — вместо четкой структуры хаос, который только растет. Добро пожаловать в реальность работы с Parquet, ORC и классическими подходами к хранению данных. Они неплохи, но не умеют версионировать, оптимизировать и управлять транзакциями так, как это действительно нужно.

И вот появляется Apache Iceberg — файловый формат, который уже используют в Netflix, Apple, LinkedIn и Stripe для хранения петабайтов данных с минимальными издержками на поддержку. Но что делает его таким особенным? Почему его называют «Data Lake без боли»? И самое главное — как заставить Apache Iceberg работать на вас? Давайте разбираться.

Читать дальше →

+55

@vitallyastiy 12 фев в 12:15

Миграция BI-аналитики: как перейти на Apache Superset и не потерять пользователей

Простой

7 мин

3.3K

Блог компании m2_techApache * Визуализация данных * Хранение данных *

Кейс

Привет! Меня зовут Виталий Флёрин, я руководитель отдела BI-аналитики в M2. За год мы успешно перевели всю отчетность компании с Cognos Analytics на Apache Superset и увеличили MAU до 200 (каждый третий сотрудник компании). В статье хочу поделиться опытом внедрения новой системы отчетности и ее эффективного использования.

Материал будет полезен BI-специалистам, кто работает над развитием внутренних систем и хочет переехать на Superset.

История началась с того, что после ухода Cognos Analytics с российского рынка, нам нужно было выбрать новую BI для компании и мигрировать всю отчетность. Текущая система была развернута on-premises и продолжала работать в штатном режиме. Да, без обновлений и поддержки, но благодаря этому мы смогли тщательно подойти к выбору нового решения и обеспечить плавный переход пользователей на новую платформу.

+22

@InfernumPegasus 6 фев в 12:16

modern-cpp-kafka для C++. Решаем проблемы владения и сериализации

Средний

11 мин

1.5K

C++ * Apache * C *

Из песочницы

Идея написания этого небольшого руководства появилась у меня, когда я начал изучать одну из самых популярных библиотек для работы с Apache Kafka - modern-cpp-kafka.

Однако, как водится, ничто не идеально, и порой приходиться делать самые простые вещи за библиотеку.

@gitinsky 12 янв в 12:15

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

Средний

4 мин

1.6K

Хранение данных * Data Engineering * Big Data * DevOps * Apache *

Из песочницы

В статье расскажу, как настроить мониторинг Apache NiFi и алерты при переполнении очереди по достижении 8000 FlowFiles.

Зачем вам читать эту статью? Переполнение очереди FlowFiles в Apache NiFi может привести к замедлению или остановке обработки данных, мониторинг позволит своевременно среагировать на проблемы с производительностью и выявить узкие места.

@Hramoff 4 янв в 22:20

Как мы деплоим Apache Airflow для промышленного использования в Kubernetes

Средний

16 мин

4.2K

Kubernetes * Apache * Python *

Туториал

Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией.

Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от обеспечения безопасности конфиденциальных данных до эффективного управления ресурсами. Одной из ключевых проблем, с которыми сталкиваются команды, является безопасное управление секретами, оптимизация конфигураций и наблюдаемость.

В этой статье мы рассмотрим, как использовать инструменты, такие как Sops и YAML-якоря, для упрощения управления конфиденциальными данными и улучшения читаемости конфигураций. А так же как обеспечить полную наблюдаемость инсталляции Apache Airflow.

+11

@kmorozov 1 янв в 08:20

Делаем свой docker-образ Apache Kafka 4.0

Средний

7 мин

4.7K

Apache * Kubernetes * Java * Высоконагруженные системы *

Туториал

В 2024 году мы не дождались выхода в свет Apache Kafka 4.0, в которой окончательно исчезнет поддержка ZooKeeper, оставив нам для создания кластеров только KRaft. Кто-то давно уже перешёл на эту прекрасную технологию, другие же размышляют, как им жить дальше — оставаться на линейке 3.х или в омут с головой.

Новогодние каникулы самое подходящее время для того, чтобы пощупать новую версию. Хотя код невозбранно доступен в Github проекта Apache Kafka, docker-образов текущих сборок 4.0 мне найти не удалось. Также поддержку 4.0 ещё не добавили в довольно популярный, и с недавних пор мною любимый, k8s-оператор strimzi. Ну что же, придётся устроить себе праздник самому!

@temirlan100 30 дек 2024 в 07:10

Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression

Простой

8 мин

1.7K

Apache * Java *

Туториал

Это моя финальная часть(ну пока что ;)) серии статей про Kafka Streams, прошлые статьи тут [ноль, один, два, три] Теперь давайте разработаем приложение, которое считывает: cобытия о пульсе из топика pulse-events.

@Korneva_AV 26 дек 2024 в 13:14

Создание динамических таблиц в SuperSet

5 мин

7.7K

Блог компании Magnit TechВизуализация данных * Big Data * Apache * Хранение данных *

Туториал

Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet. /*После QlikSense и Tableau казалось, что это так себе затея*/

Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.

+17

@DVZakusilo 19 дек 2024 в 12:28

[Записки разработчика] airflow->symfony-console->bitrix agents

Средний

7 мин

955

PHP * Symfony * 1С-Битрикс * Apache *

Туториал

Всем привет, случалось такое, что вам надо поставить кучу агентов битрикса на крон, а потом сидеть и разбираться - сколько они отрабатывают, отрабатывают ли вообще, когда падают или зависают?

Ну конечно случалось. Так вот, чтобы получить визуальное представление о том, что там происходит, было принято решение, вынести агенты даже не на крон, а на apache airflow. Поведаю вам, как это было реализовано.

Агенты

По факту, агенты - это выполнение php команд по-расписанию. Но мы пойдем дальше и выделим их в отдельную сущность, в классы с расширением Agents.php

Создадим интерфейс для агентов

@APetraki 12 дек 2024 в 10:45

Karavan историй: от решения задачи к готовому продукту

Сложный

10 мин

Блог компании К2ТехApache * Open source *

Кейс

Привет, Хабр! Меня зовут Саша Петраки, два года я занимаюсь разработкой интеграционных решений в К2Тех. И сегодня хочу рассказать, почему мы с командой снова задались вопросом: “Как связать воедино все информационные системы компании?” Казалось бы, ответ очевиден — настроить интеграции между ними. Но если раньше для решения этой задачи можно было использовать готовые импортные продукты, то сейчас необходим другой подход, причем сделать это, как правило, требуется максимально быстро.

Нам поступил запрос от коллег из департамента внутренней автоматизации (ДВА). Мы искали пути решения… а в итоге докрутили ПО до такой степени, что получился готовый продукт с возможностями low-code для типовых задач и pro-code для кастомных кейсов. О его создании, реализованных кейсах и результатах разработки пойдет речь в нашей статье.

+18

1 2 3

5 6 ...

24 25

Apache *

ОС против Kafka: битва за map-области: история одного неочевидного лимита

Передача пароля по интернету: что безопаснее — хэширование или TLS?

Подводный камень в docker env и java

работа с Kafka в Go: практическое применение

Хроники архитектурного дизайна. Часть 2: использование шаблонов гарантированной доставки

Как читать сообщения, если никто из брокеров не предоставил удобный интерфейс

Offset Explorer: разбираемся в базе

Работа с библиотеками, которые не установлены в Airflow

Знакомимся с PySpark

Миграция данных Cassandra с помощью Cassandra Data Migrator

Данные на льду: как Apache Iceberg перевернул мир аналитических систем

Миграция BI-аналитики: как перейти на Apache Superset и не потерять пользователей

modern-cpp-kafka для C++. Решаем проблемы владения и сериализации

Ближайшие события

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

Как мы деплоим Apache Airflow для промышленного использования в Kubernetes

Делаем свой docker-образ Apache Kafka 4.0

Kafka Streams ч5: настройка окон, работа с задержанными событиями и suppression

Создание динамических таблиц в SuperSet

[Записки разработчика] airflow->symfony-console->bitrix agents

Karavan историй: от решения задачи к готовому продукту

Вклад авторов