Все потоки

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

FaryaRos 17 фев в 12:17

От «DWH мертвы» до гибридных схем: эволюция Lakehouse за последние три года

Средний

18 мин

7K

Data Engineering * Анализ и проектирование систем * Хранение данных * Apache *

Аналитика

Перевод

В 2021 году Databricks ввели в моду термин «lakehouse», и индустрия дружно решила, что это и есть будущее. Аналитики писали восторженные статьи о том, что классические DWH мертвы. Вендоры спешно проводили ребрендинг своих продуктов, а на конференциях обещали единую архитектуру, которая решит вообще любые проблемы с данными.

Некоторые обещания Lakehouse сбылись. Другие оказались лишь маркетингом. А еще всплыли проблемы, которых никто не ожидал.

В этой статье разберем честный опыт внедрения Lakehouse к 2025 году: какие обещания оказались маркетингом, почему расходы на вычисления часто растут вместо экономии, и как на самом деле выглядит прагматичная работа с Delta Lake, Iceberg и Hudi в современных проектах. Что выжило в продакшене, что тихо скончалось, а о чем принято помалкивать?

Читать далее

+3

kamikashi 4 фев в 15:10

Apache Iceberg: как выполнить запрос

13 мин

5.6K

Из песочницы

Разбираемся как Apache Iceberg проводит Insert запрос и что происходит под капотом. Поднимем локально через Docker несколько образов и посмотрим на мета данные, которые генерируются.

Читать далее

+2

2MK 3 фев в 09:15

Iceberg 1.8 + AWS Glue + Spark 3.5: как мы почти утонули в delete-файлах и что нас спасло

Средний

5 мин

4.6K

Apache * Хранение данных * Data Engineering *

Из песочницы

Рассказ о нашем опыте использования Iceberg + Spark. О том, что такое delete-файлы, конфликты транзакций и как с ними справляется операция compaction. Какие проблемы у нас возникли и как мы их решали.

Читать далее

0

Mitochondria 31 янв в 13:00

Kafka для начинающих: обработка ошибок и Dead Letter Queues

Средний

7 мин

9.7K

Apache * Микросервисы * Java *

Туториал

Как правильно обрабатывать ошибки в Spring Kafka, чтобы консьюмеры не падали? Что такое Dead Letter Queue / Topic?

Простым языком и с примерами кода о паттерне обработки ошибок.

Читать далее

+6

akomiagin 27 янв в 13:29

Сравнительный обзор механизмов polling в Kafka и Pub/Sub в RabbitMQ: особенности и области применения

Средний

7 мин

7.7K

Big Data * Высоконагруженные системы * Apache *

Обзор

Друзья, привет! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие. В своих проектах и архитектурах мы широко применяем open-source-решения, включая брокеры сообщений, такие как Kafka и RabbitMQ.

Совсем недавно я выступил на конференции HighLoad++ Genesis 2025: рассказал про анатомию каждого из этих брокеров, сравнил их по набору критериев и оценил результаты их нагрузочного тестирования. А теперь решил выпустить этот материал в виде статьи в блоге, чтобы читатели Хабра тоже смогли изучить нюансы и понять, на какие задачи заточен каждый из брокеров. Итак, поехали!

О брокере Apache Kafka я очень подробно рассказал в своей предыдущей статье. Повторяться и снова разбирать его сегодня я не буду — вы можете перейти по ссылке выше и ознакомиться с материалом, а затем вернуться сюда.

Читать далее

+3

Mitochondria 13 янв в 11:49

Kafka для начинающих: работа с Kafka транзакциями на практике — когда они нужны, а когда только вредят?

Средний

9 мин

11K

Apache * Микросервисы * Java *

Туториал

Как работать с Kafka транзакциями из Spring Boot? Когда они нужны, а когда бесполезны или даже вредны?

Простым языком и с примерами кода о Kafka транзакциях.

Читать далее

+3

nickrom 30 дек 2025 в 10:44

Ускоряем загрузку данных в BI в 2 раза: кейс команды VK

Средний

8 мин

2.4K

Блог компании VKАнализ и проектирование систем * Apache * Big Data * Визуализация данных *

Кейс

Apache Superset — востребованное open-source решение для анализа данных, которое можно быстро установить и встроить в существующий технологический стек компании благодаря большому количеству коннекторов и видов визуализаций. Однако для высоконагруженных систем и сложных сценариев некоторые компании дорабатывают исходную версию, например внедряют инструменты автоматического кеширования и оптимизируют архитектуру хранения данных для построения графиков. По этому пути в своё время пошли и мы в VK.

Привет, Хабр. Меня зовут Никита Романов, лидирую разработку аналитических инструментов VK. В этой статье расскажу о нашем опыте оптимизации Apache Superset под свои задачи.

Читать далее

+25

senior__pomidor 21 дек 2025 в 12:16

Retention в Kafka: Почему сообщения живут дольше, чем вы думаете?

Простой

4 мин

8.8K

Хранение данных * Распределённые системы * Высоконагруженные системы * Apache *

Из песочницы

Вы настроили retention.ms = 86400000 (24 часа) и отправили тестовое сообщение. Через сколько времени реально удалится сообщение?

Читать далее

+5

Mitochondria 14 дек 2025 в 13:00

Kafka для начинающих: работа с оффсетами на практике

Средний

11 мин

12K

Apache * Микросервисы * Java *

Туториал

Как работать с оффсетами в Kafka на практике, используя Spring Boot?
Разбираем проблемы и их решения на примере интернет-магазина.

Простым языком и с примерами кода о режимах коммитов, проблемах с транзакциями и надёжных паттернах.

Читать далее

+3

ultra_vds 10 дек 2025 в 10:01

Что выбрать новичку для домашнего веб-сервера: Nginx, Caddy или Apache

Средний

7 мин

23K

Блог компании UltraVDSВеб-разработка * Системное администрирование * Apache * Nginx *

Обзор

Каждый раз, когда в айтишных чатах всплывает тема веб-серверов, кто-то пишет: «Apache умер», «Nginx — наше всё», «за Caddy — будущее, просто попробуйте». В статье разберём, в каких случаях веб-сервер действительно нужен, в чём плюсы и минусы популярных решений и как сделать выбор под свою задачу. Детали внутри.

Читать далее

+63

akomiagin 3 дек 2025 в 09:32

Глубокое погружение в архитектуру Kafka: от простых сценариев до геокластера

Средний

10 мин

9.6K

Apache * Высоконагруженные системы * Big Data *

Обзор

Привет, Хабр! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие.

В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено. В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено.

Этот текст написан на основе моего доклада на конференции SaintHighload++ 2025 в Санкт Петербурге. Так что, если вы были там в качестве слушателя, информация не будет для вас новой. Впрочем, повтор полезного материала никогда не бывает лишним. Поехали!

Читать далее

+6

DiamondJinxx 2 дек 2025 в 08:52

От CSV к дашбордам: гибкая отчетность на Postgres, Airflow и Superset

Средний

14 мин

5.7K

Блог компании Группа АстраАнализ и проектирование систем * Data Engineering * Python * Apache *

Кейс

Привет, Хабр! Я Дмитрий Смотров, тружусь бэкендером в Astra Linux в команде продукта ACM — микросервисной системе, разворачиваемой на клиентских мощностях. Мы позволяем удаленно управлять клиентской инфраструктурой. Сначала я разрабатывал функциональность снятия инвентаризации и удаленного выполнения команд установки и удаления ПО, но в один момент моя жизнь резко изменилась. На проекте возникла необходимость в функциональности красивой и настраиваемой отчетности, в чем я увидел возможность проверить себя в новой для себя области. Я вызвался разобраться и помочь продукту стать еще лучше.

Под катом расскажу о том, с какими трудностями столкнулся в процессе, как я их решал и что в итоге получилось. Приятного чтения :-)

Читать далее

+2

vkotletkin 23 ноя 2025 в 16:31

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Средний

17 мин

6.4K

Big Data * Apache * Java * Data Engineering *

Из песочницы

Привет, Хабр!

В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.

Читать далее

+2

dmtrnshs 21 ноя 2025 в 11:50

Первый график в Apache Superset за 10 минут: как мы внедрили современные дашборды по подбору в Юнион

Простой

10 мин

6.5K

Блог компании ИТ-холдинг Т1Анализ и проектирование систем * Apache * Визуализация данных *

Кейс

Привет, Хабр! Меня зовут Денис, я аналитик в Юнион — системе автоматизации подбора персонала. Как и в любом процессе подбора через HR-системы, у нас постоянно возникает необходимость анализировать данные: чтобы оценивать эффективность рекрутинга, отслеживать ключевые метрики и принимать решения на основе фактов, а не ощущений.

В этой статье я кратко расскажу про Apache Superset, в целом про аналитику подбора, причины и процесс нашего переноса отчетов в новый BI-инструмент, а также поделюсь полезными лайфхаками, которые помогут сэкономить время при работе с дашбордами.

Читать далее

+2

Vjatcheslav_S 19 ноя 2025 в 13:00

Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Средний

6 мин

6.4K

Блог компании АО «ГНИВЦ»Hadoop * Big Data * Data Engineering * Apache *

Обзор

Представим ситуацию: мы спланировали маршрут до точки назначения, предположили, по какой дороге будет быстрее добраться, даже вспомнили, где обычно бывают пробки, чтобы их объехать. Но, неожиданно, на самом свободном участке образовался затор из‑за аварии в правом ряду. В этот момент понимаем, что лучше бы мы ехали по навигатору, и какая‑нибудь «Анфиса» предупреждала о дорожной ситуации, чтобы в определенный момент можно было изменить траекторию движения. Именно так годами чувствовали себя пользователи Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.

Читать далее

+3

Vadimka_9 17 ноя 2025 в 07:00

Apache Kafka для QA инженера или что нужно знать тестировщику о Kafka

Простой

6 мин

7.3K

Высоконагруженные системы * Микросервисы * Apache * Тестирование веб-сервисов * Тестирование IT-систем *

Всем привет! Меня зовут Вадим, и я QA-инженер в IT-компании Intelsy. В современной разработке программного обеспечения всё чаще встречаются распределённые системы и микросервисная архитектура. Один из ключевых инструментов, обеспечивающих надёжное и масштабируемое взаимодействие между сервисами, — это Apache Kafka — распределённая платформа потоковой обработки и передачи сообщений. Для специалиста по обеспечению качества понимание принципов работы Kafka критически важно.

Читать далее

0

Mitochondria 12 ноя 2025 в 08:00

Kafka для начинающих: гарантии доставки на практике и настройка идемпотентности

Средний

14 мин

11K

Apache * Микросервисы * Java *

Туториал

Почему exactly-once — это миф? Как защититься от дубликатов в распределённых системах?
Продолжаем работу с Kafka на практике и рассматриваем более интересные темы.

Простым языком и с примерами кода о непростых концепциях и паттернах.

Читать далее

+5

Andrey_Biryukov 5 ноя 2025 в 07:25

Kafka или REST для взаимодействия между микросервисами?

Средний

5 мин

12K

Блог компании OTUSМикросервисы * Apache *

Перевод

Apache Kafka и REST (Representational State Transfer) — два популярных стиля взаимодействия, используемых в архитектуре микросервисов. У каждого из них есть свои сильные стороны и характеристики, которые делают их подходящими для различных сценариев. В этой статье мы рассмотрим технические аспекты использования Kafka и REST для межсервисного взаимодействия, приведем примеры и обобщим их ключевые моменты в сравнительной таблице.

Сравнить подходы

-3

Wicort 5 ноя 2025 в 07:00

Apache Camel и его место в экосистеме интеграционных решений

Простой

4 мин

6.4K

Микросервисы * Java * Apache * Программирование *

Мнение

Сегодня поговорим не просто об инструменте, а о фундаменте, на котором строятся современные интеграционные платформы. Речь пойдет об Apache Camel – открытом интеграционном фреймворке, который лежит в основе таких решений, как Red Hat Fuse, Talend и нашей собственной платформы от «Диасофт» – Digital Q.Integration.

Важно подчеркнуть: мы не используем экспериментальные или нишевые стеки. Наша платформа построена на проверенной, зрелой и широко распространенной связке: Apache Camel и Spring Boot. Это дает стабильность, совместимость с корпоративной инфраструктурой и возможность глубоко интегрироваться с экосистемой Spring – от безопасности до мониторинга и распределенной трассировки.

Читать далее

+8

mieh 24 окт 2025 в 07:36

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

7 мин

5.5K

Блог компании Yandex Cloud & Yandex InfrastructureХранение данных * Высоконагруженные системы * Распределённые системы * Apache *

Кейс

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними.

Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

Читать далее

+13

1

2 3 ...