Все потоки

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

Vjatcheslav_S вчера в 13:00

Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Средний

6 мин

161

Блог компании АО «ГНИВЦ»Data Engineering * Big Data * Hadoop * Apache *

Обзор

Представим ситуацию: мы спланировали маршрут до точки назначения, предположили, по какой дороге будет быстрее добраться, даже вспомнили, где обычно бывают пробки, чтобы их объехать. Но, неожиданно, на самом свободном участке образовался затор из‑за аварии в правом ряду. В этот момент понимаем, что лучше бы мы ехали по навигатору, и какая‑нибудь «Анфиса» предупреждала о дорожной ситуации, чтобы в определенный момент можно было изменить траекторию движения. Именно так годами чувствовали себя пользователи Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.

Читать далее

+3

Vadimka_9 17 ноя в 07:00

Apache Kafka для QA инженера или что нужно знать тестировщику о Kafka

Простой

6 мин

2.1K

Тестирование IT-систем * Тестирование веб-сервисов * Apache * Микросервисы * Высоконагруженные системы *

Всем привет! Меня зовут Вадим, и я QA-инженер в IT-компании Intelsy. В современной разработке программного обеспечения всё чаще встречаются распределённые системы и микросервисная архитектура. Один из ключевых инструментов, обеспечивающих надёжное и масштабируемое взаимодействие между сервисами, — это Apache Kafka — распределённая платформа потоковой обработки и передачи сообщений. Для специалиста по обеспечению качества понимание принципов работы Kafka критически важно.

Читать далее

+1

Mitochondria 12 ноя в 08:00

Kafka для начинающих: гарантии доставки на практике и настройка идемпотентности

Средний

14 мин

8.7K

Apache * Микросервисы * Java *

Туториал

Почему exactly-once — это миф? Как защититься от дубликатов в распределённых системах?
Продолжаем работу с Kafka на практике и рассматриваем более интересные темы.

Простым языком и с примерами кода о непростых концепциях и паттернах.

Читать далее

+5

Andrey_Biryukov 5 ноя в 07:25

Kafka или REST для взаимодействия между микросервисами?

Средний

5 мин

11K

Блог компании OTUSApache * Микросервисы *

Перевод

Apache Kafka и REST (Representational State Transfer) — два популярных стиля взаимодействия, используемых в архитектуре микросервисов. У каждого из них есть свои сильные стороны и характеристики, которые делают их подходящими для различных сценариев. В этой статье мы рассмотрим технические аспекты использования Kafka и REST для межсервисного взаимодействия, приведем примеры и обобщим их ключевые моменты в сравнительной таблице.

Сравнить подходы

-3

Wicort 5 ноя в 07:00

Apache Camel и его место в экосистеме интеграционных решений

Простой

4 мин

1.5K

Микросервисы * Java * Apache * Программирование *

Мнение

Сегодня поговорим не просто об инструменте, а о фундаменте, на котором строятся современные интеграционные платформы. Речь пойдет об Apache Camel – открытом интеграционном фреймворке, который лежит в основе таких решений, как Red Hat Fuse, Talend и нашей собственной платформы от «Диасофт» – Digital Q.Integration.

Важно подчеркнуть: мы не используем экспериментальные или нишевые стеки. Наша платформа построена на проверенной, зрелой и широко распространенной связке: Apache Camel и Spring Boot. Это дает стабильность, совместимость с корпоративной инфраструктурой и возможность глубоко интегрироваться с экосистемой Spring – от безопасности до мониторинга и распределенной трассировки.

Читать далее

+8

mieh 24 окт в 07:36

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

7 мин

368

Блог компании Yandex Cloud & Yandex InfrastructureХранение данных * Высоконагруженные системы * Распределённые системы * Apache *

Кейс

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними.

Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

Читать далее

+13

Wicort 24 окт в 07:04

ActiveMQ Artemis vs Apache Kafka

Простой

9 мин

3K

Микросервисы * Java * Apache *

Мнение

Добрый день. Сегодня мы поговорим о двух мощных технологиях для асинхронного обмена данными — ActiveMQ Artemis и Apache Kafka. Мы разберемся, что они из себя представляют, как устроены под капотом, и главное — в каких ситуациях стоит выбрать одну, а в каких другую.

Наш план на сегодня довольно насыщенный. Мы начнем с того, почему вообще все пришли к асинхронному общению сервисов. Затем подробно разберем ActiveMQ Artemis — что это и какие задачи решает. Заглянем в его техническую архитектуру, чтобы понять источник его производительности. После этого мы кратко вспомним основы Apache Kafka, чтобы затем перейти к самому интересному — детальному сравнению. Мы составим четкие рекомендации, поговорим о нагрузочных характеристиках и подведем итоги.

Читать далее

+7

Mitochondria 23 окт в 15:04

Kafka для начинающих: работа с брокером сообщений на практике

Средний

18 мин

8.2K

Apache * Микросервисы * Java *

Туториал

Как работать с Kafka на практике, используя Spring Boot?
Разбираем базовые практические моменты на примере интернет-магазина.

Простым языком и с примерами кода о настройке Kafka-кластера, об основных аннотациях и методах Spring Boot для работы с Kafka.

Читать далее

+4

Mitochondria 18 окт в 10:16

Kafka для начинающих: откуда такой спрос и зачем нужна эта технология

Средний

13 мин

49K

Java * Микросервисы * Apache *

Туториал

Из песочницы

Почему REST API не всегда подходит для общения микросервисов?
Разбираем на примере интернет-магазина, как Kafka решает проблемы синхронной коммуникации, масштабирования и отказоустойчивости.

Простыми словами о топиках, партициях, consumer groups — для начинающих разработчиков.

Читать далее

+36

MaDeLa 9 окт в 10:16

Распределенные вычисления в Apache Ignite 3

Средний

10 мин

1.6K

Apache * Java * Распределённые системы *

Из песочницы

В статье разбираются возможности распределённых вычислений в Apache Ignite 3. Покажу, как развернуть кластер в Docker, задеплоить собственные джобы и сравнить Ignite 3 с предыдущей версией. Затронем новые возможности Ignite как полноценной распределённой платформы, а не просто in-memory кэша.

Читать далее

+5

MaxRokatansky 2 окт в 16:48

Apache Kafka: ZooKeeper vs KRaft — полное сравнение подходов

10 мин

5K

Блог компании OTUSApache * Big Data * Data Engineering *

Apache Kafka — один из самых популярных распределенных систем потоковой передачи данных. Исторически Kafka использовала Apache ZooKeeper для управления кластером, но с версии 2.8.0 появилась альтернатива — KRaft (Kafka Raft Metadata mode).

В этой статье мы подробно рассмотрим оба подхода, их преимущества и недостатки, а также поможем выбрать правильный путь для вашего проекта в микросервисной архитектуре.

И, чтобы статья была практико-ориентированной, мы рассмотрим примеры того, как можно поднять в Docker оба варианта кластера.

Перейти к сравнению

+3

zloySA 30 сен в 08:19

Что нужно знать системному аналитику о Apache Cassandra

Средний

19 мин

4.5K

Блог компании Т-БанкApache * Базы данных * Анализ и проектирование систем * NoSQL *

Туториал

Всем привет! Я Илья Глазунов, системный аналитик в проекте карточного хранилища T-Pay Online — быстрого способа оплаты для наших клиентов. В качестве БД в проекте хранилища мы используем Apache Cassandra. В статье — обзорный материал, который поможет познакомиться с БД.

В культуре Т-Банка важно, чтобы системные аналитики знали особенности интеграционных схем с другими компонентами, умели строить схемы БД так, чтобы минимизировать издержки, связанные с i/o-операциями. А еще — чтобы могли вычислять узкие места в кейсах и влиять на выбор верхнеуровневого компонента в проекте.

Когда мы выбирали БД для нашего проекта, столкнулись с тем, что существует мало материалов, которые бы сжато передавали главные особенности Apache Cassandra без глобальных неточностей и на русском языке для первичного ознакомления. Поэтому решили помочь тем, кто окажется в таком же положении, что и мы.

Разберем, для чего нужна Cassandra, рассмотрим основные концепции архитектуры, разложим принципы проектирования БД с ее особенностями модели данных и затронем некоторые принципы расчета конфигурирования БД Cassandra.

Читать далее

+12

ngis 30 сен в 06:30

CyberOffice.pro: «Зачем?» и «Почему?»

Простой

3 мин

535

Open source * Apache * Софт

Известно, CyberOffice.pro создан на основе Apache OpenOffice с малыми доработками «для себя и для друзей».

Далее по тексту ответы на вопросы: «Зачем?» и «Почему?».

Читать далее

+5

m_bessarab 26 сен в 07:00

Динамическое планирование задач в NiFi

9 мин

454

Apache * Анализ и проектирование систем * Микросервисы * Проектирование и рефакторинг *

Туториал

Статья о том, какие бывают ограничения самописных планировщиков задач и как мы перевели весь процесс планирования в NiFi, сделав его более прозрачным.

Читать далее

+1

StanislavRG 17 сен в 09:43

Spark Connect. А нужны ли перемены?

Простой

10 мин

1.4K

Блог компании ArenadataBig Data * Data Engineering * Apache * Базы данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

Читать далее

+12

Gulfstream-h 16 сен в 08:16

Event Driven Design и ksqlDB

Средний

13 мин

2.1K

Go * Apache * Open source * SQL * Анализ и проектирование систем *

Из песочницы

На конференции Web 2.0 в 2006 году Marissa Mayer из Google указала на проблему, что дополнительные полсекунды задержки приводили к снижению поискового трафика примерно на 20%. Amazon сообщал о похожем эффекте: каждые дополнительные 100 мс уменьшали продажи примерно на 1%.

Большие задержки времени отклика чаще можно встретить в аналитических SQL-запросах, так как запрос требует обработки больших блоков данных. Особенно сильно задержки влияют на клиентов с длительной историей покупок. Именно они чаще всего оказываются в верхних перцентилях времени отклика — а это те самые пользователи, которых компании меньше всего хотят терять.

Конференция была проведена почти 20 лет назад, компьютерные технологии за это время стали демократичнее, что привело к увеличению количества пользователей и продуктов. Проблема задержек не исчезла — наоборот, она стала острее: чем больше информации накапливают сервисы, тем тяжелее становится её обработка. Чтобы справиться с нагрузкой, приходилось менять архитектурные подходы к хранению и обработке данных. В статье мы разберем один из них – event-driven design.

Читать далее

+4

Rusfatal 14 сен в 06:12

Superset deep-linking: как Rison и Jinja превращают сводный дашборд в инструмент фокус-анализа

Средний

15 мин

2.4K

Визуализация данных * Apache * HTML * SQL *

Из песочницы

За один клик из сводного дашборда — на «дочерний» с уже выставленными фильтрами. Разберём, как в Apache Superset прокидывать выбранные значения через URL-параметр native_filters в формате Rison и собирать ссылку Jinja-макросами.

Читать далее

+2

feeelin 12 сен в 07:22

Баги носят данные. Проверка Apache NiFi

Средний

11 мин

1.1K

Блог компании PVS-StudioJava * Open source * Apache * Программирование *

Сбор, обработка и перемещение данных — ключевые процессы в IT. Но что, если они нарушатся из-за коварных багов в коде? Рассказываем об ошибках, найденных статическим анализатором в проекте Apache NiFi.

Читать далее

+10

Pavel_EKB 5 сен в 20:56

Практика Kafka: проектирование топиков и обмен сообщениями

Средний

29 мин

13K

Python * Apache * Микросервисы * Big Data *

Туториал

Ранее мы с вами развернули кластер Kafka. Что дальше?

В этой статье, как всегда, переходим от теории к практике: разработаем собственные продюсер и консьюмер на Python. Это будет не просто демонстрация кода — мы погрузимся в детали работы с Kafka.

Подробно разберем структуру сообщений Kafka,

Углубимся в основы проектирования: от топиков до настройки клиентов,

На практике изучим ключевые процессы: сериализацию, партиционирование, батчинг и сжатие данных.

Читать далее

+8

badcasedaily1 4 сен в 13:19

RocksDB-стейт в стриминге: как ловить потерянные события и дубликаты

Средний

11 мин

1.1K

Блог компании OTUSApache * Программирование * Big Data * Data Engineering *

Обзор

В стриминговых пайплайнах всё чаще приходится иметь дело не только с бесконечным потоком данных, но и с состоянием, которое нужно хранить и восстанавливать без потерь. С выходом Spark 3.2 у разработчиков появилась возможность подключать RocksDB в качестве state store — и это открывает новые горизонты для работы с большими объёмами данных. В статье разбираем, как использовать этот подход на практике: от борьбы с дубликатами и пропущенными событиями до тонкостей конфигурации и устойчивости стриминга.

Читать далее

+6

1

2 3 ...