Как стать автором

Apache *

Свободный веб-сервер

СтатьиПостыНовостиАвторыКомпании

pihel вчера в 10:30

Что нового в Apache Spark 4.0

Средний

11 мин

1.4K

Блог компании КОРУС КонсалтингData Engineering*Big Data*Apache*SQL*

Обзор

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью.

И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4.

Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

Читать далее

+3

amaryamidze 23 июн в 18:45

Как мы построили сервис KPI для сотрудников

Простой

6 мин

4.3K

Визуализация данных*Управление разработкой*ИнфографикаApache*.NET*

Из песочницы

Привет! Меня зовут Арсен, я разработчик в DDPlanet и сегодня хочу поделиться нашим опытом разработки системы KPI для оценки производительности сотрудников в нашей компании. Как мы пришли к необходимости такой системы, как реализовывали первую и последующие версии и почему выбрали те или иные инструменты при разработке.

Читать далее

+12

victor_shtal 19 июн в 08:06

Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports

Средний

3 мин

916

Big Data*Data Engineering*Data Mining*DevOps*Apache*

Кейс

Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.

Читать далее

+5

Den4irou4 15 июн в 23:10

Пробный поход в веб-kubernetes-1С, вопреки привычкам

Средний

5 мин

3.2K

Apache*Системное администрирование*DevOps*1С*

Кейс

Поскольку компания со страшной силы использует 1С, то сложились некие неизменные традиции, одна из которых – это веб-публикации 1С. Плодятся они примерно так: 1 ИБ (информационная база) + например несколько ИБ с тем же смыслом = 1 отдельный web(iis)-сервер, а таких конструкций полно. Получается, что помимо лицензий, мы тратим кучу ресурсов просто на веб-доступ. Поступила идея, что пора экономить (а заодно отказоустойчивость). Пока на этапе экспериментов/тестов.

Читать далее

+2

skirdinns 11 июн в 10:16

Интеграция с ClickHouse: NiFi vs Airflow

5 мин

1.7K

Блог компании ИТ-интегратор Белый кодIT-компанииApache*

На связи Никита Скирдин, программист 1С компании «Белый код». В прошлой статье мы уже говорили о загрузке данных для системы BI-аналитики. В этой же статье разберем решение задачи с использованием Apache NiFi — системы для автоматизации потоков данных. Хотя NiFi позиционируется как ETL-инструмент (extract transform load), позволяющий внутри себя осуществить необходимые преобразования над поступающими данными, ничто не мешает нам использовать его также для ELT-процесса (extract load transform).

Читать далее

+2

br0mberg 10 июн в 13:01

Часть 2: Как я реализовал взаимодействие микросервисов — Kafka и gRpc

Средний

21 мин

11K

Блог компании RUVDS.comApache*Java*Анализ и проектирование систем*Микросервисы*

Туториал

Привет! Меня зовут Бромбин Андрей, и сегодня я продолжаю цикл статей о создании микросервисного приложения с нуля. В этом выпуске мы сосредоточимся на взаимодействии между микросервисами, используя два подхода: асинхронный с помощью Kafka и синхронный через gRPC.

Независимо от вашего опыта, этот туториал предоставит вам готовые решения и ценные знания для создания Java Spring Microservices. Начинающие разработчики получат чёткое пошаговое руководство, а опытные специалисты — новые идеи, практические примеры и возможности для обмена опытом с коллегами. Разрабатывайте микросервисы эффективно и достигайте отличных результатов!

Читать далее

+82

David_David1 4 июн в 09:51

Как подготовиться к интеграции: чек-лист, который поможет ничего не упустить

Средний

19 мин

1.7K

Блог компании ПСБApache*Базы данных*

FAQ

Привет, Хабр! На связи Давид Саргсян. Я занимаюсь системным анализом цифровых продуктов банка ПСБ.

В этой статье расскажу о том, как не упустить ничего важного на этапах выбора концепции и проектирования вашей будущей интеграции.

Читать далее

+9

skillfactory_school 2 июн в 08:39

Apache Flink для начинающих: архитектура, библиотеки и применение

Простой

12 мин

2.4K

Apache*Big Data*Data Engineering*Машинное обучение*

Обзор

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.

Читать далее

0

skillfactory_school 28 мая в 13:22

Потоковая обработка данных с Kafka Streams: что это и как использовать

Простой

11 мин

2.4K

Обзор

Apache Kafka — это распределенная платформа, которая передает и обрабатывает данные в режиме реального времени. Ее используют для логирования, передачи событий, потоковой аналитики и интеграции микросервисов.

Для работы с данными внутри Kafka есть Kafka Streams — библиотека, которая помогает строить потоковые приложения. С ее помощью можно обрабатывать события в реальном времени, например, выполнять ETL-процессы без использования внешних систем.

В статье рассказываем, как устроен Kafka Streams, и разбираем практические примеры его применения.

Читать далее

+1

Kaboupi 28 мая в 07:09

Долгожданный релиз Airflow 3

Средний

11 мин

7.2K

Блог компании КОРУС КонсалтингData Engineering*Apache*Python*Big Data*

Обзор

Из песочницы

Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»).

В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день.

22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки.

В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

Читать далее

+22

AI-SHA 20 мая в 09:59

Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса

Средний

11 мин

3.4K

Блог компании КриптонитApache*Python*Open source*Big Data*

Аналитика

Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и спрогнозировали дальнейшее развитие на основе выявленных тенденций.

Растущая востребованность Spark объясняется не только открытым исходным кодом и гибкостью, но и лёгкостью интеграции с современными технологиями — от машинного обучения до облачных платформ.

«В России Apache Spark становится не просто популярным фреймворком для обработки данных, а частью экосистемы отечественных решений в сфере Big Data. Особенно это касается объектов критической инфраструктуры, где всегда отдаётся предпочтение только самым надёжным и проверенным решениям», — пояснил Иван Попович, руководитель направления обработки данных компании «Криптонит».

Для критически важных отраслей (госуправление, финансы, энергетика) важна локализация данных и соответствие требованиям регуляторов.

«Открытый исходный код здесь играет ключевую роль, так как обеспечивает прозрачность и возможность тщательной верификации. Также он даёт уникальную возможность адаптировать решение под конкретные требования проекта. Хотя само по себе наличие открытого кода не является гарантией безопасности, Apache Spark за 15 лет своего развития доказал эффективность и надёжность в самых различных областях применения», — добавил эксперт.

В последние годы Spark проникает в новые сферы. Он всё активнее используется в агропромышленном комплексе, энергетике, нефтегазовой и химической отрасли. В основном его применяют для оптимизации производства, прогнозирования аварий и повышения энергоэффективности.

Читать далее

+8

MaxRokatansky 20 мая в 08:39

JSON vs бинарные форматы: почему Kafka выбирает скорость?

7 мин

7.3K

Блог компании OTUSApache*

В современных распределенных системах, где компоненты могут быть реализованы на разных языках программирования, возникает необходимость в эффективной коммуникации между ними. Брокеры сообщений играют ключевую роль в этом процессе, обеспечивая асинхронную передачу данных и снижая зависимость между модулями. Однако для бесперебойного взаимодействия критически важно выбрать наиболее универсальный формат обмена информацией. Ведь важно понять, что и как мы будем передавать, и тут есть несколько вариантов.

Читать далее

+1

badcasedaily1 15 мая в 08:55

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Простой

6 мин

2.3K

Блог компании OTUSApache*Big Data*DevOps*Data Engineering*

Обзор

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.

Читать далее

+4

Akhtem94 10 мая в 11:46

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

Сложный

3 мин

937

Java*Apache*Big Data*Хранение данных*

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

Читать далее

0

Akhtem94 7 мая в 12:53

Join таблиц в реальном времени на Apache Flink

Сложный

5 мин

1.5K

Java*Big Data*Apache*Data Engineering*MySQL*

Из песочницы

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

Читать далее

0

skillfactory_school 30 апр в 08:16

Apache NiFi для новичков: обзор функций, принцип работы, полезные ссылки

Простой

9 мин

1.2K

Обзор

Вместе с экспертом по работе с данными рассказываем об удобном инструменте, который помогает управлять данными и организовывать их взаимодействие между собой.

Читать далее

0

skillfactory_school 30 апр в 07:22

Apache Zookeeper: гид для начинающих

Простой

6 мин

5.4K

Обзор

Разбираемся, что это за инструмент, какие у него есть плюсы, минусы и аналоги.

Apache ZooKeeper — это сервис, который помогает разным частям распределенной системы (серверам, приложениям, процессам) работать согласованно.

Читать далее

+1

brmn 27 апр в 08:54

Kafka без дисков: плюсы и минусы KIP‑1150 (Diskless Topics)

Средний

9 мин

2K

Apache*Data Engineering*Amazon Web Services*

Аналитика

TL;DR: KIP‑1150 (Diskless Topics) предлагает Kafka писать сообщения сразу в облачное хранилище (S3 и аналоги), минуя диски брокеров. Это сильно экономит деньги и упрощает масштабирование в облаке, но увеличивает задержки и делает Kafka зависимой от облачных сервисов. Отлично для дешёвых, «толстых» потоков логов, но плохо подходит для real‑time систем с миллисекундными требованиями.

Читать далее

+9

T1_IT 23 апр в 10:56

Методы расширения атрибутивного состава таблиц БД

Средний

11 мин

2.5K

Блог компании Холдинг Т1Big Data*Apache*Базы данных*

Туториал

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

Читать далее

+7

makoveLev 22 апр в 09:38

Со скоростью кометы: ускоряем Spark без переписывания кода

Средний

7 мин

3.3K

Блог компании КриптонитData Engineering*Big Data*Apache*Серверная оптимизация*

Туториал

Привет, Хабр! Меня зовут Лев Маковеев. Я младший инженер по обработке данных в компании «Криптонит». В этой статье хочу поделиться с вами результатами небольшого исследования, в ходе которого мы протестировали ускоритель запросов Apache DataFusion Comet и пришли к довольно впечатляющим результатам. Забегая вперёд, отмечу, что в отдельных тестах ускорение было более чем десятикратным!

Читать далее

+15

1

2 3 ...