Как стать автором

Apache *

Свободный веб-сервер

Статьи Посты Новости Авторы Компании

val6789 15 апр в 09:12

Spark. План запросов на примерах

Средний

7 мин

2.6K

SQL*Apache*Big Data*Хранение данных*Data Engineering*

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее

+7

Sber 4 апр в 11:46

Как перезапускать PySpark-приложение и зачем это может понадобиться

Сложный

15 мин

1.5K

Блог компании СберВысокая производительность*Python*Apache*

Кейс

Сегодня все крупные компании сохраняют и обрабатывают большие объёмы информации, причём стремятся делать это максимально эффективным для бизнеса способом. Меня зовут Мазаев Роман и я работаю в проекте загрузки данных на платформу SberData. Мы используем PySpark, который позволяет очень быстро распределённо обрабатывать данные в оперативной памяти узлов нашего кластера на базе Hadoop. Я поделюсь способом, с помощью которого можно снизить потребление ресурсов кластера за счёт перезапуска PySpark-приложений между выполняемыми Spark-задачами, и расскажу, как это делать правильно.

Читать далее

+16

david_khoperiya 3 апр в 11:59

Мониторинг Apache Airflow. Оценка «прожорливости» тасок

10 мин

2.8K

Блог компании Ozon БанкPython*Apache*Data Engineering*

Туториал

Всем привет! Случались ли у вас ситуации, когда количество DAG’ов в вашем Airflow переваливает за 800 и увеличивается на 10-20 DAG’ов в неделю? Согласен, звучит страшно, чувствуешь себя тем героем из Subway Surfers… А теперь представьте, что эта платформа является единой точкой входа для всех аналитиков из различных команд и DAG’и пишут более 50 различных специалистов. Подкосились ноги, холодный пот и желание уйти из IT?

Не спешите паниковать, под катом я расскажу о том, как контролировать потребление ресурсов DAG’ов Airflow для предупреждения неоптимально написанных DAG’ов и борьбы с ними.

Меня зовут Давид Хоперия, я Data Engineer в департаменте данных Ozon.Fintech и моим основным инструментом является Apache Airflow, поэтому настало время углубиться в детали его работы.

+16

badcasedaily1 18 мар в 08:37

Основные функции Apache Tomcat

Средний

8 мин

4.1K

Блог компании OTUSApache*

Обзор

Привет, дорогие читатели!

Apache Tomcat — это открытое программное обеспечение, реализующее спецификации Java Servlet, JSP и Java WebSocket, предоставляя таким образом платформу для запуска веб-приложений, написанных на языке Java. Разработанный и поддерживаемый Apache Software Foundation, Tomcat служит контейнером сервлетов, который позволяет веб-приложениям использовать Java для создания динамичных веб-страниц.

Tomcat может работать как самостоятельный веб-сервер, где он обрабатывает как статические страницы, так и динамические запросы через Servlets и JSP. Однако часто Tomcat используется в сочетании с традиционными веб-серверами, такими как Apache HTTP Server или Nginx, для обработки статического контента, в то время как динамический контент обрабатывается через Tomcat.

В этой статье мы рассмотрим основной функционал Tomcat.

Читать далее

+4

xahyka 14 мар в 09:00

Apache NiFi. Как быстро подружиться с LDAP и Registry

Простой

17 мин

2.1K

Блог компании NubesСистемное администрирование*Apache*DevOps*

Туториал

Казалось бы, про Apache NiFi уже писали не раз. Но если ты только знакомишься с инструментом, разобраться в таких статьях бывает нелегко. Обычно с тобой говорят так, будто ты уже давно в теме, да и задачи чаще решают явно не твои. С официальной документацией тоже все сложно: она есть, но для быстрого погружения явно не подходит.

Вот почему я решил подготовить свой гайд для новичка. Попробуем максимально быстро разобраться с первичной настройкой NiFi и NiFi Registry, подключить авторизацию по LDAP, протестировать работоспособность, рассмотреть возможные ошибки настройки и отдебажить их.

Читать далее

+7

Lifailon 1 мар в 09:30

REST API сервер на Bash с использованием сокетов и Apache

Средний

14 мин

5.4K

*nix*Оболочки*API*Apache*

Кейс

Всем привет! Ранее рассказывал о том, как создать REST API и Web-сервер на PowerShell для Windows, а также упоминал, что подобный сервер будет работать и в системе Linux, благодаря кроссплатформенной версии PowerShell Core. Безусловно, для подобных целей лучше используются специализированные серверные фреймворки или библиотеки, такие как Flask или Django в Python, но меня не покидала идея реализации похожего сервера, где описание логики будет производиться на языке одного только Bash. Приведу примеры, с помощью которых можно создать такой сервер используя сетевые сокеты netcat , socat и ncat, а также веб-сервера Apache с использованием встроенных модулей.

Читать далее

+16

Hramoff 23 фев в 16:31

Алертинг состояния выполения DAG`ов Apache Airflow в Telegram за 1 минуту

Простой

4 мин

2.9K

Из песочницы

Коллеги, здарова! Часто бывает что нужно отправить сообщение в мессенджер к разработчикам, в случае возникновения различных проблем.

Представляю небольшое решение, которое позволит отправить сообщение в Telegram с информацией о состоянии DAG`а Apache Airflow

Читать далее

+6

m0bikylym 16 фев в 09:30

С нуля до плагина JMeter: пишем свой продукт без опыта

Средний

10 мин

3.3K

Тестирование IT-систем*Java*Apache*

Из песочницы

От проблемы к практике: как привязать JMeter к Allure Report если нет опыта программирования, но очень хочется

Читать далее

+5

Malakhova-Natalya 11 фев в 10:30

Мой опыт в Airflow: как повысить стабильность загрузки данных в 5 раз

Простой

4 мин

6.4K

Apache*Учебный процесс в ITData Engineering*

Из песочницы

Когда я пришла на проект, в нём уже было много всего: много данных, много источников, много задач в Airflow. Чтобы ощутить масштаб, достаточно, пожалуй, взглянуть на одну картинку.

Читать далее

+15

badcasedaily1 1 фев в 10:47

Основы репликации в Kafka

Простой

5 мин

5.6K

Блог компании OTUSApache*

Привет, Хабр!

Репликация в Apache Kafka - это механизм, который обеспечивает доступность и надежность в обработке потоков данных. Она представляет собой процесс дублирования данных с одной части темы в другие, называемые репликами.

В этой статье рассмотрим основы репликации в кафке.

Читать далее

+6

badcasedaily1 30 янв в 12:25

Продюсеры и консьюмеры с Apache Kafka в Python

Простой

7 мин

6.1K

Блог компании OTUSPython*Apache*

Обзор

Салют, Хабр!

Apache Kafka - это распределенная платформа потоковой обработки, предназначенная для построения систем обработки данных. Kafka позволяет публиковать, подписываться, хранить и обрабатывать потоки данных в реальном времени. Все это дает нам очень высокую пропускную способность и масштабируемость.

Основные фигуры в кафке это продюсеры и консюмеры. Продюсеры — это компоненты, которые производят и отправляют данные в Kafka. Они могут быть чем угодно: от простых скриптов до сложных систем. Консюмеры — это те, кто подписывается на данные и обрабатывает их. Они могут быть реализованы в различных формах, например, для анализа данных или мониторинга.

В статье мы и поговорим именно про продюсерах и консюмерах в экосистеме Kafka в коннекте с Python.

Читать далее

+9

skonik_dev 26 янв в 11:23

Разбираемся с работой брокеров, или Что такое гарантия доставки сообщений и как с этим жить…

Средний

12 мин

4.1K

Блог компании СамолетIT-инфраструктура*Apache*Хранение данных*Микросервисы*

Туториал

В эпоху мгновенной коммуникации, гарантия доставки сообщений становится не просто плюсом, но и неотъемлемой частью репутации сервиса. Как быть уверенным, что ваше сообщение дойдет до адресата именно тогда, когда это нужно? Привет, Хабр, меня зовут Сергей Коник, я работаю в Самолете на должности старшего разработчика и одна из проблем, с которой сталкивались наши команды, – это потеря важных сообщений при общении между сервисами. Расскажу сегодня основы, как с этим работать.

Читать далее

+13

ngis 21 янв в 08:59

CyberOffice.pro – обновление, ребрендинг

Простой

2 мин

3.8K

Open source*Apache*Софт

Обзор

В статье краткое описание и ссылка на дистрибутив CyberOffice.pro.

CyberOffice.pro – открытый проект для ценящих стабильность, реентерабельность и совместимость, работая со сложными документами; практикующих цифровую гигиену без фанатизма.

Читать далее

+1

m11 16 янв в 09:13

Что нового в документации YDB в декабре 2023

Простой

2 мин

1.4K

Блог компании YDBOpen source*Apache*Kubernetes*Подготовка технической документации*

Дайджест

Перевод

Краткий дайджест свежего контента и новой функциональности в документации YDB за декабрь прошлого года.

Читать далее

+4

exc3pti0n 7 янв в 13:16

OpenWire — смотрим на атаку с платформы Cyberdefenders

Простой

4 мин

1.6K

Информационная безопасность*Apache*CTF*

Во время вашей смены в качестве аналитика второй линии SOC вы получаете информацию с первой линии относительно общедоступного сервера. Этот сервер был помечен как установивший подключения к нескольким подозрительным IP-адресам. В ответ вы запускаете стандартный протокол реагирования на инциденты, который создает изоляцию сервера от сети для предотвращения потенциального горизонтального перемещения или утечки данных и получение перехваченного пакета от утилиты NSM для анализа. Ваша задача — проанализировать PCAP и проверить наличие признаков вредоносной активности.

Читать далее

+3

aasmc 4 янв в 17:56

Рассчитываем рейтинг товара на основе оценок пользователей с KafkaStreams и OpenSearch

Средний

14 мин

3K

Java*Apache*Kotlin*

Туториал

Всем привет! Меня зовут Александр. Последний год тружусь фрилансером на проекте по созданию очередного маркетплейса. Мои задачи включают разработку скоринговой системы продуктов, которая бы позволяла формировать выборку товаров по популярности на основе нескольких показателей. Одним из показателей являются оценки пользователей по шкале от 1 до 5. Думаю, что не станет открытием Америки то, что расчет рейтинга товара по среднему арифметическому всех оценок приводит к насовсем корректным результатам выборки. Например, при таком подходе товар "А" с одной оценкой 5 в рейтинге будет выше товара "Б", у которого сотня оценок 5 и одна оценка 4. Решение данной проблемы давно найдено - для расчета следует применить доверительный интервал биномиального распределения по методу Уилсона (Wilson Score Confidence Interval).

Читать далее

+9

svtDanny 2 янв в 10:58

Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

Простой

5 мин

2.4K

Apache*Big Data*Хранение данных*Data Engineering*

Кейс

Перевод

По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными проблемами, такими как повышенные требования к железу, увеличившееся потребление ресурсов, а также проблемами с производительностью из-за ошибок наподобие OOM (out-of-memory) и длительных пауз на сборку мусора.

Для решения проблем было реализовано несколько инициатив, такие как: внедрение TTL (Time to Live) политик для партиций, внедрение многослойного хранилища с стратегиями для перераспределения данных из “hot”/”warm” до “cold” уровней хранения, а также оптимизации форматов хранения данных. В данной статье фокус будет на последней оптимизации - как сократить размер данных в рамках формата Apache Parquet™ за счет удаления не использующихся колонок большого размера.

Читать далее

+3

Albert_Wesker 28 дек 2023 в 17:01

Построение архитектур для обработки данных в режиме реального времени при помощи Apache Kafka, Flink и Druid

Сложный

11 мин

8.1K

Блог компании Timeweb CloudСистемное администрирование*IT-инфраструктура*Apache*Хранилища данных*

Обзор

Перевод

Командам, которые занимаются обработкой данных (поступающих пакетными партиями в рабочих потоках) сложно соответствовать современным требованиям по обработке данных в режиме реального времени. Почему? Потому что пакетный поток данных – от доставки данных до их дальнейшей обработки и анализа – это такая вещь, при работе с которой нужно уметь ждать.

Требуется ждать тех данных, которые пойдут на отправку в ETL-инструмент, дожидаться, пока будет обработана куча данных, ждать, пока информация будет загружена в хранилище данных и даже ждать, пока закончат выполняться сделанные запросы.

Но в опенсорсном пространстве есть решение, разработанное в опенсорсе. В сочетании друг с другом Apache Kafka, Flink и Druid, позволяют создать архитектуру для обработки данных, которая работает в режиме реального времени и позволяет исключить все эти этапы ожидания. В этом посте мы исследуем, как комбинация этих инструментов позволяет создавать широкий спектр приложений для обработки данных в режиме реального времени.

Читать дальше →

+18

MaxRokatansky 13 дек 2023 в 17:57

Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle

8 мин

2.1K

Блог компании OTUSApache*Data Engineering*

Перевод

Spark Connect — это, пожалуй, самая ожидаемая фича Apache Spark 3.4.0. Она была анонсирована на конференции Data+AI Summit 2022 и сейчас широко освещается в социальных сетях. Вот и я решил приобщиться и внести свой небольшой вклад в это дело, продемонстрировав вам несколько интересных деталей реализации.

Читать далее

+5

aasmc 10 дек 2023 в 18:12

Kafka Connect на примере Debezium PostgresConnector

Средний

19 мин

8.8K

PostgreSQL*Java*Apache*Kotlin*

Туториал

В предыдущей статье про микросервисную архитектуру на основе событий с использованием Kafka Streams достаточно поверхностно был упомянут io.confluent.connect.jdbc.JdbcSourceConnector, который использовался для вычитания данных из SQLite и отправки их в топик Kafka. Сейчас я бы хотел более подробно разобрать технологию Kafka Connect на примере io.debezium.connector.postgresql.PostgresConnector. Как и в прошлый раз, я реализовал небольшой демо проект, код которого доступен на GitHub. В проекте кода совсем немного, однако чтобы понять все настройки, примененные в коннекторе, придется достаточно подробно пройтись по теоретической части. Итак, приступим.

Читать далее

+4

1

2 3 ...