Search
Write a publication
Pull to refresh
21
0
Иван Клименко @KlimenkoIv

Архитектор интеграционных решений в BigData

Send message

Академия Arenadata: How to ADS.NiFi. Концепция потокового программирования в NiFi

Level of difficultyEasy
Reading time11 min
Views1.1K

Добрый день. Меня зовут Иван Клименко, я архитектор в департаменте поддержки продаж компании Arenadata. Основное направление моей работы — продукт Arenadata Streaming (ADS), масштабируемая и отказоустойчивая система для потоковой обработки данных в режиме реального времени, предназначенная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi.

Сегодня я хотел бы обсудить концепцию потокового программирования, уделить внимание FlowFile и рассмотреть подходы к разработке потоков обработки данных в NiFi. Эта статья в первую очередь адресована новичкам, интересующимся NiFi, а от опытных разработчиков я буду рад услышать дополнения и конструктивную критику.

Читать далее

Академия Arenadata: How to ADS.NiFi. Базы данных

Level of difficultyEasy
Reading time12 min
Views2.3K

Добрый день. Меня зовут Иван Клименко, и я архитектор департамента поддержки продаж компании Arenadata. В основном занимаюсь продуктом Arenadata Streaming (ADS) — это масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. В продукт входит cервис Arenadata Streaming NiFi, который является LowCode-средством построения интеграционных потоков с возможностью масштабирования.

Сегодня я бы хотел открыть цикл статей практического применения, так называемого «HowTo…», и первой темой выбрано взаимодействие с базами данных в NiFi. Рассмотрим простые заготовки потоков обработки данных, которые извлекают данные из таблиц и помещают данные в другую, либо эту же базу. Разберем, как создавать подключение к базам, какими процессами пользуемся для выборки, а также как оптимизировать эти процессы. Эта статья будет интересна в первую очередь новичкам в NiFi, ну а от опытных разработчиков всегда жду комментариев с дополнениями или с конструктивной критикой.

Читать далее

Nifi — когда record-oriented не оправдывает себя

Level of difficultyMedium
Reading time17 min
Views2.3K

Добрый день. Меня зовут Иван Клименко, и я архитектор департамента поддержки продаж компании Arenadata. В основном занимаюсь продуктом Arenadata Streaming (ADS) — это масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. В продукт входит замечательный сервис Arenadata Streaming NiFi, который является low‑code средством построения интеграционных потоков с возможностью масштабирования.

Сегодня хочу показать на одном из практических случаев, что не всегда в NiFi удаётся следовать шаблонному подходу record‑oriented в разработке потоков обработки и трансформации данных.

Будет большой JSON, будет Avro‑схема, будет JOLT‑спецификация.

Интересно?

Apache NiFi. Запуск Pipeline тогда, когда надо

Level of difficultyEasy
Reading time5 min
Views5.4K

Добрый день. Меня зовут Иван, я дата‑инженер, основной профиль — доставка данных от источников до целевых систем DWH. Чаще всего работаю с Apache NIFI.

В данной статье я расскажу о вариантах старта PipeLine обработки данных в требуемое время. Статья подойдет новичкам, опытные коллеги могут дополнить в комментариях.

Интересующимся - читать дальше.

Apache NiFi. Быстрый доступ к логам

Reading time2 min
Views6.6K

Рассмотрим простой способ получить информацию из лога Nifi с помощью самого Nifi. Это может быть полезно при разработке, тестировании, отладке потоков. А также, поможет организовать получение событий, если у вас еще не готова инфраструктура мониторинга и логирования.

Читать далее

Загрузка stage слоя DWH. Часть 3

Reading time7 min
Views4.7K

Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные не по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно и сложно. Устранять ошибку проектирования приходится в десятках процессоры группах. И так далее...

Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.

Читать далее

Загрузка stage слоя DWH. Часть 2

Reading time5 min
Views5.4K

Всем доброго дня. Я Иван Клименко, и я разработчик потоков данных в компании Аскона. Данная статья посвящена параметризации NIFI-потока и информированию СУБД об окончании загрузки.

Продолжаю рассказывать о разработке потоков ETL на Apache NIFI. Первая статья была более общей, в текущей я более подробно остановлюсь на параметрах процессоров в основных шагах, о применил атрибутов, как средства параметризации выполнения потока, и о применил для внесения в целевую систему с процессора PutDatabaseRecord.

Читать далее

Загрузка stage слоя DWH. Часть 1

Reading time5 min
Views8.9K

Доброго дня. Меня зовут Иван Клименко, я разработчик потоков обработки данных в компании Аскона. В этом цикле статей я расскажу опыт внедрения инструмента Apache Nifi для формирования DWH. 

Данная статья посвящена первому этапу внедрения Apache NIFI - начальным потокам выгрузки, внедрению инкрементальной загрузки, и описанию существующей архитектуры.

Читать далее

Information

Rating
4,089-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity

Specialization

Data Engineer, Data Engineer
Lead
From 550,000 ₽
Git
Java
Docker
Database
ETL
Apache Airflow
Apache Kafka
Python
High-loaded systems
PostgreSQL