Pull to refresh
21
0
Иван Клименко@KlimenkoIv

Архитектор интеграционных решений в BigData

Send message

Академия Arenadata: How to ADS.NiFi. Концепция потокового программирования в NiFi

Level of difficultyEasy
Reading time11 min
Reach and readers773

Добрый день. Меня зовут Иван Клименко, я архитектор в департаменте поддержки продаж компании Arenadata. Основное направление моей работы — продукт Arenadata Streaming (ADS), масштабируемая и отказоустойчивая система для потоковой обработки данных в режиме реального времени, предназначенная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi.

Сегодня я хотел бы обсудить концепцию потокового программирования, уделить внимание FlowFile и рассмотреть подходы к разработке потоков обработки данных в NiFi. Эта статья в первую очередь адресована новичкам, интересующимся NiFi, а от опытных разработчиков я буду рад услышать дополнения и конструктивную критику.

Читать далее

Академия Arenadata: How to ADS.NiFi. Базы данных

Level of difficultyEasy
Reading time12 min
Reach and readers1.7K

Добрый день. Меня зовут Иван Клименко, и я архитектор департамента поддержки продаж компании Arenadata. В основном занимаюсь продуктом Arenadata Streaming (ADS) — это масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. В продукт входит cервис Arenadata Streaming NiFi, который является LowCode-средством построения интеграционных потоков с возможностью масштабирования.

Сегодня я бы хотел открыть цикл статей практического применения, так называемого «HowTo…», и первой темой выбрано взаимодействие с базами данных в NiFi. Рассмотрим простые заготовки потоков обработки данных, которые извлекают данные из таблиц и помещают данные в другую, либо эту же базу. Разберем, как создавать подключение к базам, какими процессами пользуемся для выборки, а также как оптимизировать эти процессы. Эта статья будет интересна в первую очередь новичкам в NiFi, ну а от опытных разработчиков всегда жду комментариев с дополнениями или с конструктивной критикой.

Читать далее

Nifi — когда record-oriented не оправдывает себя

Level of difficultyMedium
Reading time17 min
Reach and readers1.8K

Добрый день. Меня зовут Иван Клименко, и я архитектор департамента поддержки продаж компании Arenadata. В основном занимаюсь продуктом Arenadata Streaming (ADS) — это масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. В продукт входит замечательный сервис Arenadata Streaming NiFi, который является low‑code средством построения интеграционных потоков с возможностью масштабирования.

Сегодня хочу показать на одном из практических случаев, что не всегда в NiFi удаётся следовать шаблонному подходу record‑oriented в разработке потоков обработки и трансформации данных.

Будет большой JSON, будет Avro‑схема, будет JOLT‑спецификация.

Интересно?

Apache NiFi. Запуск Pipeline тогда, когда надо

Level of difficultyEasy
Reading time5 min
Reach and readers7K

Добрый день. Меня зовут Иван, я дата‑инженер, основной профиль — доставка данных от источников до целевых систем DWH. Чаще всего работаю с Apache NIFI.

В данной статье я расскажу о вариантах старта PipeLine обработки данных в требуемое время. Статья подойдет новичкам, опытные коллеги могут дополнить в комментариях.

Интересующимся - читать дальше.

Apache NiFi. Быстрый доступ к логам

Reading time2 min
Reach and readers8.6K

Рассмотрим простой способ получить информацию из лога Nifi с помощью самого Nifi. Это может быть полезно при разработке, тестировании, отладке потоков. А также, поможет организовать получение событий, если у вас еще не готова инфраструктура мониторинга и логирования.

Читать далее

Загрузка stage слоя DWH. Часть 3

Reading time7 min
Reach and readers5.6K

Каждый разработчик потоков Nifi сталкивается с тем, что через некоторое время потоки начинают повторятся. Бизнес хочет получать данные не по одному расписанию, а к определённым моментам времени. И возникает ситуация, когда управлять большим разросшимся потоком становится неудобно и сложно. Устранять ошибку проектирования приходится в десятках процессоры группах. И так далее...

Рассмотрим подход к параметризованному потоку загрузки, универсальному в сложившемся окружении, при обкатанных правилах формирования DWH, выполнения запросов к источникам, интервалам загрузки.

Читать далее

Загрузка stage слоя DWH. Часть 2

Reading time5 min
Reach and readers6.5K

Всем доброго дня. Я Иван Клименко, и я разработчик потоков данных в компании Аскона. Данная статья посвящена параметризации NIFI-потока и информированию СУБД об окончании загрузки.

Продолжаю рассказывать о разработке потоков ETL на Apache NIFI. Первая статья была более общей, в текущей я более подробно остановлюсь на параметрах процессоров в основных шагах, о применил атрибутов, как средства параметризации выполнения потока, и о применил для внесения в целевую систему с процессора PutDatabaseRecord.

Читать далее

Загрузка stage слоя DWH. Часть 1

Reading time5 min
Reach and readers11K

Доброго дня. Меня зовут Иван Клименко, я разработчик потоков обработки данных в компании Аскона. В этом цикле статей я расскажу опыт внедрения инструмента Apache Nifi для формирования DWH. 

Данная статья посвящена первому этапу внедрения Apache NIFI - начальным потокам выгрузки, внедрению инкрементальной загрузки, и описанию существующей архитектуры.

Читать далее

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity

Specialization

Инженер по данным, Data Engineer
Ведущий
From 550,000 ₽
Git
Java
Docker
Базы данных
ETL
Apache Airflow
Apache Kafka
Python
Высоконагруженные системы
PostgreSQL