Как стать автором
Обновить

Как мы провели встречи по NiFi. Видео и впечатления

Блог компании TINKOFF Big Data *Хранилища данных *Data Engineering *
Приветствую!

Все чаще я встречаю упоминания такого замечательного продукта, как Apache NiFi. Даже на Хабре за этот год появилось несколько статей об этом достаточно нишевом продукте.

Мы в Тинькофф уже более двух лет используем Apache NiFi и поэтому посвятили ему митап (сразу признаемся, что на проведение мероприятия нас подвигло сообщество телеграм-канала @nifiusers). Событие мы разбили на две части, которые проходили два четверга подряд.


Всего голосов 16: ↑16 и ↓0 +16
Просмотры 3.8K
Комментарии 1

Динамическое создание кластера Apache NiFi

Big Data *Разработка для интернета вещей *
Apache NiFi — удобная платформа для работы с различными данными в режиме реального времени, с возможностью визуального построения данных процессов. Целью данной статьи является описание возможностей создания кластера Apache NiFi.

image Рис. 1. GUI Apache NiFi.

Особенности:

  • Визуальное создание и управление направленными графиками процессоров.
  • Асинхронный, что обеспечивает высокую пропускную способность и естественную буферизацию, даже когда скорость потока и обработки расходятся.
  • Дает возможность создания связанных и слабо-связанных компонентов, которые затем могут быть повторно использованы в других контекстах.
  • Удобная обработка ошибок, которая облегчает работу и поиск проблемных мест.
  • Источники, по которым поступают данные, а также то, как они протекают и обрабатываются, визуально видимы и легко отслеживаются.

Подробнее тут
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 14K
Комментарии 0

Apache NIFI — Краткий обзор возможностей на практике

Habr Java *Groovy & Grails *Apache *Big Data *
Туториал

Введение


Так получилось, что на моем текущем месте работы мне пришлось познакомиться с данной технологией. Начну с небольшой предыстории. На очередном митинге, нашей команде сказали, что нужно создать интеграцию с известной системой. Под интеграцией подразумевалось, что эта известная система будет нам слать запросы через HTTP на определенный ендпоинт, а мы, как это ни странно, слать обратно ответы в виде SOAP сообщения. Вроде все просто и тривиально. Из этого следует что нужно…

Читать дальше →
Всего голосов 12: ↑10 и ↓2 +8
Просмотры 15K
Комментарии 6

Автоматизация доставки flow в Apache NiFi

Apache *
Из песочницы
🔥 Технотекст 2020
Всем привет!



Задача заключается в следующем — есть flow, представленный на картинке выше, который надо раскатить на N серверов с Apache NiFi. Flow тестовый — идет генерация файла и отправка в другой инстанс NiFi. Передача данных происходит с помощью протокола NiFi Site to Site.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 4.2K
Комментарии 2

Как писать свой процессор или расширяем функционал в NiFi

Блог компании Ростелеком Open source *Apache *Big Data *
Recovery mode
Все большую популярность набирает NiFi и с каждым новым релизом он получает все больше инструментов для работы с данными. Тем не менее, может появиться необходимость в собственном инструменте для решения какой-то специфичной задачи.



Apache Nifi имеет в базовой поставке более 300 процессоров.

NiFi Processor это основной строительный блок для создания dataflow в экосистеме NiFi. Процессоры предоставляют интерфейс, через который NiFi обеспечивает доступ к flowfile, его атрибутам и содержимому. Собственный кастомный процессор позволит сэкономить силы, время и внимание пользователей, так как вместо множества простейших элементов-процессоров будет отображаться в интерфейсе и выполняться всего один (ну или сколько напишете). Так же, как и стандартные процессоры, кастомный процессор позволяет выполнять различные операции и обрабатывать содержимое flowfile. Сегодня мы поговорим о стандартных инструментах для расширения функционала.
Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Просмотры 5.5K
Комментарии 1

NiFi по красоте: HTTPS/LDAP/NiFi Registry/NiFi Cli + CI/CD

Системное администрирование *DevOps *
Туториал

Давайте, я сразу объясню свою баянистость. Да, в интернетах полно мануалов. Да, полно пошаговых прохождений. Да, можете сказать, что все жевано пережевано. Но конкретно в моем случае, как это всегда и бывает, оказалась горстка "но":

Есть мануалы о том, как настроить связку NiFi и NiFi Registry со включенной аутентификацией и авторизацией. Но... используются самоподписанные серты.

Есть отдельные мануалы, как прикрутить коммерческий серт для NiFi; соответственно для NiFi Registry "кагбэ так же". Но взаимная аутентификация и авторизация будет происходить с использованием Two way SSL... а у нас же LDAP... и обеспечить потом связность сладкой парочки с использованием только внешнего каталога у вас на голой интуиции не получится.

Есть мануалы по связке с LDAP и для NiFi, и для NiFi Registry. Нооо... как и в предыдущем "но", возникают вопросы, как обойтись потом только LDAP'ом, потому что у нас же еще NiFi Cli, а он в LDAP не умеет.

Иными словами, во всех мануалах есть маааленький нюанс: они покрывают только простейшие сценарии. Документации по комплексным связкам просто нет. Более того, в ходе настройки связки я столкнулся со сложностями, которые в буржуйнете встречаются всего несколько раз и все они либо без ответов, либо ответы не релевантны.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 6.7K
Комментарии 5

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

Блог компании Cloudera Apache *Big Data *Hadoop *Data Engineering *
Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 929
Комментарии 0

Готовим Json в Apache NiFi или снова Jolt Transform

Big Data *Data Engineering *
Туториал
✏️ Технотекст 2021

Пример использования процессора JoltTransformJson в Apache NiFi. Можно рассматривать как небольшой туториал по использованию Jolt-спецификаций.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 5.3K
Комментарии 3

Как мы собираем данные для аналитики с помощью Apache NiFi

Блог компании BIOCAD Apache *Big Data *Data Engineering *
Туториал

Привет, Хабр! Мы команда мониторинга и анализа данных биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы собираем данные для аналитики из практически всех сервисов компании и при этом вполне успешно справляемся без полноценного дата-инженера.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 10K
Комментарии 5

Как сделать инициирующую загрузку в NiFi

Блог компании TINKOFF Data Engineering *

Давайте поговорим про Apache NiFi. Этот ETL-инструмент все чаще используют при загрузке данных в хранилище, правда, не всегда по назначению. Об одном из таких сценариев я рассказывал на конференции SmartData. Видео можно посмотреть на Ютубе, но я все равно рекомендую вам прочитать этот текст: здесь я собрал новые мысли и идеи. Речь пойдет об инициирующей загрузке, или перегрузке данных из источника. 

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 2.6K
Комментарии 4

Apache NiFi: как починить ошибки, которые не гуглятся

Блог компании Группа НЛМК Apache *Big Data *Хранение данных *
Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.



Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать дальше →
Всего голосов 18: ↑18 и ↓0 +18
Просмотры 4.2K
Комментарии 11

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 1)

Блог компании Группа НЛМК Высокая производительность *Системное администрирование *Big Data *
Туториал
✏️ Технотекст 2022

Привет! Меня зовут Илья Макаров, я работаю архитектором решений и в статье расскажу про архитектуру цифровой платформы НЛМК, из каких компонент, помимо Apache Kafka, она состоит, к каким соглашениям по именованию топиков и договоренностям по передаче данных мы пришли, как всем этим управляем.

А это сразу ссылка на часть 2.

Читать далее
Всего голосов 23: ↑23 и ↓0 +23
Просмотры 5.8K
Комментарии 2

Технологии NiFi & Kafka: применение (часть 1)

Блог компании Usetech Java *Apache *Управление разработкой *

Добрый день, меня зовут Рустам Ахметов, я архитектор ГК Юзтех и интеграционной шины данных UseBus. В этой статье я расскажу о нашем опыте разработки продукта и выборе технического стэка. Хочу добавить, что я буду давать лишь поверхностный Helicopter view на продукты и их аналоги.

Из статьи вы узнаете:

Читать далее
Всего голосов 12: ↑10 и ↓2 +8
Просмотры 3.6K
Комментарии 2

Технология NiFi: применение (часть 2)

Блог компании Usetech Java *Apache *Управление разработкой *

Добрый день, меня зовут Рустам Ахметов, я архитектор ГК Юзтех и интеграционной шины данных UseBus. В предыдущей статье я рассказывал о Kafka и её аналогах, а сегодня хочу рассмотреть NiFi.

Вы узнаете:

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Просмотры 2.8K
Комментарии 3

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

Блог компании Группа НЛМК Системное администрирование *IT-инфраструктура *Big Data *

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.

Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Service портале.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 3.1K
Комментарии 2

Мониторинг в Apache NiFi. Часть первая

Блог компании Neoflex Open source *Apache *Big Data *

Apache NiFi динамично развивается и на сегодняшний день обладает достаточно большим набором возможностей, позволяющим отслеживать состояние потоков данных, ошибки и предупреждения, возникающие в процессорах и на кластере, а также состояние кластера.

Первая статья посвящена мониторингу потоков данных с помощью инструмента GUI NiFi. В последующих материалах мы рассмотрим задачи отчетности, опишем примеры сбора метрик и визуализации при помощи таких популярных систем, как Prometheus и Grafana.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 2.9K
Комментарии 1

Мониторинг в Apache NiFi. Часть вторая

Блог компании Neoflex Apache *Big Data *

Задачи отчетности (Reporting Tasks)

В первой статье мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi. Теперь рассмотрим, как передать необходимые метрики и отчеты об ошибках и состоянии кластера во внешние системы. NiFi предоставляет возможность сообщать о состоянии, статистике, показателях и информации мониторинга внешним службам с помощью интерфейса задач отчетности (Reporting Task).

Apache NiFi предоставляет несколько вариантов задач отчетности для поддержки внешних систем мониторинга, таких как AmbariGrafana, Prometheus и т. д. Разработчик может создать пользовательскую задачу отчетности или настроить встроенные задачи для отправки метрик NiFi во внешние системы мониторинга.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.9K
Комментарии 5

Мониторинг в NiFi. Часть третья. Задачи отчетности Site-to-Site

Блог компании Neoflex Open source *Apache *Big Data *

В предыдущих частях мы рассмотрели вопросы мониторинга потоков данных и состояния системы средствами GUI NiFi и задач отчетности. В этой части поближе познакомимся с задачами отчетности Site-to-Site. При отправке данных из одного экземпляра NiFi в другой можно использовать множество различных протоколов, однако, предпочтительным является NiFi Site-to-Site. Данный протокол предлагает безопасную и эффективную передачу данных из узлов в одном экземпляре NiFi, производящем данные, на узлы в другом экземпляре, являющимся приемником этих данных.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 947
Комментарии 0