Что такое конвейер данных? И почему вы должны это знать / Хабр

Конвейер данных (Data Pipeline) - это последовательность шагов для обработки данных. Если данные еще не присутствуют в платформе данных, они поступают в начале конвейера. Затем конвейер обрабатывает данные через ряд этапов, где выход каждого этапа становится входом следующего. Этот процесс продолжается до тех пор, пока конвейер не будет завершен. В некоторых случаях независимые этапы могут выполняться одновременно.

Конвейеры данных (Data Pipelines) состоят из трех основных компонентов: источника, одного или нескольких этапов обработки и пункта назначения, который также может называться стоком. Они позволяют перемещать данные из приложения в хранилище данных, из озера данных в аналитическую базу данных или в систему обработки платежей, среди прочих примеров. Конвейеры данных могут также изменять наборы данных, когда источник и место назначения совпадают. Когда данные обрабатываются между двумя точками (или более), между этими точками существует конвейер данных.

Организации, создающие микросервисы - приложения с небольшой кодовой базой, служащие конкретной цели, - все чаще передают данные между несколькими приложениями. Таким образом, эффективность конвейеров данных имеет решающее значение при планировании и разработке. Один комментарий в социальных сетях может генерировать данные для нескольких приложений, включая отчет в реальном времени, подсчитывающий упоминания в социальных сетях, приложение для анализа настроений или приложение, которое отображает упоминания на карте. Несмотря на то, что источник данных один и тот же, каждое приложение зависит от уникального конвейера данных, который должен эффективно работать, чтобы конечный пользователь увидел результаты.

Типичные этапы конвейеров данных включают преобразование, расширение, обогащение, фильтрацию, группировку, агрегирование и выполнение алгоритмов на основе данных.

Что такое конвейер больших данных? (Big Data Pipeline)

В связи с массовым ростом объема, разнообразия и скорости данных в последние годы архитекторы и разработчики вынуждены адаптироваться к миру "больших данных". Этот термин подразумевает большой объем данных, который позволяет использовать такие варианты использования, как предиктивная аналитика, отчетность в реальном времени, оповещение и многие другие.

Конвейеры данных, как и другие компоненты архитектуры данных, эволюционировали для поддержки больших данных. Конвейеры больших данных предназначены для обработки одной или нескольких из трех характеристик больших данных. Например, скорость больших данных делает привлекательным создание потоковых конвейеров данных для больших данных, которые могут собирать и обрабатывать данные в режиме реального времени. Объем больших данных требует масштабируемых конвейеров данных, способных обрабатывать переменные объемы с течением времени. События, связанные с большими данными, часто происходят одновременно или близко друг к другу, поэтому конвейеры больших данных должны быть способны обрабатывать значительные объемы данных одновременно. Разнообразие больших данных требует, чтобы конвейеры больших данных распознавали и обрабатывали данные в различных форматах, включая структурированные, неструктурированные и полуструктурированные данные.

Примеры архитектуры конвейера данных

Существуют различные архитектурные подходы к конвейерам данных, одним из популярных примеров которых является конвейер на основе пакетной обработки (batch-based pipeline). Например, система точек продаж может создавать множество точек данных, которые необходимо передавать в хранилище данных и аналитическую базу данных. Ниже приводится иллюстрация того, как может быть структурирован такой тип конвейера данных:

простой пример конвейера на основе пакетной обработки

Другим подходом является конвейер потоковых данных (streaming data pipeline), в котором данные обрабатываются в режиме реального времени по мере их генерации системой торговой точки. Этот конвейер может подавать данные в различные приложения, такие как хранилища данных, маркетинговые инструменты, CRM и даже обратно в систему торговой точки:

Эта диаграмма моделирует конвейер потоковых данных. Поток данных управляется фреймворком обработки потоков, где он может быть обработан и доставлен приложениям и/или решениям.

Архитектура Lambda (Lambda Architecture) - это третий тип конвейера данных, который сочетает в себе как пакетные, так и потоковые конвейеры. Она широко используется в средах больших данных, поскольку позволяет разработчикам решать как потоковые задачи в реальном времени, так и исторический пакетный анализ. Примечательной особенностью этой архитектуры является то, что в ней особое внимание уделяется хранению данных в сыром формате, что позволяет создавать новые конвейеры данных для исправления ошибок в предыдущих конвейерах или для облегчения новых типов запросов.

Архитектура Lambda учитывает как традиционный конвейер пакетной обработки данных, так и конвейер потоковой обработки данных в режиме реального времени. Она также имеет обслуживающий слой, который отвечает на запросы.

Вот и все!

Ребята, думаю, я действительно помог вам разобраться в этой теме, и теперь вы имеете представление о конвейере данных и о том, как он используется.

Спасибо, что прочитали это! С нетерпением жду ваших комментариев и предложений. 😎✌