Articles / Profile of Falcon

@Falcon_eye

User

ProfileArticles6PostsNewsComments7

Falcon_eye Jan 11 at 14:55

Apache Kafka… Basics to drive

Medium

5 min

2.2K

Data Engineering*Data storagingBig Data*

Review

Apache Kafka is a distributed event-streaming platform designed to handle real-time data feeds. It allows applications to publish, process, and subscribe to streams of data in a highly scalable, fault-tolerant manner.

Falcon_eye Jul 24 2024 at 21:15

How to set up Apache Airflow for 10 minutes via Docker

Medium

2 min

Data Engineering*Python*Big Data*

Tutorial

Prerequisites:
1. Install Docker
2. Install VSCode

STEP BY STEP

1. Open VSCode that you previously installed and click on "Extensions" tab right on the menu bar, then type 'docker' to find proper extension and click "install":

Falcon_eye Jul 24 2024 at 13:46

Как установить Apache Spark за 10 минут

Medium

2 min

3.5K

Big Data*Data Engineering*

Tutorial

Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!

Falcon_eye Jul 15 2024 at 12:32

Вопросы по Apache Spark к собеседованиям для Data Engineer

Medium

10 min

6.7K

Data Engineering*

Review

Recovery Mode

Рассмотрены разделы теории для прохождения блока технический собеседований на позицию Data Engineer по архитектуре и функционалу Apache Spark.

Falcon_eye Nov 29 2023 at 15:33

Apache Spark… Это база

Medium

6 min

13K

Data Mining*Apache*Big Data*Data Engineering*

Review

✏️ Technotext 2023

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Falcon_eye Nov 25 2023 at 20:11

Оптимизация запроса и запрос оптимизации

Medium

3 min

6.4K

Data Engineering*Hadoop*SQL*Database Administration*

From sandbox

Recovery Mode

Как не грабить память, не пытать диск, не мучать кластер. Или делать все это всего одним запросом на Impala к Hadoop.

Среди задач аналитиков данных, в рамках которых необходимо иметь дело с большими объемами однотипных данных, выделяются задачи построения витрин данных, автоматизации процессов сбора и обработки данных. Многие аналитики используют различные реляционные базы данных, в таблицах которых хранятся огромные объемы информации, агрегация и доступ к которым может занимать долгое время, поэтому правильное составление и оптимизация запросов к этим таблицам становится критически необходимым фактором для работы аналитиков, инженеров данных и data scientist.