Обновить
0
0

Пользователь

Отправить сообщение

Apache Kafka… Basics to drive

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели1.5K

Apache Kafka is a distributed event-streaming platform designed to handle real-time data feeds. It allows applications to publish, process, and subscribe to streams of data in a highly scalable, fault-tolerant manner.

Read more

How to set up Apache Airflow for 10 minutes via Docker

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели2.5K

Prerequisites:
1. Install Docker
2. Install VSCode

STEP BY STEP

1. Open VSCode that you previously installed and click on "Extensions" tab right on the menu bar, then type 'docker' to find proper extension and click "install":

Read more

Как установить Apache Spark за 10 минут

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели3.1K

Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!

Читать далее

Вопросы по Apache Spark к собеседованиям для Data Engineer

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.2K

Рассмотрены разделы теории для прохождения блока технический собеседований на позицию Data Engineer по архитектуре и функционалу Apache Spark.

Читать далее

Apache Spark… Это база

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели18K

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее

Оптимизация запроса и запрос оптимизации

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели7.7K

Как не грабить память, не пытать диск, не мучать кластер. Или делать все это всего одним запросом на Impala к Hadoop.

Среди задач аналитиков данных, в рамках которых необходимо иметь дело с большими объемами однотипных данных, выделяются задачи построения витрин данных, автоматизации процессов сбора и обработки данных. Многие аналитики используют различные реляционные базы данных, в таблицах которых хранятся огромные объемы информации, агрегация и доступ к которым может занимать долгое время, поэтому правильное составление и оптимизация запросов к этим таблицам становится критически необходимым фактором для работы аналитиков, инженеров данных и data scientist.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность