Search
Write a publication
Pull to refresh
1
0
Send message

Вопросы по Apache Spark к собеседованиям для Data Engineer

Level of difficultyMedium
Reading time10 min
Views6.7K

Рассмотрены разделы теории для прохождения блока технический собеседований на позицию Data Engineer по архитектуре и функционалу Apache Spark.

Читать далее

Apache Spark… Это база

Level of difficultyMedium
Reading time6 min
Views13K

Apache Spark — это фреймворк для обработки и анализа данных, который позволяет выполнять операции на вычислительных кластерах и поддерживает несколько языков программирования: Scala, Java, Python, R и SQL.

В статье рассмотрим основные понятия для понимания обработки данных на Spark, разберем функционал его компонентов и сформируем DataFrame разными способами.

Читать далее

Оптимизация запроса и запрос оптимизации

Level of difficultyMedium
Reading time3 min
Views6.4K

Как не грабить память, не пытать диск, не мучать кластер. Или делать все это всего одним запросом на Impala к Hadoop.

Среди задач аналитиков данных, в рамках которых необходимо иметь дело с большими объемами однотипных данных, выделяются задачи построения витрин данных, автоматизации процессов сбора и обработки данных. Многие аналитики используют различные реляционные базы данных, в таблицах которых хранятся огромные объемы информации, агрегация и доступ к которым может занимать долгое время, поэтому правильное составление и оптимизация запросов к этим таблицам становится критически необходимым фактором для работы аналитиков, инженеров данных и data scientist.

Читать далее

Information

Rating
Does not participate
Registered
Activity