Articles / Bookmarks / Profile of TheAceHome / Habr

@TheAceHome^{read⁠-⁠only}

User

Profile Bookmarks 3

vladislav_shevchenko Nov 7 2023 at 13:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Medium

14 min

15K

Альфа-Банк corporate blogData Engineering*DevOps*Big Data*Apache*

Tutorial

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

+19

asash Oct 5 2015 at 19:10

Big Data от А до Я. Часть 2: Hadoop

9 min

232K

DCA (Data-Centric Alliance) corporate blogBig Data*Hadoop*

Tutorial

Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.

Читать дальше →

+32

olga_rogova Oct 17 2022 at 01:07

BigQuery. Что делать, если повредил или случайно удалил таблицы

3 min

7.8K

SQL*Google Cloud Platform*Data Engineering*

Как быть, если случайно удалил или повредил таблицу в BigQuery? Первое о чем нужно помнить: BigQuery хранит состояние вашей существующей таблицы на любой момент времени в течение прошедших 7 дней + у вас есть 2 суток, чтобы восстановить случайно удаленную таблицу. Рассмотрим, как это все провернуть.

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Big Data от А до Я. Часть 2: Hadoop

BigQuery. Что делать, если повредил или случайно удалил таблицы

Information

Specialization