Как стать автором
Обновить
15
27

Пользователь

Отправить сообщение

Выбираю Open Source БД для себя

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.6K

Задача такая: искал Open Source БД для своего пет-проекта. Решил посмотреть в интернете новые решения в рамках БД. После чтения статей и отбора из 6-7 БД остались три (3), которые понравились лично мне. Больше ничего путного не нашел. 

Почему именно эти? Во-первых, они Open Source, а во-вторых, у них есть ответы на два главных моих вопроса «Для чего это нужно?» и «Работает ли из коробки?».

Давайте покажу на примерах.

Читать далее
Всего голосов 31: ↑27 и ↓4+27
Комментарии15

Руководство по Apache Spark не для начинающих: оптимизация

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров5.7K

Руководство по Apache Spark не для начинающих.

В прошлой статье я писал о возможностях и функциях Apache Spark для обработки данных. Мы сосредоточились на ключевых функциях чтения, обработки и сохранения данных, не забывая о примерах кода, которые помогут новичкам быстро включиться в работу.

В этой статье мы пойдём глубже и рассмотрим оптимизацию. Сосредоточимся на базовых концепциях, оптимизации запросов и соединениях. Конечно же, с примерами.

Читать далее
Всего голосов 25: ↑22 и ↓3+22
Комментарии5

SPARK для «малышей»

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров12K

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

Читать далее
Всего голосов 25: ↑25 и ↓0+26
Комментарии0

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров13K

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

Читать далее
Всего голосов 23: ↑21 и ↓2+19
Комментарии9

Информация

В рейтинге
278-й
Зарегистрирован
Активность