Hadoop *

Фреймворк для распределённых приложений

Статьи Посты Новости Авторы Компании

MaxRokatansky 26 янв 2021 в 13:44

Масштабирование итеративных алгоритмов в Spark

5 мин

1.3K

Блог компании OTUSАлгоритмы*Apache*Машинное обучение*Hadoop*

Перевод

Итеративные алгоритмы широко применяются в машинном обучении, связанных компонентах, ранжировании страниц и т.д. Эти алгоритмы усложняются итерациями, размеры данных на каждой итерации увеличивается, и сделать их отказоустойчивыми на каждой итерации непросто.

В этой статье я бы подробно остановился на некоторых моментах, которые необходимо учитывать при работе с этими задачами. Мы использовали Spark для реализации нескольких итерационных алгоритмов, таких как построение связанных компонентов, обход больших связанных компонентов и т.д. Ниже приведен мой опыт работы в лабораториях Walmart по построению связанных компонентов для 60 миллиардов узлов клиентской идентификации.

MaxRokatansky 25 янв 2021 в 16:47

Руководство по столбчатым форматам файлов в Spark и Hadoop для начинающих

5 мин

2.8K

Блог компании OTUSApache*Hadoop*Data Engineering*

Перевод

Что из себя представляет «столбчатый формат файла»?

Этот термин часто используется, но я не уверен, что всем до конца ясно, что он означает на практике.

Определение из учебника гласит, что столбчатые (колоночные, многоколоночные, columnar) форматы файлов хранят данные по столбцам, а не по строкам. CSV, TSV, JSON и Avro — традиционные строковые форматы файлов. Файл Parquet и ORC — это столбчатые форматы файлов.

Давайте проиллюстрируем различия между этими двумя концепциями, используя примеры некоторых данных и простой наглядный столбчатый формат файла, который я только что придумал.

MaxRokatansky 20 ноя 2020 в 15:49

Экономичная конфигурация исполнителей Apache Spark

7 мин

4.1K

Блог компании OTUSHadoop*Apache*Программирование*

Перевод

Первый этап в определении оптимальной конфигурации исполнителей (executor) - это выяснить, сколько фактических ЦП (т.е. не виртуальных ЦП) доступно на узлах (node) в вашем кластер. Для этого вам необходимо выяснить, какой тип инстанса EC2 использует ваш кластер. В этой статье мы будем использовать r5.4xlarge, который, согласно прейскуранту на инстансы AWS EC2, насчитывает 16 процессоров.

Когда мы запускаем наши задачи (job), нам нужно зарезервировать один процессор для операционной системы и системы управления кластерами (Cluster Manager). Поэтому мы не хотели бы задействовать под задачу сразу все 16 ЦП. Таким образом, когда Spark производит вычисления, на каждом узле у нас остается только 15 доступных для аллоцирования ЦП.

digitalsibur 16 ноя 2020 в 17:10

Sibur Challenge 2020 — онлайн-чемпионат по анализу промышленных данных

2 мин

2.3K

Блог компании Цифровой СИБУРBig Data*DevOps*Hadoop*

Привет, Хабр!

Мы уже в третий раз запускаем чемпионат по Data Science совместно с сообществом экспертов и команд по искусственному интеллекту AI Community. В этом году соревнование пройдет полностью в онлайн, а призовой фонд составит 1 миллион рублей.

Главное о чемпионате:

Стартуем 21 ноября, собираем заявки до 13 декабря, победителей объявим 19 декабря
Решать кейсы можно индивидуально или с командой
Подать заявку могут все (вообще все, вне зависимости от опыта и места жительства), за исключением наших действующих сотрудников, увы
Призовой фонд — 1 000 000 рублей, а лучшие участники могут получить стажировки и вакансии.

Подробнее о задачах 2020 — под катом.

Hadoop *

Никому не нужна Big Data