Pull to refresh
3
0
Борис Мурашин @bmurashin

Hadoop engineer

Send message

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

Reading time 8 min
Views 4.7K

Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.

Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.

Читать далее
Total votes 6: ↑6 and ↓0 +6
Comments 7

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

hadoop engineer
Lead