bmurashin Nov 11 2022 at 14:48

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

8 min

5.5K

X5 Tech corporate blogSystem administration*Big Data*Hadoop*

Comments 7

sshikov Nov 11 2022 at 19:58

Я вот знаете чего не понял… а почему более простое решение не годится? Ну вот скажем, такое — хадуп же для каждого файла хранит такую штуку как Summary, а именно, число файлов и папок внутри. занятое место (в блоках и гигабайтах). И запрос этой информации — он дешевый, т.е. он не вызывает самого подсчета, все что нужно — уже подсчитано, и возвращается за константное время.

Организуем рекурсивный спуск по дереву папок, или вложенные циклы по схемам, таблицам и партициям Hive, параллелим это любым доступным нам удобным способом — и вроде бы мы должны собрать подобную статистику за приемлемое время? Ну т.е. если у вас в наличии только команда hdfs dfs -count — она может и не очень, а вот Java API HDFS вполне себе гибкий для таких задач. Я бы тупо начал бы с того, что запустил спарк шелл, да распараллелил бы это все на несколько потоков.

bmurashin Nov 12 2022 at 09:46

У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно

Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count

sshikov Nov 12 2022 at 09:52

А, да, логично. У меня немного другая но похожая задача стояла, мне хватило. Но ваша идея интересная, да.

И еще мне кажется, что партиций в Hive все-таки минимум на порядок меньше, чем файлов — так что можно попробовать пробежаться по ним. У них есть даты модификации, во всяком случае у новых версий (в старом Cloudera 5.16 еще не было).

EvgenyVilkov Nov 13 2022 at 20:48

А что за сборка у вас?

bmurashin Nov 14 2022 at 08:00

HDP 2.6.5

EvgenyVilkov Nov 14 2022 at 08:31

Самосбор или вендорская?

bmurashin Nov 14 2022 at 09:34

вендорская hortonworks