Pull to refresh
2
0
Борис Мурашин @bmurashin

Hadoop engineer

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно

Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count

Information

Rating
Does not participate
Registered
Activity

Specialization

hadoop engineer
Lead