У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно
Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
вендорская hortonworks
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
HDP 2.6.5
Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию
У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно
Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count