Мы тоже уже начинаем что-то подозревать)) В любом случае мы взяли ПО с открытым кодом, сделали на его основе что-то полезное (пусть и в ограниченном наборе сценариев) и вернули это сообществу открыв наработку - это важно само по себе
У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно
Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count
Мы тоже уже начинаем что-то подозревать))
В любом случае мы взяли ПО с открытым кодом, сделали на его основе что-то полезное (пусть и в ограниченном наборе сценариев) и вернули это сообществу открыв наработку - это важно само по себе
вендорская hortonworks
HDP 2.6.5
У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно
Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count