Pull to refresh
4
0
Борис Мурашин @bmurashin

Hadoop engineer

Send message

Мы тоже уже начинаем что-то подозревать))
В любом случае мы взяли ПО с открытым кодом, сделали на его основе что-то полезное (пусть и в ограниченном наборе сценариев) и вернули это сообществу открыв наработку - это важно само по себе

У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно

Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

hadoop engineer
Lead