Comments / Profile of bmurashin / Habr

Борис Мурашин @bmurashin

Hadoop engineer

Profile Publications 1Comments 4Bookmarks 3

Как мы управляем инфраструктурой на более 1000 серверов при помощи Ansible

Мы тоже уже начинаем что-то подозревать))
В любом случае мы взяли ПО с открытым кодом, сделали на его основе что-то полезное (пусть и в ограниченном наборе сценариев) и вернули это сообществу открыв наработку - это важно само по себе

Look

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

bmurashin Nov 14 2022 at 12:34

вендорская hortonworks

Look

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

bmurashin Nov 14 2022 at 11:00

HDP 2.6.5

Look

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

bmurashin Nov 12 2022 at 12:46

У меня стояла задача найти брошенные таблицы, для этого надо было считать MAX(modificationtime), MAX(accesstime) GROUP BY folder. Если делать это через API, для modificationtime придётся перебрать все папки (modification time у папок равно самому последнему для файлов непосредственно внутри них), для accesstime - все файлы (у папок access time всегда 0). Шерстить 70 млн файлов накладно

Если такой задачи не стоит, то да, отличный вариант. Гораздо лучше hdfs dfs -count

Look

Information

Specialization