Как стать автором
Обновить

Комментарии 2

Статья хороша. Спасибо.

Увидел среди технологий fuse... Этот? https://www.kernel.org/doc/html/latest/filesystems/fuse.html
Не было проблем с его эксплуатацией? Типа двойной перегонки данных в юзерспейс? Или заплипания процессов в D-state при проблемах в пользовательском процессе? Я знаю многих админов, которые крайне не рекомендуют пользоваться решениями с fuse в том числе из-за указанных проблем.

Добрый день.

Да, FUSE в нашей статье упоминался дважды: мы использовали пакеты hadoop-hdfs-fuse для интеграции с HDFS и ceph-fuse для интеграции с CephFS. Оба как раз используют технологию Filesystem in Userspace. У нас было в разы больше случаев проблем при использовании hadoop-hdfs-fuse, так как это чуть ли единственный способ интеграции на уровне файловой системы с HDFS. С Ceph мы эту технологию протестировали -> убедились, что она медленнее -> не используем. Основной проблемой его эксплуатации с HDFS была ситуация, когда коннектор просто переставал работать на любом из серверов с ошибкой "Input-output error" и абсолютно неинформативным выводом. При работе с HDFS именно залипаний в D-state не припоминаю. Наибольшая корелляция проблем с бэкапом и появлением таких ошибок была замечена при:

  1. переключении нейм-ноды;

  2. длительный stale у дата-нод в HDFS;

  3. какие-либо сетевые перегрузки.

Для монтирования CephFS мы не используем FUSE, а используем KERNEL DRIVER (mount.ceph), и у нас с ним были проблемы с D-state. Процессы в таком состоянии, зачастую, могут привести к необходимости перезагрузки сервера. Чтобы не перезагружать сервера, мы смотрели cat /sys/kernel/debug/ceph/*/osdc, уже там смотрели на каких OSD у нас зависли чтение или запись, а затем точечно перезапускали OSD, переведя кластер в ceph osd noout.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий