lovecraft Oct 4 2012 at 07:41

ZFS on Linux — не все так просто

4 min

53K

Configuring Linux*System administration*

From sandbox

+40

Comments 56

datacompboy Oct 4 2012 at 08:21

Спасибо, мне хватило глюков btrfs и xfs. Вернусь-ка я на свой старый добрый рейзер3…

DLag Oct 4 2012 at 09:01

Не в курсе какие там новости о reiser4?
Начало было очень неплохое, но как-то все заглохло…

datacompboy Oct 4 2012 at 09:05

думаю, что вопрос будет подниматься после освобождения рейзера. И вопрос будет — сразу хоронить, или сперва вспомнить как это, программировать на не-квантовых компах

Zay4egg Oct 4 2012 at 10:02

Недавно была новость, что вышел патч для ядра 3.5.3. Собственно на sourseforge и лежит: sourceforge.net/projects/reiser4/

Zelgadis Oct 4 2012 at 16:51

Готовится следующее жертвоприношение.

merlin-vrn Oct 4 2012 at 09:17

в моей практике всё наоборот.

reiserfs использовал с ядра 2.4.17 (да, ещё из тех времён), e3, e4 — как появилась.

ext-фс ни разу не помирали. Хотя бы с рутом в read-only система стартует и даже по ssh подключиться можно.

reiser3 помирала трижды (до невосстанавливаемого состояния), причём один раз был баг известный (пофикшен кажется в 2.4.18, cвязан с файлами больше 2 Гб), а два раза ФС падала сама по себе без видимых причин. А иногда, когда система не помирала насовсем, удалённо починить всё равно было нельзя — она не монтировалась, пока руками не сделаешь fsck --fix-fixable.

На третий раз — в 2006 году — я решил, что это закономерность, и забыл про неё навсегда. С тех пор у меня в линуксах ФС вообще ни разу не умирали, потому, что это ext3 или ext4.

Так что хе-хе, «вернуться в reiser3» — это наверное самый страшный из кошмаров.

datacompboy Oct 4 2012 at 09:22

рейзер сдыхал у меня два раза. один раз — мой косяк с рейдом, один раз — бедблок посреди журнала.
вот последнее её убило совсем, данные слил без проблем на винде (!!). там читалка рейзера журнал не умеет, и его просто игнорит — слилось всё, потерь в важных данных не нашел никаких.

ext4 заглючивал буквально недавно и очень неприятно — см.ниже.
еще с ext4 ноут регулярно требовал ребута — fs падала в RO из-за внутренней неконсистентности.
при ребуте fsck что-то чинило и всё работало дальше без проблем. надоело, на btrfs такого нет.
но «засыпание» диска на btrfs надоедает

vasilisc Oct 4 2012 at 09:44

мне кажется рейзер никогда не был в mainstream и теперь вообще не в фаворе.
гугл уже вроде всем объяснил, что ext4 без журнала на UPS это «нашевсио».

unclechu Oct 4 2012 at 19:32

А что с XFS не так, если не секрет? Я пользуюсь давно только ей, никаких нареканий пока не было.

SarganSaor Oct 4 2012 at 08:48

Не холивара ради… Я поддерживаю исследовательское начало linux комьюнити, новые фишки это прекрасно. Но вряд ли решусь использовать в продакшене что-то кроме ext4+lvm. Имхо btrfs, zfs пока для экспериментов и торрентохранилок.

datacompboy Oct 4 2012 at 09:05

спасибо, ext4 у меня в продакшене тоже уже сыпалось так, что я на btrfs перешел. оно стабильнее.

SarganSaor Oct 4 2012 at 09:16

Чудеса. Как же ее нагнуть надо было чтобы она посыпалась? А btrfs разве еще не experimental?

datacompboy Oct 4 2012 at 09:19

Всего-то на раздел писались бакапы. В один «прекрасный» день, места — ноль.
«du -hs .» говорит «тут файла на 25гиг». «df -h .» говорит «тут заняты все 50».
смотрю ls -la — файлов свежих нет просто половины.
размонтировал, fsck — найдена потеря, чего-то там фиксед. монтирую обратно — всё на месте, du/df сходятся.

повторялось раза три. ядра 3.2.0 и 3.4.1.
на btr худшее пока что ловил — это просадка IO до невозможного уровня.

leave Oct 4 2012 at 10:38

Ага, и дикие тормоза при fsync().

equand Oct 4 2012 at 11:25

Пользуем zfs в продакшне, правда на BSD :)
Вполне стабильно.
Есть noreturn проблемы, но они есть на всех фс (например поломка дисков в райд, при некотором стечении обстоятельств можно потерять пул).

scorched Oct 4 2012 at 09:19

Сразу извиняюсь за ламерский вопрос.

Чем zfs лучше, чем btrfs? Или в каких случаях может понадобиться использовать именно zfs?

ufoton Oct 4 2012 at 09:26

Тем что на solaris (и возможно на freebsd) она уже стабильна. Btrfs ещё не стабильна ни где.

Evengard Oct 4 2012 at 09:27

дедупликации у Btrfs пока нету как минимум.

vasilisc Oct 4 2012 at 09:47

да там всё завтраками кормят про RAID 5,6.
а вы про дедупликацию…

datacompboy Oct 4 2012 at 09:30

ZFS решает рейд на уровне ФС (до сих пор не могу понять зачем этот не-UNIX-way придуман)
у ZFS снапшоты / роллбэки / бакап по-фичастей
ZFS как бы stable (на соляре), btrfs experimental всюду

vasilisc Oct 4 2012 at 09:46

рейд не делается на уровне ФС, поэтому ZFS и «нарушает» слои.
LVM + ФС = ZFS образно говоря

datacompboy Oct 4 2012 at 09:49

о чем я и говорю. единственный плюс от такого нарушения — у рейда есть точные данные о фактической занятости блоков. но хорошо ли это? и можно ли передать эти данные более другим способом?

al1e Oct 4 2012 at 10:01

не холивара ради… почему «не-UNIX-way»? что в этом плохого?

datacompboy Oct 4 2012 at 10:02

unix-way это четкое разделение ответственности. 1 задача решается одной утилитой и решается хорошо.
сложная задача решается суперпозицией маленьких, отлаженных утилит.
ZFS сливает в себя функции LVM, mdadm, дедупликатора, вроде как еще и drbd, еще и ФС…

merlin-vrn Oct 4 2012 at 12:32

в отличие от drbd оно работает через iscsi как с обычным scsi-устройством, не задумываясь, что через сеть, так что его «не сливает». drbd было бы если бы они свой сетевой протокол придумали, а не использовали iscsi

iZENfire Nov 10 2012 at 18:42

ZFS готова к продакшену на FreeBSD с сентября 2009 года: svnweb.freebsd.org/base?view=revision&revision=197221

vasilisc Oct 4 2012 at 09:57

у ZFS есть множество вкусняшек.
мне нравится тот факт, что ZFS исходит из факта, что устройство может ошибаться, и дополнительно контролирует блоки данных с помощью 256-битных контрольных сумм.

для полной уверенности есть scrubbing
xgu.ru/wiki/ZFS

xiWera Oct 4 2012 at 10:05

то есть производительность этой FS-переростка ниже плинтуса?

dmitri_k Oct 4 2012 at 11:05

У нее крутая производительность.

Работаю с ZFS где-то с 2006 года, отличная штука.

Если хотите серьезный файл сервер с солидной нагрузкой — забудьте о Linux и тем более о Windows. Кстати не пробовал ZFS на FreeBSD. Говорят что она там хорошо уже работает.

Мои любимая конфигурация раскидать pool на несколько серверов зеркалом через iSCSI и получить по сути онлайн backup который содержит все данные до самого падения. А не какой-то ночной вариант.

equand Oct 4 2012 at 11:28

На БСД с онлайн бекапом пока плохо (iscsi не умеет immediate mode пока что).
Но можно добиться этого с помощью HAST, правда бекап будет на уровне пулов а не самой бсд.

equand Oct 4 2012 at 11:28

в конце не бсд, а фс.

xiWera Oct 4 2012 at 12:53

А кто вам сказал про файл сервер? Нужен доступ к файлам из операционной системы. У автора, к примеру, сервер виртуалок, а не «файловый сервер».

а вообще под линухом LVM+ваша любимая fs решает все задачи ZFS.

Zelgadis Oct 4 2012 at 17:01

Виртуалки как раз кошернее на ZFS:
1) Каждая виртуалка созданная по образу это снэпшот фс эталона.
2) Zfs легко позволяет «хостить» блочные разделы внутри себя.
3) Загрузка образа эталона это zfs export | zfs import.

Посмотрите на то как SmartOS использует ZFS.

xiWera Oct 4 2012 at 23:08

1) в lvm тоже есть снапшоты, и их поддерживают многие fs, вообще для вашего случая именно снапшоты необязательные. Достаточно copy on write в файловой системе.

2) любой файл в линухе через loop превращается в блочный раздел

3) исходя из вышеописанного rm,cp :)

вобщем вы придумали способ использовать zfs, но это не значит что это нельзя сделать другими средствами.

Zelgadis Oct 5 2012 at 03:29

> 1) в lvm тоже есть снапшоты, и их поддерживают многие fs, вообще для вашего случая именно снапшоты необязательные. Достаточно copy on write в файловой системе.

Видел я снапшоты в LVM — не надо такого.

> 2) любой файл в линухе через loop превращается в блочный раздел

этот а тут это делается из коробки, да еще и iscsi можно экспортировать прямо из zfs. И настроить zfs можно конкретно под этот раздел. Удобнее чем в мерзком линуксе с мерзким lvm.

> вобщем вы придумали способ использовать zfs, но это не значит что это нельзя сделать другими средствами.

Не важно «что» важно «как»

xiWera Oct 5 2012 at 08:05

2) это тоже «из коробки» вообщето, причем из гораздо более доступной коробки, которая ставится сразу в любом дистре :)

учитывая столько лишних лэеров в zfs, то это самое «как» с zfs получается мягко скажем «не прямым путём»…

Zelgadis Oct 5 2012 at 15:16

Это в ZFS много слоев? в 97% ситуациях все будет делать утилита zfs. Это в LVM + fs надо будет использовать пять разных утилит.

xiWera Oct 5 2012 at 15:52

Вот что значит пользователь а не разработчик… конечно в zfs внутри много слоёв, чего стоит только описанный в статье scl

umask00 Oct 4 2012 at 18:07

Увы, LVM довольно тормозная система, в которой вовсе не предусмотрена дедупликация или сжатие.

Да, я использую LVM, много где помогает. Там где мне нужны снапшоты и стабильность, там LVM + ext4.
Но при активном снапшоте производительсноть системыможет падать до минимально допустимого (ночью) уровня.

xiWera Oct 4 2012 at 19:57

Это довольно громкое заявление «тормозная система». Кроме того я не зря написал "+ ваша любимая фс". LVM делает ровно ту работу, которая на нее возложена. Дедупликация на её уровне несколько бессмысленная не находите?

Я бы не использовать ext4 там где «нужна стабильность», так как в одном из худших сценариев, её восстановление займёт время квадратично её размеру…

iZENfire Nov 10 2012 at 18:54

> а вообще под линухом LVM+ваша любимая fs решает все задачи ZFS.

Допустим, есть софтверный RAID-5 (+ любимая ФС), с которого производится чтение данных. Как определить, что один из дисков в программном RAID-5 начинает сыпаться?

ZFS делает это очень легко и непринуждённо on-line, причём без потери данных и без вывода мусора — в случае с вашим программным RAID-5 будет отдаваться мусор, пока не сделают проверку и ребилд массива. Cыплющийся носитель в пуле ZFS будет оставаться в строю, пока до конца не «замолчит».

xiWera Nov 11 2012 at 04:53

cat /proc/mdstat :)

iZENfire Nov 12 2012 at 06:57

Сыплющийся, но не отвалившийся от RAID-5 винчестер покажет?

xiWera Nov 12 2012 at 07:55

У меня показывал, метил как «unchecked» и начинал авто перепроверку.

iZENfire Nov 12 2012 at 09:00

То есть команда «cat /proc/mdstat» проводит экспересс-диагностику массива и запускает, если обнаружен сыплющийся носитель, проверку всего массива, я правильно понял логику работы?

xiWera Nov 12 2012 at 09:17

нет, комманда cat /proc/mdstat показывает содержимое прок-файла /proc/mdstat в котором в текстовом виде отображено текущее состояние массивов.

iZENfire Nov 12 2012 at 09:45

«zpool status» тоже показывает состояние пулов в текущий момент времени. LUN пула может быть в трёх состояниях: выключен из массива, резильверинг (обновление на нём информации) и в работе.

xiWera Nov 12 2012 at 10:29

Хмм… вы спросили «как определить» я написал. Перепроверка рейда же делается автоматически если один из дисков выдал ошибку на записть.

lovecraft Oct 4 2012 at 10:59

Ну, я поставил ZFS ради одной вещи — L2ARC. Эта штука позволяет подключать SSD-диск в качестве кэша к дисковому тому. Правда кэширование — только на чтение. Под Linux тоже есть что-то в этом духе, но не мейнлайн-ядре и с непонятной поддержкой.

Дедупликация — это, конечно, модно, но экономит только место, а не IOPS. Дедупликация хороша для виртуальных сред, но все равно проигрывает thin provisioning средствами гипервизора или блочного устройства (например, Device Mapper-а в Linux).

Компрессия тоже экономит место, и немного — IOPS, но размер экономии сильно зависит от самих данных.

Так что какая ФС лучше, надо смотреть «по месту».

dmitri_k Oct 4 2012 at 11:07

Там есть а-ля кэш на запись. Точнее log device.

ZIL называется. Ускоряет запись на медленные устройства.

ColorPrint Oct 4 2012 at 19:08

да, L2ARC на SSD тоже используем на высоконагруженных серверах под видеостриминг, очень эффективно работает.

egorF Oct 4 2012 at 19:10

Компрессия экономит IOPSы на маленьких файликах очень сильно. Compilebench показывает на btrfs+компрессия вдвое большую производительность практически всех тестов по ср. с btrfs без компрессии.

umask00 Oct 4 2012 at 11:19

Полностью поддерживаю автора, он рассказал о том, чего в действительности важно почти всегда, но было не важно в моём случае.

У меня опыт работы с ZFS — это исключительно задача, допускающая потерю данных и баги. Если будет совсем бажить, то можно от ZFS отказаться и использовать ext4.

Конечно, вся надежда на BTRFS, но когда её приведут в удобоваримый вид совсем не ясно.

lovecraft Oct 4 2012 at 11:32

Использовал ее для той же задачи — файл сервер с некритичными данными. Сама ФС, как я понимаю, сверхстабильна, и в случае чего, можно снять диски, закинуть их на сервер с OpenIndiana и починиться. Но вот реализация конкретно для Linux не то чтобы рановата для продакшена, но должна использоваться с оговорками. Вот об оговорках я и написал ).

Надеюсь, через год можно будет внедрять в ответственных проектах. А вот когда допилять btrfs — вопрос. ZFS, по крайне мере, стабильно работает на Solaris, а btrfs стабильно пока нигде не работает.

dmitri_k Oct 4 2012 at 12:13

Как я понял историю с btrfs то забойщиком по ее созданию был Oracle.

Я думаю после покупки Sun btrfs для Oracle стал неактуален. Они не позиционируют Linux как операционку для тяжелых задач и зачем им собственно делать btfrs когда они продают Solaris.

Я думаю когда они говорят что они полностью продолжат работать над Linux, то они слегка лукавят. Им необходимо будет как то их дифференцировать.

dmitri_k Oct 4 2012 at 12:17

Только что сейчас глянул,

говорят что портируют DTrace и Containers на Linux.

Ни слова о ZFS. Это естественно, им я думаю уже и Nexenta как гвоздь в заднице.