Pull to refresh

Comments 116

Вроде ничего принципиально нового не написано, но подход и стиль изложения не дают остаться равнодушным :)
Отлично написано, спасибо, однако осталась не раскрыта тема «провала» связанного с выбором дешевой микроскопической флешки.
vogel, тема с выбором флэшки для этого хозяйства требует отдельного поста; он немного провокационный, уже написан, но еще не опубликован. Я не заставлю себя долго ждать ;-)
Прочитал в момент выхода. Спасибо большое ещё раз. Ваши статьи следует читать как минимум ради соблюдения принципа Крепсондо отличного слога!
bougakov, благодарю за ссылку. Если я правильно понял, там только кросс-вендорная статистика возвратов потребительских дисков, которые у меня обозначены «SATA дешевые». Т.е. автор не сравнивает между собой классы (SAS vs SATA), но сравнивает, в основном, производителей.

Тем не менее Ваш коммент отчасти восполняет пробел в моем субъективном выборе Seagate :)
Извините за возможный оффтоп, но после упоминания Андрей Саныча Бахметьева я вообще ни на секунду не сомневался, что будут использованы пластиковые бутылки. И точно
В один из дней мне настолько надоел весь этот аэродром, что я решил выпилить его в буквальном смысле: взял электропилу и вырезал круглое отверстие в корпусе (по решетке вентилятора), нарастив воздуховод куском пластиковой бутылки из-под минеральной воды Карма Дома.

А вообще, передавайте ему привет при случае.
Странная статья, не менее странные фразы по ходу («В среднем, очередной пост про NAS появляется примерно раз в полгода, и рассказывает о том, как поставить систему по документации.» — да нет, все ок, пишут о реальных вещах, а не про хранение документации; «Эта статья не для специалистов по серверному хранению данных, геймеров и прочих оверклокеров. На вас, коллеги, и так вся индустрия работает. Она для начинающих сисадминов, любителей UNIX-систем и энтузиастов свободного программного обеспечения.» — Геймеры и прочие оверклокеры на которых работает индустрия по разработке для них NAS...). Ну да шут с ними с фразами, это я наверное придираюсь скорее. Статья объемная, но ничего нового нет, я думаю так же собирал бы NAS на базе старого компьютера любой из хабражителей, достаточно очевидные вещи.
sphinks, в компетенции хабражителей лично у меня вообще никаких сомнений нет, а вот нерезиденты этого почетного клуба и прочие хабрагости по-прежнему запускают сервера на десктопном железе с ZFS. Статья помещена в хаб «Старое Железо», на новизну не претендую:)
Действительно как-то по незнанию запускал ZFS на архаичном железе года четыре назад. Правда ошибку понял уже на второй день, потому-что пришлось много читать что-бы понять отчего оно всё настолько медленно работало. Хотя там было несколько запутанее: я в PCI запихнул ASC-39160 PCI-X (пришлось на материнке конденсатор даже выпаять и припаять с «ногами» потому как мешал он длинную карту вставить) и этот контролер ещё и работал, что только добавило медлительности. Так-что статья ещё как актуальная для тех у кого куча хлама в наличии и кто в первый раз собирается собрать хранилище.
> Ого, как вам отказ всего массива на кучу ТБ из-за ошибки ОЗУ?
> Поэтому без лишних сожалений откладываем ZFS в сторону.

Только вот другие ФС и софтрейды ровно также «was not specifically designed to tolerate memory corruptions» и им снесёт крышу от флипа бита абсолютно также вплоть до полной невозможности восстановить данные, а в статье это почему-то представлено как ZFS-специфичная проблема.

Более того, именно ZFS благодаря чексуммам имеет все шансы обнаружить ошибку и не допустить битые данные до пользователя (а обнаружение ошибок скорее всего и является причиной «file system operations fail, and many times the whole system crashes», и именно это должно происходить при повреждении памяти вместо «тихого» чтения мусора вместо данных и повреждения ФС), а благодаря версионной архитектуре даже при повреждении данных на дисках в теории откатиться до рабочего состояния.

Мне посчастливилось словить не просто bit flip, а полноценно битую планку памяти сыпавшую мусором, и у меня есть основания полагать что только благодаря ZFS данные на дисках остались в сохранности — более того, после scrub я это знаю точно.

Касательно geom mirror — насколько я помню, оно очень любило разваливаться после перезагрузки по питанию, после чего восстанавливалось полным копированием одного диска на другой с очевидными последствиями для производительности и надёжности.
AMDmi3, благодарю за критику, именно такие комменты меня интересуют в данный момент. Специфика моих данных позволяет немного расслабиться по одиночным ошибкам, лишь бы не крякнулся весь массив (у меня он разборный). Про ZFS я увидел явное указание на возможный отказ всего массива, но отложил ZFS в основном из-за ОЗУ. Про UFS / GEOM такого же красного флага не увидел, если не лень, дайте, пожалуйста, ссылку. И очень рад, что Вас спас высокотехнологичный вантовый мост, дай Бог каждому. Отказы geom mirror на сбросе питания — согласен, фигово и медленно, но шпалу переложить проще, чем заново натянуть вантовый мост:)
> Про UFS / GEOM такого же красного флага не увидел, если не лень, дайте, пожалуйста, ссылку

Это должно быть очевидно и без флагов — повреждение памяти всегда приводит к непредсказуемым последствиям, независимо от ФС они могут стать фатальными. А вообще в том же исследовании есть глава 7 Beyond ZFS где в двух словах описывется такой же эксперимент с ext2 которую можно считать относительно близкой к UFS по структуре.

> Отказы geom mirror на сбросе питания — согласен, фигово и медленно, но шпалу переложить проще, чем заново натянуть вантовый мост:)

С одной стороны, вы пишете про «миф о RAID5» и связанную с ним опасность, с другой полная пересборка зеркала вас устраивает. Как-то это нелогично.
вижу, что на пост пришел таки специалист по хранению данных:) Давайте подумаем вместе.

Вероятность второго механического отказа при реконструкции RAID5 сопоставима с моим разборным массивом из N томов-зеркал (RAID1), если все мои зеркала уходят в длинную реконструкцию («плохой» отказ по питанию? замена половины дисков сразу?). Однако даже в таком случае второй отказ диска губит только одно зеркало из N, а не всех. Да и почему обязательно должен отказать второй диск в той же паре? Вероятно, но мало.

Другая опасность RAID5 — это проявление URE на дешевых монолитных томах около 12Тб и далее. В моем случае есть теоретически обоснованная устойчивость к URE, потому что размер каждого тома весьма далек от критической отметки.

Наконец, скорость. Мой разборный массив из зеркал ограничен по скорости восстановления шиной PCI, а вот насчет RAID5 я уже совсем не уверен. Интуитивно это будет еще в два-три раза медленнее. Ваша оценка? Сколько Тб в сутки соберет RAID5 на том хламе, который я использовал?

Не забываем про разборность и оффлайн хранение, это не монолитный RAID5. А что в ZFS? Там можно заданный Бизнесом кусок файловой системы отправить в оффлайн (отключить и убрать в шкаф данные за 2012 год)? Кажется, что-то такое было, но не совсем в моей постановке задачи. Расскажите, если знаете.

В целом ремонтопригодность у UFS / GEOM RAID1 считаю ощутимо выше, чем у RAID5 и у ZFS, особенно какими-нибудь попавшими под руку утилитами, ибо себя к суперспецам по восстановлению не отношу. Отказ технологичной ZFS меня пугает невозможностью вообще что-то предпринять. Мне нужен автомат Калашникова в сфере хранения данных, легкоразборный, ремонтопригодный, и без требований по ОЗУ (у меня его просто не было по экономическим причинам, о чем я уже говорил).
> вижу, что на пост пришел таки специалист по хранению данных:) Давайте подумаем вместе.

Я далеко не специалист по хранению данных, но 2 и 2 сложить могу.

> Вероятность второго механического отказа при реконструкции RAID5 сопоставима с моим разборным массивом из N томов-зеркал

Пусть вероятность выхода из строя диска при штатном использовании — p, вероятность выхода из строя при нагрузке возникающей при ребилде — P. Тогда с RAID5 вероятность потерять данные составит ~ p * (Nдисков-1) * P (навернулся один диск + навернулся второй при ребилде). С зеркалами это будет P * Nзеркал * Nребутов (считаем worst-case, т.е. все зеркала перестраиваются при ребуте) — напомню что когда gmirror перестраивается это по сути один диск без какой-либо избыточности, зато под нагрузкой. Не берусь считать какая вероятность больше и насколько, но игнорировать вторую никак нельзя. Потерю лишь части данных я за плюс не считаю — это всё равно потеря данных.

> В моем случае есть теоретически обоснованная устойчивость к URE

Обоснованная чем? Устойчивости к URE быть не может — если есть вероятность не прочитать блок то рано или поздно он не будет прочитан, если в этот момент не будет избыточности то ой.

> Наконец, скорость
> Не забываем про разборность и оффлайн хранение

Я замечу что агитирую не за «RAID5 вместо зеркала» а всего лишь за «RAID который не пересобирается целиком при ребуте». ZFS умеет и зеркало и несколько независимых массивов — соответственно ни со скоростью ни с отключением отдельных зеркал проблем не имеет, даже наоборот — можно воткнуть новый диск, переехать половину зеркала на него без уменьшения избыточности, а старую половинку убрать в архив, с возможностью восстановить зеркало из неё. Да и на raidz (RAID5) проблем со скоростью я лично не ощущаю — у меня 16T raidz2 (с двойной чётностью) на ST3000VX000-1CU166 даёт 300MB/s линейного чтения в обычном состоянии и почему-то 350MB/s в degraded без одного диска — в любом случае этого хватит чтобы записать новый диск на полной скорости.

> В целом ремонтопригодность у UFS / GEOM RAID1 считаю ощутимо выше, чем у RAID5 и у ZFS

Тут я соглашусь, учитывая простоту UFS, количество и обкатанность утилит. Однако целесообразней мне всё равно видится выбор ФС которая с большей вероятностью не потребует «ремонта» + бэкапы важных данных. А так у zfs есть утлита zdb — если совсем припечёт всегда можно расковырять том ей.
> Потерю лишь части данных я за плюс не считаю — это всё равно потеря данных.
Как правило при таких требованиях к железу и таком бюджете на хранение, данные не являются логически цельными. А судя по бюджету их критичность для бизнеса так себе.
Тут стоит предположить что потеря одного письма из архива писем будет несущественна ибо наверняка информация продублирована в «FW:» и «RE: RE: RE». Кроме того такие системы строятся по принципу «чтобы було тут рядом», ибо примонтировать диск с архивом в NAS за пятьсот американских рублей гораздо дешевле, чем бежать в бумажный архив. И если из полумилиона файлов один не откроется… ну велика беда… А вот если не откроется все — то грош цена такому NAS.
Все определяется стоимостью и задачей. В том числе и критерий «надежность».
Это всё понятно, но я всё же вижу противоречия и не вижу логики. RAID делается, значит наверное данные важные, бэкапы не делаются, значит наверное не важные. Затрагивается тема bit flip, значит наверное пипец какие важные, однако потом выясняется что периоды когда зеркало находится без избыточности и потеря одного зеркала из нескольких некритична. Вполне возможно что raid тут и не нужен совсем, а диски можно было пустить под бэкапы.

А касательно потери информации, речь как-бы идёт не об одном файле из полумиллиона, а о значительной части — половине или трети. Толку будет от того что потеряно не всё, если именно то что нужно в данный конкретный момент потеряно?
AMDmi3, и дай Вам Бог никогда не решать противоречивые задачи со взаимоисключающими условиями:) Ну будто Вы не знаете, как в реальности приходится проталкиваться через технико-экономические щели и коридоры требований заказчиков. «Сделайте это, и вот это, и вон то, но вот за столько-то». Я вот свой математический максимализм убрал давно в п… портмоне, просто надо риски взвешивать и сопоставлять с бюджетом. Малый бизнес-стартап и домашний NAS, тут полно таких.

Как только будет реально надо, перейдем на серверное железо с ZFS или чем еще, будем тут тоже рисовать красивые комменты «у меня массив X терабайт на RAIDZN выдает почему-то 100000000Мб/с, хотя должен 999999999» :)))

Это не запись орбитальных экспериментов за год, это файловый архив, воспринимайте его как набор сменных дисковых картриджей. Потеряли один — посчитаем, сколько стоит восстановить, сравним со стоимостью данных и примем решение. Два из пяти потеряем вряд ли.

За комменты в любом случае спасибо, которое я выразил Вам в +1, но предлагаю уже не мусолить дальше эту тему, хотите, перейдем в личку…

FYR, европейских рублей, а не американских:)
Не полным, оно умеет восстанавливать только рассинхронизированное.
Увы, всегда наблюдал только полную синхронизацию.
Кстати, да. Я тоже. Слышал, что умеет частично восстанавливаться (что логично), но всегда видел только полную ресинхронизацию. Может быть кто-то подобные счастье видел или знает как получить?
у меня после отказа питания где-то через полчаса все тома gmirror были уже оптимальные
полная синхронизация за такое время на моем железе невозможна
какой вывод?
А они вообще были degraded? Журнал используется? До этого в каком они состоянии были?

Факт в том что чтобы знать что синхронизировать на диске как минимум должны храниться метаданные о поколении каждого блока, а их нет — метаданные gmirror занимают всего один сектор. Как я понял из беглого чтения исходников gmirror, всё что он умеет — запоминать сколько данных синхронизировано, поэтому если перезагрузиться в процессе ресинхронизации она продолжится с того же места на котором прервалась. Но если при перезагрузке у дисков не совпали syncid (число, увеличивающееся при каждой записи и хранящееся в том самом секторе с метаданными), что очень вероятно после «грязной» перезагрузки (один диск записал этот сектор, второй не успел), диск с меньшим syncid будет синхронизирован полностью.
> резервной копии нет (объемы слишком велики)

и далее ни слова про резервную копию.
RAID != резервная копия.
fifonik, абсолютно согласен, что RAID != backup, но объемчики у нас на LTO6, а бюджет при этом малого бизнеса, экономический конфликт:)
Проектировать систему хранения данных без обдумывания (заранее) системы резервного копирования — нельзя.

P.S. Если что, у меня дома и RAID5 и резервное копирование, т.к. я считаю свои данные ценными.
все верно, коллега, порекомендуйте, пожалуйста, чем спасать 6-10Тб данных? предприятия покупают упомянутый стриммер LTO6, там начало разговора где-то у 100,000руб. без картриджей.

Лично мне тут в голову не приходит ничего, кроме дешевых дисков SATA уже на 4Тб в USB-конструктиве.
Дешёвые диски, но зачем USB? Также понатыкать, но добавить автоматическое размонтирование на время между бэкапами, чтобы избежать вероятности катастрофических для всех системы одномоментных отказов. Можно даже в спячку укладывать между бэкапами (правда, вроде как, все серьёзные «облачники» говорят, что бездействующий вращающийся диск живёт дольше, чем спящий.)
Диски бэкапа нужно держать в отдельной машине. И очень желательно — в помещении подальше, работающем от другого ввода по питанию. Иначе серьёзный отказ блока питания или скачок напряжения — и нету ни данных, ни бэкапа.
У меня нет решения, как это реализовать за «три копейки».
Однако я уверен, что в случае возникновения проблем при отсутствии резервного копирования, восстановление данных (даже если оно будет успешным) обойдётся дороже (время/работа).
Т.е. моё «решение»: донести таки до тех, кто выделяет средства, что это необходимо, а потому денег на реализацию требуется больше. И потом спокойно спать.
И думаю не лишним будет в очередной раз привести ссылку на пост про SCT Error Recovery Control (http://habrahabr.ru/post/92701/) который стоит иметь в виду при настройке RAID'ов дабы обеспечить адекватное поведение массива при появлении битых секторов на одном из дисков.

Добавлю что в портах FreeBSD есть скрипт (http://www.freshports.org/sysutils/scterc) который позволяет настроить ERC на дисках при загрузке системы (сами по себе диски не сохраняют настройки ERC между перезагрузками).
полностью согласен, коллега:
Конечно, более приспособленным для нашей задачи является всё-таки представитель линейки NAS HDD ST2000VN000: данная модель обладает полезнейшим для массива ERC...

наверное, стоило выделить полужирным
Мне казалось что наличие ERC в современных дисках — уже правило. Хотя это мнение основано на нерепрезентативной выборке, но в обычных десктопных сигейтах ~пятилетней давности ERC уже был. Кроме того, основной смысл — в его правильной настройке, критерием для которой является только факт использования диска в массиве с избыточностью.
увы, Seagate, начисто выпилил ERC в модели ST2000DM001 (слоган «Seagate Desktop HDD: сила одиночки»); если кто вдруг его там найдет, порадуйте меня
А теперь поехали сложные вопросы.

Как выбирается «пара» для записи? Запись синхронная или асинхронная? Если асинхронная, что делать при падении ноды, если синхронная, как защищаются от перегрузки спары? Парность полная (сервер-сервер) или блочная (а-ля ceph)? Какое latency на запись при трёх нодах и latency ethernet'а в 100µs?

Предположим, что всё железо работает исправно. Какая надёжность системы в этой конфигурации?
amarao, там старый PCI и около 100Мбайт/с по шине на всех, включая Gigabit Ethernet, так что на сложные вопросы вынужден дать простой ответ: все довольно медленно (что-то около 30Мб/с на линейной записи), но зато относительно надежно и дешево. Для малой рабочей группы хватает.

Пара — это том gmirror(8), который монтируется на свою папку. Про режимы управления записью см. фришные доки. Я в стартовых скриптах в итоге применил mount_nullfs(8), чтобы выглядело понятнее для пользователей. Понятное дело, что при таких делах еще пришлось дурить самбу по свободному месту, применил опцию dfree command из smb.conf(5).

В итоге для пользователей это выглядит примерно так:
\\NAS\SHARE\
\\NAS\SHARE\X1
\\NAS\SHARE\X2
\\NAS\SHARE\X3


На все остальные вопросы про спары, latency и прочее мне пытаться ответить или можно не мучиться? Я просто не уверен, что все слова понял в Вашем вопросе:)
Чёрт. Это вопросы были в соседний топик про «типа революция в SAN». К вам никаких вопросов нет, извините.
В пределах 200 евро можно было купить HP MicroServer из серии n36l/n40l/n54l и за 300 евро туда добавить 4 HDD. Мне такое решение кажется получше чем ваше. Туда за пару евро добавить usb flash и установить её во внутрь. На неё же поставить freeNAS
Kwull, хороший вариант, и я люблю запах нового железа, особенно утром:) Хотя диски можно брать и по 4Тб, но оставаться с 4 шпинделями при таких апетитах, как у моего заказчика, показалось несколько рискованным, и железо старое хотелось пристроить.
но читателю рекомендую всегда считать совокупную стоимость дисковой подсистемы, ибо в NAS она определяющая, и выгода от ёмких дисков может перевесить всё остальное.

Если бы знал про n36l, правда, подумал бы дважды. Кстати, а что там у него в качестве SATA контроллера? На этом FreeNAS работает? Прошивка не глючная?

флэшку только не вздумайте покупать за пару евро:), я об этом расскажу вскоре, спасибо, коллега
про флэшку я образно :)
На самом деле, там есть место под 5-й диск, вместо дисковода. Мы так и сделали и на него накатили Nas4free (о чем сожалеть пришлось).
На самом деле там есть еще много места ;)
121212121, если не затруднит, можно подробнее? Догадка: 5-й диск отказал из-за того, что старый шпиндель был?
Ой, извините, только сейчас вопрос заметил.
Нет, дело было не в железке, а в программе sourceforge.net/p/nas4free/bugs/143/
Отличный баг! Да, это старый релиз 2013, но у кого-то эта версия может использоваться. Будьте внимательны!
Извините, не могу удержаться:
Renaming the SMB share (server) name removes all the share contents.
NAS4Free version — 9.1.0.1 2013-08-18 installed to dedicated hard drive.

Steps to reproduce:
1. Create ZFS Raid1 array.
2. Enable CIFS/SMB, fill Samba server name and use created ZFS volume as Samba share.
3. Copy noticeable amount of test data over the network to the created Samba share.
Check the monitor — it reports some drive space is in use.
Check the Samba mount point contents (use console) — copied files are in place.
4. Go to CIFS/SMB settings and change the Samba server name and workgroup. Save changes
5. At this point Samba share appears to be re-created from scratch.
All the contents of the previous share is lost without any warning.
Check the mount point contents with console one more time — it is now empty.
каково, а?
Да я сам охренел, поэтому и зарепортил сразу.
Реакция нулевая, кстати. Проект не подает признаков жизни.
Это и неудивительно, читая историю NAS4Free пришел к выводу, что после форка его никто не развивает.
Volker Theile занимается OpenMediaVault, а сообщества не осталось в NAS4Free.
Ну оно есть, но только из потребителей контента, в основном, мало кто вкладывает силы в его разработку.
UFO just landed and posted this here
> Пока ничего страшного, ставим новый диск, и что происходит? Ага, реконструкция массива, т.е. длительная максимальная нагрузка на уже порядком изношенные диски.

Кто вам запрещает понизить эту «максимальную» нагрузку хоть до 100КБ/с?
Может быть время? На полной скорости пусть будет 8 часов, а на 100кб/с? Однако, ценную информацию лучше считывать неделю, чем потерять совсем.
Disasm, при всем уважении вычитка 2Тб на такой скорости займет примерно 230 дней :))
Да и корень проблемы механический, головки там скачут туда-сюда и все в таком духе. А сколько по проводу бит пройдет — уже не так важно.
Отличная статья, пригодится. Жду продолжения
Отличная статья! Вы сэкономили мне время на раздумья о raid и zfs ))
Сейчас занимаюсь чем-то похожим: собрал сервер из старья. Процессор AMD x64 на 1800 MHz и 512 Mb памяти. Пришлось купить видеоплату, чтобы хоть как-то настроить параметры БИОС. Но она пригодилась потом — воткнул в стационарный ПК вместо интегрированной. Через неделю работы посыпался жесткий диск, который до этого 4 года стоял на стационаре (Seagate sata 250 gb). Так что пришлось еще докупить новый диск — взял ST250DM000. И заменил блок питания как раз на такой же, как у вас (старый был на 250ватт). На сервере FreeBSD 9, поднята вики, для нее апач, mysql. Далее будет работать, как самописный сервер игровой логики на erlang, riak, с++. Хранения больших объемов данных не предполагается, поэтому железка должна справиться. Однако, посчитав затраты за две недели его работы и найдя на авито б/у серверы 1u в москве, начал сомневаться в своем выборе.
После падения данные сумел восстановить, но на перенастройку ушло 6 часов. Как только у меня в руках появится любой диск, настрою на него бэкап через dump. Для себя, с моими объемами, считаю, что лучше 1 диск и бэкап на другое устройство, чем зеркало. В случае падения основного диска будет установлен новый с неведомым размером но с нулевым ресурсом. Если менять один диск в зеркале, то второй будет старым.
Спасибо.

Не ставьте старые диски в только что собранные серверы, они накрываются (к счастью, довольно быстро, но все равно не сразу:). Я опубликую короткую заметку на тему отказов.

Б/У серверы, конечно, риск, но там есть ECC-память, и я видел один ролик, где слегка нестриженный хлопец переделал DL380G5 под SATA, выпилив (буквально) пластиковые салазки и поработав с паяльником над блоком питания. По странному стечению обстоятельств он использовал тот же PCI контроллер A-224. Старый или Б/У сервер — один из вариантов под объемное, но не самое критичное хранение. Обязательно используйте ECC-память, лучше много, тогда можно и ZFS. Мне кажется, что из БУ лучше какой-нибудь Харлампий-Панкрат, но всю механику очень желательно заменить.

Помимо того, что сейчас лежит в черновиках, у меня будет еще (я надеюсь) через какое-то время пост про «безголовый» режим и serial console поверх IP. Я хочу попробовать себя немного в жанре пром. электроники, изготовив простой бортовой контроллер: http://toster.ru/q/71632
У меня сейчас как раз безголовый режим, видеоплаты нет, клавиатуры нет. Хожу но ssh. Нульмодем присоединил, но пока не разобрался, как настроить выдачу ядра на com. С интересом почитаю, если будет написано применительно к FreeBSD.
UA3MQJ, для FreeBSD есть хотя бы вот это: http://www.freebsd.org/doc/handbook/serialconsole-setup.html. Наверное, я немного добавлю соли с перцем в своем будущем посте.

У фришки вся эта история делится условно на три фазы (boot.config, loader.conf и прочий userland output), причем первые две дублируются при желании на VGA и в RS232, но самое интересное (userland output с матюками fsck и требованием вмешаться) выдается только в одно место. И чтобы этим местом был RS232, надо сказать в loader.conf

console="comconsole,vidconsole"

признаюсь, это очень компактное объяснение, но мы его можем потом развить.
вероятно, что с ZFS fsck работает по-другому.

вообще, очень рекомендую использовать для экспериментов систему виртуализации Вымой Варю. Например, Workstation. Я вот запустил там FreeNAS (можно и голую фришку), выведя аж два виртуальных COM-порта через файл-сокет на хост Windows и «поймав» их прямо в putty. Долго недоумевал, почему fsck говорит со мной на VGA, сколько я ни стараюсь. Разобрался в итоге (см. выше).
У ZFS нет fsck в принципе. Да он не нужен, потому что система отслеживает целостность данных «на лету».
виноват, вместо fsck прошу читать «проверка файловой системы», да, это действительно совсем по-другому, чем fsck
переделал DL380G5 под SATA

Что-то я не понял — у него 380G5 был без RAID контроллера вообще? Родные P200/400 умеют SATA диски кушать.
NickyX3, не только Вы так считаете :) см. комментарий пользователя PLRtx: all-kvn.ru/video?watch=WW8xNFFUSFF1a2M=

хоть и не очень актуально, но настроение себе поднимете, особенно мне нравится невозмутимость главного героя, несмотря на советы слегка нетрезвых веселых героев второго плана. Поколение сервера G5 я определял на глаз, мог ошибиться.

на всякий случай прямая ссылка на видео youtu.be/Yo14QTHQukc
Посмотрел на ваши обозначения на дисках… Я в таких ситуациях клею на них серийный номер диска. Чтобы виден был без его вынимания. Потом проблемы какие — скажем, один диск не определяется — смотрим из системы серийники тех, что определяются, и методом исключения вынимаем сдохший.

Пару раз это даже помогало.
Да, серийники у них на спинах гермоблоков, и всегда скрыты соседями по отсекам. В документации я всех пишу по серийникам, вот только как их лепить? Ленточный термопринтер? Простой скотч с бумажкой? Пожалуй, это вариант, с торца видеть точно удобнее.
Интересное предложение:
«Отличная «фишка» FreeNAS — это фришные jail'ы (виртуальные машины-песочницы), в которых можно поднять Linux, а в нем уже почти все, что успел родить Open Source.»
Удивился. Погугулил, но не понял как это сделать. Не подскажите?
RuJet, фича появилась буквально недавно, кажется, в 9.2, и фактически сорвала пробку, под которой сидело море всяких утилит для работы с файлами и облачными хранилищами, полезных и бесполезных.

Добавляем Jail типа Linux (выбрав нужный диалект), надо только сначала указать один из томов хранилища, где все это будет лежать. FreeNAS некоторое время загружает образ файловой системы (интерфейс GUI может при этом тупить, потерпите). Потом с помощью того же mount_nullfs(8) инжектируем в jail нужную папку нашего хранилища. Ну а дальше насколько фантазии хватит. Можно поставить клиента облачного сервиса Брось Бокс, ибо под Linux (в отличие от FreeBSD) их как грязи, по-моему. Можно торрент-качалку. Можно анализатор EXIF-тегов. Можно антивирус. Можно сборщик мусора. Да все, что хотите:)
Процитированная фраза некорректна. Во-первых, jail это не виртуальная машина (песочница — да, аналог chroot). Во-вторых, «всё что успел родить Open Source» можно нативно запустить на FreeBSD.
А касательно вопроса — достаточно сделать chroot/jail в директорию куда распакован/смонтирован Linux дистрибутив — благодаря бинарной совместимости внутри этого chroot будут работать исполняемые файлы Linux в родном для них окружении. Подробнее: www.freebsd.org/doc/en/books/handbook/linuxemu.html

У этой совместимости есть свои ограничения — в частности, она довольно сильно отстала от оригинала, поэтому заработают только бинарники под достаточно старые версии ядра. В дереве портов есть рабочие «linux base» окружения от Fedora 10 и CentOS 6 — можно играться с ними.
AMDmi3, я так понял, Вас не устраивает термин виртуализация по отношению к запуску chroot-окружения с использованием бинарной совместимости. Хотя формально Вы правы, я обычно не цепляюсь к термину виртуальная, у него может быть ну очень широкое трактование. К тому же, что такое виртуальная машина, знают многие. А вот что такое песочница и chroot, то м.б. и не все резиденты хабра. Но я все равно поправлю:)

At this time, the Linux distro must be a 32-bit version and any applications installed into the jail must be available as a 32-bit binary.

и в уже означенной документации FreeNAS ссылка стоит почти туда же (она битая, ха-ха: www.freebsd.org/doc/en_US.ISO8859-1/books/handbook/linuxemu.html), т.е. http://www.freebsd.org/doc/en/books/handbook/linuxemu.html.

Собственно, команда FreeNAS и поддерживает хранилище деревьев для разных систем и диалектов Linux (называется просто Jail Template), и тут чертик подставляет пингвинчику плечо, а не ногу или другую часть тела. В 9.2.0 ссылки на шаблоны видны прямо в GUI, можно свои использовать при необходимости. Вот, например, CentOS: cdn.freenas.org/9.2.0/RELEASE/x86/jails/linux-centos-6.4.tgz
dts, очень, очень ценная ссылка! Если бы ее можно было прочитать летом 2013 года, не факт, что я бы выбрал Seagate.
Вклеиваю в пост прямо сейчас.
я вообще видел несколько постов с подобной статистикой, почему-то посты былых времен не находятся. Вот, например, этот пост точно на хабре был когда-то.
Ну так качество дисков меняется со временем. В детстве, помню, Quantum Fireball дохли от первого скачка напряжения, WDшки просто дохли, а Seagate были столпом надёжности. А про диски hitachi тогда никто и не слышал. А ещё были «дятлы» — IBM серии DTLA, которые при работе стучали как дятлы, были капризны к питанию, но вообще так надёжные (не дохли, в отличие от квантумов).

А если вспомнить ещё более ранние времена — у меня был такой диск на 210 мегабайт — его смерти я в итоге не увидел, он был кому-то подарен, а перед этим прожил у нас лет десять — сначала как системный 386-м, потом как резервный в pentum 120, а потом как дискета.

Так что да, статистика меняется, это нормально.
Подтверждаю. В середине 2012 г. купили 12 x ST3000DM001 для NAS, через год использования начали сыпаться один за другим, к данному моменту заменили уже половину.
да, для массива они плохой выбор, но я это понял уже потом.
на всякий случай: прошивой firmware никак не лечилось?
Краем уха слышал, что лечится, но смогу попробовать только через месяц.
Память нынче столь дешева, что это не самый дорогой ресурс в NAS. Зато ZFS вы легко ускорите в дальнейшем, добавив SSD как кеш и под ZIL.
Лучше два SSD под ZIL :)
Я образно ) Именно в плане того, что вложений в SSD на старте не требуется, если уже бюджет экономить.

Два небольших в страйп под L2ARC, два небольших серверного класса в зеркало под ZIL — это явно не дороже, чем ставить десяток enterprise-класса «шпинделей».

Опять же, ZFS неплохо себя умеет проверять и лечить.
У Вас там куча SATA на одном PCI. PCI «качает» не более 133 МБ/c максимум в теории. Вопрос, сколько дисков SATA с пропускной способностью 80..120 МБ/с сможет обслужить такой контроллер?
Оно будет очень странно работать в смысле скорости.
Почитал комментарии — Вас 30 МБ/с устраивает. Но у меня хуже получалось — когда 100% загрузка дисков оно совсем затыкалось (скорость падала до ~ 10 МБ/с). Такого нет?
в малой рабочей группе длительную загрузку просто некому создавать

а во время реконструкции все довольно грустно, само собой:)
Как-то думал по поводу NAS. Тоже есть железо свободное… Меня только смущает всегда один факт — потребляемая мощность. В итоге получается, что если рассчитывать БП (а еще с учетом отношения жручесть/производительность старого железа в плане «а там еще думаю вебсервер накинуть и возможно еще X, но пентиум не потянет в связке с X, без провисания при одновременной нагрузке на собственно NAS-часть и X, а не охота две железки держать включенными постоянно») и разницу в оплате электроэнергии скажем за год (или больше), задумываюсь о том, что лучше я куплю железо поновее с меньшим энергопотреблением и поставлю БП послабее — за год может и окупиться, если работать будет постоянно. Да еще эти соцнормы…
Иногда думаю и о чем-то интегрированном типа HP'шных микросерверов, на которые можно поставить Linux/FreeNAS, чтобы еще уменьшить энергопотребление…

Пока все в рассчетах, оторванных от реальных цифр — иногда есть желание забить на рассчеты, купить самый дешевый счетчик, сделать сервер из существующего железа и посмотреть скажем за сутки сколько киловатт набежит чисто от этого «сервера» — никто ничего подобного не делал?
Всей статистики по энергопотреблению я ещё не собирал, так как мой N54L молодой. К стандартной комплектации добавьте планку памяти на 4 Гб, сетевую карту от Интел и всё это крутится под unRAID на флешке (просто тестирую разные решения) — сервер потребляет 33 Вт.
Когда выполнил команду Spin Down и притормозил дефолтный винт на 250 Гб, то энергопотребление снизилось до 29 Вт. В общем, как пишет интернет — по 4 Вт на винт.
Vest, дружище, про unRaid постов я тут не нашел, как и сравнений разных бесплатных NAS-систем ;-)
Я сейчас втихаря пишу сравнения в одном стрёмном блоге, но я не к тому.
Я просто ответил на вопрос выше об энергопотреблении «какого-нибудь» HP MicroServer N54L, на «каком-нибудь» программном обеспечении :) Просто в сравнении с готовым решением от того же Synolodgy проигрыш можно получить где-то до 10 Вт, а людям всегда интересно сколько «жрёт» та или иная железка хотя бы на холостом ходу.
электрометр — о да, я поставлю это себе в backlog микроэлектронных проектов! Телеметрия энергопотребления по IP:) Почти как электросчетчики в новых домах с шиной RS485.
а это мысль…
особенно если мерить ток не в разрыв.
Максимальная мощность импульсного блока питания не влияет на объем потребления энергии. Реальная потребляемая мощность зависит от того, сколько потребляет железо и это значение увеличивается, в зависимости от КПД блока питания.
Если экономить на электроэнергии, то роутер TPLink 3020 за 900р и габаритах 1/2 ide hdd может быть файловым сервером (и много чем еще, на базе openwrt), потребляя свои максимальные 5 ватт, при этом не шуметь и не собирать пыль.
Автор, хочу знать как произносите IBM и DELL :)
nagimov, может, так:
известный производитель мэйнфреймов Ибрагим-Бек Машины
второй пока вертится в голове, но никак не оформится
ничего в голову не лезет, кроме
лидер рынка аппаратного обеспечения ШМЕЛЛ
Оффтопик:

«Карма Дома» — лучший производитель воздуховодов для серверов начального и среднего уровня!»
Если сравнивать FreeNAS и его предка-бранч NAS4free,

Хм… Кто кому предок?
habrahabr.ru/post/124414/

в отличие от NAS4free, даже при работе с флэшки FreeNAS может применять изменения в конфигурации без полной перезагрузки системы.

Смотря какие изменения.
Rimlyanin, отличный вопрос; я рассказываю про FreeNAS версии 9, основанный на тех кодах, которые на момент написания статьи уже переименованы в NAS4free, хотя изначально именно те, старые коды назывались FreeNAS. Там был развод и раздел имущества. Но при этом NAS4free тоже на месте не стоит и, чтобы потом не заниматься казуистикой, я так и написал про NAS4free «предок-бранч».

Предложите лучшее обозначение для столь нетривиальных родственных связей. Можете еще добавить к семейному древу проект OMV, который один из членов команды FreeNAS / NAS4free перетащил на Debian. По крайней мере, на морде в графическом интерфейсе OMV семейные черты читаются отчетливо.

Смотря какие изменения

Я не говорю, что NAS4free — плохой продукт, коллега. Но беглое прохождение по интерфейсу NAS4free летом 2013г. показало, что те вещи, которые я с ходу вкатывал во FreeNAS 9, у NAS4free требовали перезагрузки. Я думаю, что NAS4free рано или поздно уйдет и от этой практики, и от хранения настроек в плоском XML. И вообще желаю ребятам всяческих успехов.
Вы по ссылке ходили?
Тот пост датирован мартом 2012го.
Скорее FreeNAS предок NAS4Free.

И да, я осенью 2012го собирал NAS, ставил на него NAS4Free, и весь процесс настройки (ZFS, SMB, Transmissoin и остальное) ни потребовал ни одного ребута.

А вообще, да, и тот и другой продукт после отпочкования продолжают развиваться, и тут уже каждый «выбирает для себя, каждый выбирает по себе». У меня NAS4Free «взлетел с пол пинка», Вам FreeNAS больше по душе пришелся.

P.S. И да, насчет XML: приносили NAS под NAS4Free с полу-мертвой флешкой. Бакапа настроек конечно же не было. С флешки легко восстановились несколько копий разной давности конфигурационных файлов, один из которых был скормлен свежеустановленной системе и все «взлетело». Вот так.
Rimlyanin, ладно, уговорили, FreeNAS предок NAS4free :)) Последний, у меня, кстати, тоже завелся с полпинка, и даже порадовал более управляемым, что-ли, процессом создания томов. Т.е. у NAS4free IMHO больше чисто юниксовых вещей вытащено в GUI, там еще есть файл-менеджер и прочие фишки, и системные требования вроде были скромнее. Но мне все это не пригодилось.

re: XML
у меня (правда, совсем в другом проекте) файл XML просто погибал у некоторых заказчиков при абсолютно исправной дисковой системе, в результате отказа питания. Я как представлю себе все эти DOMы c SAXами и чтение-запись всех настроек только одним махом… И с другой стороны «РСУБД-внедренка» SQLite, с журналом и доступом на уровне одиночных записей. Да, найти на разбитой в хлам файловой системе обломки XML и затем склеить их, конечно, реально. Но лично я вывел у себя условный рефлекс: поменял настройку — сразу забэкапил. Пара жестов мышью и все.

Кстати, можно еще /data бэкапить куда-нибудь, запросто настраивается по Cron_Jobs. По-моему, сходная техника прокатит и для NAS4free, только там раздел по-другому называется.
Я бы сказал что NAS4Free — почка от FreeNAS. C частью разработчиков.
Но не в этом суть:)

re: re: XML
Так что NAS4Free, что FreeNAS, держат себя и настройки в оперативке, если, конечно, речь идет о embedded варианте, с установкой на флешку (а в других случаях оно флешку «сточит» довольно быстро), так что «отказы питания» тут совершенно не причем.

Увы, не все бакапят. А потом ко мне и приходят :)

по крону оно будет бакапится куда? на тот же NAS? :)
Rimlyanin, почка +1 :)))

по крону можно действительно положить на системный том (во FreeNAS 9.2.1.1 появилось понятие «системный том», не смейтесь; но можно и не несистемный тоже), либо отправить на email администратора (Вам рекомендую, «на коленке» через base64 или более научным способом), либо по SSH/SCP на другой сервер, дальше сами можете продолжить;)

про стачивание флэшек планирую отдельный пост, следите, если интересно

PS
моя история про XML совсем не относится к NAS'ам:) Это другие продукты, а отказ питания с потерей XML — просто эпизод из истории их эксплуатации.
Может не надо мне рекомендаций человека, который допускает оплошности в статье?
Мои серваки бакапятся, бакапы копируются на другой сервак, и все это делается автоматически. Мне остается лишь просматривать письма, да и то, там сортировка настроена. Ну и изредка проверять бакапы, что бы быть в них уверенным.

Кстати, вот прямо сейчас на серваках выполняется restore -xvf {img.name} для проверки целостности.

Про стачивание флешек конечно интересно, но понимаете ли вы разницу по стачиванию флешек при установке embedded-варианта FreeNAS или NAS4Free?

P.S. Ваша ситуация с XML напоминает мне «я как то отравился пирожным, с тех пор больше я пирожных нигде не покупаю»
У меня примерно аналогичная настройка. Только на флэшке стоит полноценный ubuntu server, флэшка по крону dump'ится на тот же сервер но на другой диск — локальный полунадежный бэкап, зато быстро восстановить. ВСЕ диски вместе с бэкапом флэшки бэкапятся на внешние мои сервера + в облако crashplan через crashplan. Письма красивые приходят тоже.

У меня вопрос, а как вы целостность проверяете? Просто restore -xvf {img.name}? и если не было ошибок, то значит все в порядке?
FS на флешке в RO или в RW?
темпы и логи куда пишутся?

Целостность — да. Забыл сказать что дампы дополнительно пакуются в gz. Так ято по факту проверяется и целостность архива и его целостность после передачи между площадками.
Ну и проверяется бакап распаковкой на виртуалку и проверкой, что бы все «завелось».
Иначе можно делать бакапы и думать что все в порядке, а на самом деле при форс-мажоре обнаружить что бакапы делались, но толку от них мало.
темпы и логи в tmpfs. Да, не очень хорошо логи в памяти хранить, но для домашнего nas+ в самый раз.
FS думаю в RO перевести, только вот не уверен нужно ли при условии что большая часть в памяти хранится.
«Ну и проверяется бакап распаковкой на виртуалку и проверкой, что бы все «завелось». » руками или как то автоматически например через vagrant?
Нет, проверяется ручками. Да и не вижу смысла проверять автоматом, лучше самому проверить и понять, есть косяки или нету.
Тем более это ж не так часто. Сама система не так часто бакапится, гораздо реже данных.
Rimlyanin, раз спросили, найдите отличия между двумя embedded-вариантами:

[root@freenas] ~# mount
/dev/ufs/FreeNASs1a on / (ufs, local, read-only)
devfs on /dev (devfs, local, multilabel)
/dev/md0 on /etc (ufs, local)
/dev/md1 on /mnt (ufs, local)
/dev/md2 on /var (ufs, local)
/dev/ufs/FreeNASs4 on /data (ufs, local, noatime, soft-updates)


NAS4free ставил в варианте №2
nas4free: ~ # mount
/dev/md0 on / (ufs, local)
devfs on /dev (devfs, local, multilabel)
procfs on /proc (procfs, local)
/dev/md1 on /var (ufs, local)
/dev/ada0s1a on /cf (ufs, local, read-only)


Причина, по которой я выбрал FreeNAS
отдельная файловая система для хранения настроек
/dev/ufs/FreeNASs4 on /data (ufs, local, noatime, soft-updates)

NAS4free для сохранения настроек должен каждый раз перемонтировать «корень» со всеми вытекающими, и я обоснованно считаю это позором недостатком проекта в 2014г. Оттуда же и перезагрузки берутся в некоторых случаях.


Я уже не говорю про то, что NAS4free предлагает (спасибо, что хоть ненавязчиво) создать еще и swap на флэшке.

Коллега, либо объясните прямо сейчас, в чем плюс хранения настроек XML прямо на корневой файловой системе read-only, либо давайте закроем эту тему и уйдем в личку. Пляски с бубном симлинками, конечно, допускаются, но учтите входной порог квалификации для их применения.

PS
У FreeNAS есть свои тараканы, можете не беспокоиться, и некоторых я планирую вывести на свет божий в следующем посте.
Хм, ты ему про Фому, он тебе про Ерему.
Коллега, перечитайте диалог. Причем тут отдельный раздел если вы же писали о бакапе настроек?
Виноват, это было вот сюда:
Про стачивание флешек конечно интересно, но понимаете ли вы разницу по стачиванию флешек при установке embedded-варианта FreeNAS или NAS4Free?

Ответ: думаю, что понимаю (см. комментарий выше).

А вот сюда:
Может не надо мне рекомендаций человека, который допускает оплошности в статье?

все, молчу, молчу, уважаемый гуру:)) вижу, бэкапы Вы и без моих рекомендаций умеете лихо делать:)
Совсем не в тему влезу, но про XML: на работе отрубили электричество, комп от УПСа какое-то время жил, потом заряд кончился. После восстановления питания винда радовала несколькими невразумительными критическими сообщениями от разных приложений с общим смыслом о невозможности запуска. Разбор полётов показал что у них настройки хранятся в XML и там почему-то вместо содержимого забито всё 0x00.
+1, жаль, что у меня плюсомет однозарядный, не жаль и половину обоймы потратить на Ваш ответ:)
моя история про XML совсем не относится к NAS'ам:) Это другие продукты, а отказ питания с потерей XML — просто эпизод из истории их эксплуатации.

и это был не один раз, а несколько, и все эпизоды заканчивались в точности тем же — нулями вместо данных.

ясен день, что системы разные, но в моем случае код был под две системы Windows и Linux. Значит, сильно велики шансы иметь общие корни open source библиотек. И не исключено, что тут те же…
Возможно, один из был GoldenDict, кто ещё — не помню, но вроде больше ничего opensource не используется.
Чего вы спорите, на сайтах всех трех указанных подробно описана вся Санта Барбара кто чей мать.
Понимаю, что топик старый и все такое, но я тут наткнулся на опровержение вашего тезиса:
Основная проблема в том, что система ZFS очень чувствительна к ошибкам ОЗУ.

и, как следствие:
В борьбе за время реконструкции массива побеждают новые, высокотехнологичные файловые системы, но они реализуемы только на дорогом железе (из-за ECC памяти).


Вот ссылка

Подумал, возможно, кто-то тоже наткнется на ваш пост, подумывая о создании хранилища на FreeNAS/ZFS, и откажется это делать из-за отсутствия ECC-памяти.
По ссылке статья, достойная отдельного перевода и обсуждения на хабре,
Спасибо!
Sign up to leave a comment.

Articles