All streams
Search
Write a publication
Pull to refresh
1
0
Nick S. Knutov @knutov

CEO/CTO

Send message

(я погуглил, но слово log не заметил, и потому родился вопрос)


Судя по гуглу — есть zpool version 36


36  Efficient log block allocation

У openzfs максимальная версия — 28, но, например, версия 37 — lz4 и lz4 у openzfs на сколько я вижу есть.


Поэтому непонятно что из того, что после 28ой версии, реально есть в 5000

btw, а что с "efficiency block allocation" в ZoL?


Я что-то не смог сходу разобраться в версиях и как версия 5000 относится к линейке версий в солярисе.

Посчитал.


  • если ext4 на 480гб SSD диске, то доступно 440 гигабайт.
  • если просто ZFS то 430 гигабайт
  • если ext4 на ZVOL — всего 398 гигабайт

Кстати, у ссд дисков (по крайней мере наших) размер сектора таки 512 байт. Все, конечно, наверное, знают, что любая запись там перезаписывает блок на 128к, но все же.


Статистика по размерам файлов (какие лучше выбрать параметры для блок сайз и прочего исходя из этого?)


  • Средний размер маленького файла — чуть меньше 1 килобайта и таких файлов 65%
  • Средний размер вообще — 9 килобайт
  • Более 100 килобайт — средний размер ~500 килобайт и таких файлов 4%
  • Более одного мегабайта — средний размер 11 мегабайт и таких файлов ~0.15%

Как все это считалось в красивом оформлении — https://gist.github.com/knutov/453fa860e4f574ac01413273cf79392f


И кстати, как я должен был угадать размер ZVOL, если я хотел сделать его на весь диск, и почему потом получилось больше?


Прокомментируйте пожалуйста это, возможно я делаю что-то неправильно?

Мы привязаны к OpenVZ. OpenVZ привязана к ext4. При этом у нас очень хорошо сжимаемые данные и deduplication ratio за 100, поэтому хочется уровнем ниже ext4 иметь сжатие и дедупликацию. Правда на дедупликацию при блок сайз = 4к не всегда есть память (некоторые ссд за терабайт, в некоторых серверах 32гб памяти и нельзя поставить больше)


Сравниваю получившийся размер раздела после создания (т.е. диск пустой, раздел делается на весь диск).


Судя по логам, которые нашел сходу, у меня получалось так:


Тесты на ссд на 480 гигабайт.


Если просто ext4, то df -h показывает size = 441G


Если


zpool create -o ashift=9 vzpool /dev/sdb1 
zfs create -o mountpoint=/vz2  vzpool/private

то получившийся size похоже то ли 440, то ли ~420.


Если


zpool create -o ashift=9 vzpool /dev/sdb1
zfs create -V 416G -o volblocksize=4k vzpool/vz2
mkfs.ext4 ...

то size в df -h оказывался 383G


В цифрах могут быть ошибки, делал заметки по ходу тестирования, но порядок разницы примерно такой. Если нужно — могу найти сервер с свободным ссд и проверить снова.

Один ссд. Совсем один. На нем zvol. Размером на весь диск, для теста (потому что нам нужно одновременно сжатие и ext4), на zvol — ext4.

дальше начнутся проблемы с фрагментированием

Т.е. на ссд это не критично и повлиет мало?

то нужно выставить в этой zfs тоже 8кб, тогда скорость записи значительно будет эффективнее

А если дедупликация — то 320 байт на блок — это на вот этот record size, или там блок — что-то другое?

О, а подскажите, в сценарии, когда ZVOL, SSD и потому ext4 — при использовании ZVOL очень резко снижается количество свободного места (по сравнении с без ZVOL или просто ext4) и это очень чувствительно на ссд, которые и так маленькие. Нельзя ли на это как-то влиять?

Потому что таких серверов много и в масштабах — можно было бы сэкономить. Но где спеки по латенси при использовании конкретной сети и олл флеш? В гугле не видно.

выкидывать массу денег на оборудование? Покупать в 3-4 раза больше дисков?

Например, в нашем случае это пока оказывается очень сильно дешевле, чем покупать нутаникс и переходить на 10г+ сеть.


Нет, маркетологи к нам приходят только от нутаникса, но после озвучивания задач говорят, что нутаникс нам не нужен и уходят. А про EMC говорят люди, реально его использующие, но, это, конечно не банки и не энтерпрайз.


6 — кстати, как будет в этом случае житься с нутаниксом, если сеть — гигабит?


ps: А куда бы вам написать типа телеграма, чтобы вы рассказали какой нутаникс в каком виде нужен мне для конкретных двух задач и сколько это будет стоить?

Кому нужно увеличение емкости ради емкости?


Например, в силу требований по характеристикам нам в любом случае подходят ссд размером от 800/960 гб.


Сжатие в lz4 дает в среднем сжатие в 2-2.5 раза.


Реально данных на одном диске у нас 300-400 гигабайт.


Т.е. что есть сжатие, что нет — разницы никакой.


Вот если бы диски были не локальные, а дисковая полка или "гиперконвергентное" хранилище… Но что-то никто не хочет мне говорить какое будет латенси в этом случае и почему нужно купить нутаникс, если локальный топовый серверный ссд оказывается дешевле.


5 — ну, круто, не знал, что так вообще бывает. Но — например, нам — не нужно совсем.

Т.е. слово drbd вы проигнорировали специально? Там еще pacemaker/heartbeat естественно.

1 и 2 — очень опциональные штуки. Причем онлайновая дедупликация на столько затратна по ресурсам, что часто вообще невыгодна.


5 — ну, тоже очень на любителя. Например, нам — не нужны. А какая кстати деградация производительности у нутаникса, когда много снапшотов?


3 — штука определенно приятная и нужная, но есть много задач, где она не играет критической роли и малосущественна.


про rf2/rf3 — вроде избыточное хранение у них есть. Какое и как — лень гуглить.


6 и 7 — не понял что вы имеете ввиду. Не вижу проблем с scaleio на только ссд.

нутаникс вроде бы импортзамещен. scaleio — нет.


Что там как у крупного банка я не знаю, но видел несколько случаев другого опыта.
И уж если нутаникс лучше scaleio, то тем более логично сравнить их, я считаю.

Все просаживают ио. Но требования то у вас какие? Сколько иопсов надо на чтение и запись?


И просаживает как? По иопсам, по мегабайтам, или по латенси?

Сами сейчас не используем, но был и много раз видели у коллег.


Учитывая сколько ему лет — сырым оно быть вряд ли может. Так что если у вас наблюдаются какие-то проблемы — это повод спросить в каком-нибудь профильном телеграм чатике что вы сделали не так.


Но, в общем, "аппаратное" HA — это, я считаю, плохой путь, кроме очень узких задач.

Пост у вас написан, простите, плохо, ибо что сказать хотели — не понятно, пока не посмотришь от какого юзера сделан пост.


Но раз уж за объективность и сравнение — хотелось бы добавить — сторадж у виртуоззо — это боль и ploop. Сам по себе ploop за последний год стал вполне неплох и перестал занимать в полтора+ раза больше места, чем должен, но по прежнему ломается, часто необратимо, если лежит на крутящихся дисках без батарейки (на SSD с повер лосс протекшн все норм). При этом три контейнера забивают намертво что гигабит, что десять и дальше всё.


Зайти с улицы и купить виртуоззо сложно (не знаю как в случае, если покупать импортозамещенную версию, может иначе), с суппортом у оригинального виртуоззо примерно никак, особенно у опенсурсной части.


С Ceph все в принципе и так понятно, а вот с raidix — неоднозначно. Да, оно больше заточено под операции с видеопотоками и большие потоковые линейные чтения, но — кому-то ведь по нагрузке этого достаточно. А в плане технологий у них сделано много интересного.


Учитывая, что виртуоззо и ceph — это то, что просто вообще не надо трогать (и это прекрасно понимает примерно каждый читатель хабра из вашей целевой аудитории), табличка сравнения из одного нутаникса выглядит как-то не очень. Уж лучше бы сравнили со ScaleIO. Которому, вероятно, нутаникс проиграл бы, но зато импортозамещение и можно выбирать по приоритетам.


Про стартовую стоимость — все же понимают, что комплект из трех серверов не имеет смысла, ибо когда сервера три, то можно сделать два одинаковых с каким-то рейдом внутри и дрбд поверх для HA. Что много дешевле и работает лучше, если нет задачи переложить ответственность за сломавшееся на вендора. А обычно таки (ну, в теории, должна) задача есть чтобы работало стабильней и быстрее, а не ответственность перекладывать.


Also, про нагрузку. Вот, например, я хостер. И сейчас мы не используем дисковые полки или гиперконвергентные штуки, но очень хотим. Гипер-в и квм. Знаем сколько иопсов на чтение и записи у нас на каждом сервере при использовании локальных дисков. Как посчитать сколько серверов, дисков и сети нужно в случае с нутаниксом и какая получится латенси?

Что-то, конечно, могло поменяться, но когда я последний раз проверял — через какое-то количество обращений в час с одного ип к whois.networksolutions.com лимиты у них были.

весь реестр легко простукивается whois-ом за полдня

Это, например, как? Через какой whois сервер?

Information

Rating
Does not participate
Location
Пермь, Пермский край, Россия
Date of birth
Registered
Activity