Pull to refresh

Comments 42

UFO just landed and posted this here

Хорошая статья, спасибо.

Не даёт забывать что не смотря на все iaas, s3 и k8s, крутится все это все рано на реальном железе.

А что даёт подключение пары ssd в рейд? Более низкую надежность и худший аптайм - да. Выход из строя любого из дисков роняет всю систему. Или у вас настоящие хорошие контролеры от адаптека, например, которые это могут пережить?

главное чтобы не в RAID5/6 подключали.

Речь про избыточные RAID, например, с Хеммингом, для повышения надёжности и скорости. То есть при потере одного диска в массиве (а диски — это, по большому счёту, расходники) не должны теряться данные клиента хостинга. Дальше замена диска, ребилд — и всё это без остановки ВМ.

А клиенту это зачем? Он же за это не платит. К тому же отвал машины это нормально.

К тому же отвал машины это нормально.

Вы какого хостера представляете? Чисто для справки, чтобы я к вам не приходил

У нас надёжность 99.999, а что?

Отвал машины это норма. В нормальной системе любые компоненты постоянно выходят из строя и их тут же заменяют.

Например вышедшие из строя диски в массиве. Это нормально.

Падение машин - нет

То есть для вас это катастрофа?

Чем падение диска отличается от, например, падения сетевой карты?

Чем падение диска отличается от, например, падения сетевой карты?

Сетевух тоже две. Воткнуты в различные коммуты и прочий "2N+1". Это во вторых. А во первых диск - это расходник с сферическим MTFB в вакууме, со здоровенным горбом в первые 10к часов и верным разве что для диска лежащего в шкафу. А с SSD так и вообще вполне себе ощутимым TBW

То есть для вас это катастрофа?

Что именно, падение машины? Кейсы разные бывают. Ну вот есть у меня кластер серверов, где отвал диска в серваке не проблема, он вообще инмемори продолжит работать. Отвал сетевухи, проца, матери, БП, да чего угодно до того момента пока этот сервак не начнет условно гореть синим пламенем, поджаривая соседей - это проблемы этого сервера, кластер перестроится и не заметит. И да, там стоит по одному диску, одной сетевухе и платформа supermicro с одним БП. Погаснет - да и фиг с ним, только заббикс в тележку алерт пришлет.

А в соседней стойке у меня стоит кластер серваков, у каждого из которых сторадж на 200ТБ (и то потому что я старовер и доверяю онли 10 рейду, а желающие скроить на 60рейде там и 380 ТБ могут положить) как вы собираетесь их оперативно бэкапить и резервировать, чтобы не потерять не то что доступность в HA, а сам этот объем данных если первый же сломанный диск их просто похоронит?

Вообще у гугла в свое время была статья, в которой описывалось различие между потерей доступности (при сдохшей сетевухе), что тоже плохо, но клиенты ее простят, а может и вообще не заметят. И потерей данных - чего делать нельзя. Сдохший диск, это про данные.

Тут не про хранение данных, а про диски локальные. На них хранят только данные, не имеющие ценности

Ага, вроде списка незавершённых распределённых транзакций…

тем что при падении диска нужно восстанавливать данные, а при падении сетевой карты просто поднять другую.
Бэкапы же могут делаться не ежесекундно, поэтому мы теряем данные, теряем время.
Я вообще не понимаю зачем нужно пояснять айтишнику смысл рейдов и отказоустойчивости дисковой системы.

Я вообще не понимаю зачем нужно пояснять айтишнику смысл рейдов и отказоустойчивости дисковой системы.

Не, ну вообще это норм и ничего страшного в этом нет. Все работают на своих уровнях абстракции и резервирование обеспечивают на своем уровне. Или вообще о нем не думают если слой ниже дает SLA. После одного неприятного факапа с потерей данных, у меня был опыт общения с разработчиком, где я рассказывал что если он куда-то положил свой json, то есть ненулевая вероятность что завтра его там уже не будет, шанс маленький, я делаю все возможное чтобы шанс этот был еще меньше, но он все равно есть. Причем у меня сложилось впечатление, что он так эту мысль до конца и не понял.

Зачем программисту пишущему код у себя в IDE, пушащий его в гит, после чего этот код начинает работать на сервере думать и разбираться в каких-то там рейдах. Это не делает его плохим программистом или неайтишником.

Только вот делать заявления о том что норма, а что нет вне своих компетенций конечно не стоит, выглядит странно. Я со своей ЗО с уровня железа и сетей, через уровень виртуализации до приклада уровня базы там пореплицировать для надежности или балансировщики нагрузки покрутить не буду с двух ног влетать в чат к погроммистам с заявами мол автотесты не нужны, а код надо с первого раза писать правильно. Ну или что каждый после работы дампит всю базу себе локально, потому что мы без бэкапов живем.

Уровнем ниже у меня электричество и холод, но я о состоянии ДГУ вообще не задумывался ни разу. У меня SLA. Умом я конечно понимаю что там все может пойти не так и бест практис это геораспределение и даже до начальства эту мысль доносил. Но пока что инфраструктуру и резервирование я строю исходя из того что свет есть как данность.

Ну и конечно одно дело когда мы говорим о каком-то своем проекте, где если сервер сдох я не побегу чинить или искать ему подмену, потому что там все зарезервировано, запас по прочности еще есть, ну или вообще у нас где-то так принято, что прод может лежать неделю и это не критично. И другое дело когда ты эти сервера сдал в аренду, один сдох, а ты такой - кек лол, ну тачки дохнут, бывает, балансируй на оставшемся. Не все клиенты поймут. Я бы вот не понял.

Длительностью и сложность восстановления, а также рисками нового сбоя в процессе. Даже в AWS почти не осталось инстансов с локальными дисками, все хранят данные в отказоустойчивом EBS.

два террабайтника ssd в raid 0 меня приятно порадовали скоростью записи/чтения. temp сервер для программистов 1С получился бюджетный и шустрый, но не надёжный -)

а вот в продакшене рейды 5 на ssd здорово напрягли, когда ПО выдало примерную дату отключения оных дисков - примерно в одно время -)

Это пока у вас один из терраббайтников не начал глючить... Например, фризиться

а что за софтрейд не переживает такое? ЕМНИП в линуксовом есть таймаут

Я пробовал софтрейды на джмикроне, силами ос, и все они безвозвратно ломались

а подробнее можно?

Это все делается либо средствами ОС на уровне драйвера, либо софтом от производителя на том же уровне. Есть куча контроллеров, подстроенных на деловой логике (в моём случае jmicron), которые:

  1. Используют для работы рейда ресурсы ЦП

  2. Делают свою работу очень некачественно

    например, включаешь компьютер, получаешь сообщение, что массив деградировал. Никаких вариантов восстановления нет, только пересоздание. В результате расследования выясняется, что появился бэдсектор на ОДНОМ из дисков зеркала. Вот тебе и рэйд ноль.

    Аналогично и софтрейды от микрософт. Однажды что-то идёт не так и оно разваливается в режим jbod (речь о технологии драйв экстендер)

  3. Ещё интересная штука была матрикс рейд, на одной сборке дисков позволяет сделать два массива: 1-й и 0-й. Для документов надёжность, для игр обем и скорость. Но это так не работало...

Когда это меня достало, решил перейти на sas-диски с контроллером от адаптека. Тысячи долларов. Но тут появились в продаже ssd диски, которые были быстрее этой конструкции, и , притом, дешевле гораздо

Аналогично и софтрейды от микрософт. Однажды что-то идёт не так и оно разваливается в режим jbod (речь о технологии драйв экстендер)

погуглил, оно deprecated с 2010.


у меня больше опыта с linux, raid работает.
некоторое количество виндовых машин с зеркалами тоже есть, проблем не было (не помню, если честно, были ли отказы дисков; но точно проверял, что вынимание одного накопителя система переживает).

Вот только у них бывают неустранимые конфликты в ФС. Как итог - пара файлов из нескольких десятков тысяч утрачены

«у них» — это у кого?
при корректно работающем raid никаких конфликтов быть не может, и если для raid 5/6 ещё можно вспомнить о write hole, то развал файловой системы на зеркале — это из ряда вон выходящее событие, я даже и не вспомню когда в последний раз такое встречал.

У них это у микрософтоа в версии NT от 2002 года

Спасибо за интересную статью и блог в целом, не буду скрывать что реклама сработала и я решил зайти на ваш сайт выбрать себе виртуалку под пет-проекты, но цены меня очень удивили. Можете поподробнее рассказать почему они довольно сильно отличаются от конкурентов? Возможно я упускаю какое-то важное конкурентное преимущество которым вы можете поделиться? Ubuntu/1core/1GB/20GB в Амстердаме стоит 19$(16$ со скидкой), похожий VPS у DigitalOcean обойдется в 7-8$

UPD: Хотя сейчас вижу что в России вы предлагаете стандартные пакеты примерно за похожую цену, планируется ли такое в зарубежных локациях?

Одно из наших преимуществ, которое редко можно встретить у других хостеров — это виртуализация Hyper-V. С одной стороны это дает большую изолированность ВМ машины по отношению к другим средам, с другой стороны лицензия Windows включена в стоимость и это ощущается в цене.

Стандартные пакеты сейчас недоступны на зарубежных площадках, но доступны в 7 из 8 наших российских дата-центрах (за исключением Владивостока). Обратите внимание, что цены на виртуальные сервера в ДЦ Астаны и Алматы хоть и не пакетные, но значительно ниже, чем на европейских площадках.

Ещё не могу не напомнить, что мы предлагаем своим постоянным клиентам много способов сэкономить. У нас есть скидки при оплате сервера на продолжительный период, накопительная бонусная система и промокоды для читателей нашего блога.

виртуализация Hyper-V. С одной стороны это дает большую изолированность ВМ машины по отношению к другим средам

а можно пояснить, в чём большая изоляция в сравнении с kvm/vmware?

Наверное речь про "shielded vms", правда VMware умеет большую часть описанного и даже шифрование памяти от AMD.

Про IPv6 вы, мне кажется, усложняете. Там проблем больших таких нет, понятно что опыт нужно накопить. Хотя, я не работал с железками типа Huawei еще, не знаю насколько оно работает нормально с IPv6. А так просто нужно пробовать, быстрее, чем рассуждать. Я просто знаю, что все работает и даже есть провайдеры на IPv6+IPv4, у которых юзеры даже не заметили перехода.

Для хостинга, правда, это не сильно что-то меняет, все-равно нужно оба IPv4 и IPv6 поддерживать. Самая выгода у провайдеров, им не нужно CGNAT тогда будет, у клиентов больше возможностей с прямым IP для вещей типа Skype. Что удивительно, что еще много больших провайдеров (миллион+), которым пока хватает прямых IP. Кто что успел схватить. А для хостера может быть просто маркетинговый плюс, наверное.

И, кстати, да, интересно, что будет двигать именно создателей сайтов и хостеров поддерживать IPv6. Ведь все-равно нужно IPv4 пока. А там где работает IPv4 уже IPv6 не нужен. Наверное только когда где-то начнут отказываться от IPv4 из-за цены, то будет реальное движение.

Факт: рейды на NVMe делать бесполезно, они замедляют обращения, по сути.

Раз, два.

Почему нет последней версии Win

Потому что вы не понимаете релизный цикл современной Винды, где новые версии фактически являются сервис-паками к Windows 10, а бэкпортируются только самые критические исправления без улучшений и исправлений для остального.

И так по каждому пункту. Могли бы напичать честно - мы нищие делаем дешевый хостинг для непритязательных клиентов, а не выдумывать псевдозаботу.

Единственный честный пункт про IPv6, который не даёт внедрить РКН со своими цензорбоксами и то зачем-то дополнили его отмазками из бинго.

Раз, два.

Первая статья из блога с рекламой собственного софта, вторая не содержит ни одного слова "raid", "рейд" или "массив".

новые версии фактически являются сервис-паками к Windows 10, а бэкпортируются только самые критические исправления без улучшений и исправлений для остального.

Никогда не было, и вот опять Microsoft выпустили непротестированное обновление с критическим багом https://habr.com/ru/articles/283414/ . С тех пор, конечно же, всё поменялось, но осадочек всё равно остаётся. К тому же этих ваших новых улучшений и исправлений просят всегда почему-то пользователи из каких-то очень других, странных, групп пользователй.

отмазками из бинго

"если название сайта поменять на whyoudontneedipv6, ничего не поменяется".

Я тут просто мимо проходил, но уж если язвительно критикуете, старайтесь хоть качество собственной информации проверять.

По сути есть что сказать или только личные нападки?

Я помню как Даталайн прямо говорил - мы взяли решение Х для соблюдения баланса цена/качество для этой услуги. Мы не взяли фичу Y, так как она не укладывается в нашу бизнес модель и дешевле написать своё или посадить специалиста дёргать ручки.

Пока что ровно ничего личного. Лишь указываю (с примерами, в том числе из ваших же слов) на то, что тезисы вашей критики как минимум спорные.

Возможно, стоит попытаться не воспринимать как личные нападки такой широкий круг информации.

Я помню как Даталайн прямо говорил - мы взяли решение Х для соблюдения баланса цена/качество для этой услуги. Мы не взяли фичу Y, так как она не укладывается в нашу бизнес модель и дешевле написать своё или посадить специалиста дёргать ручки.

Что информацию по-разному можно подать, это абсолютная правда. Но, повторюсь, ваша критика этой подачи как минимум спорная.

Коллеги, где бы клавиатуру с КДПВ прикупить?

На eBay или Авито по запросу "IBM Model M SSK".

Мы используем старые технологии, т.к. внедрить новые массово сразу и везде не всегда представляется возможным, т.к. не можем сразу отказаться от старых (парадокс такой получается). В статье, в частности, дается пример про протокол IPv6 по отношению к старому IPv4.
Мы используем большое количество устаревших сетевых протоколов, хотя есть возможность использовать новые. Даже, порой, новые протоколы на момент выхода окончательных стандартов оказываются уже безнадежно устаревшими.
IPv6 появился еще в 1996г. на замену древнему IPv4 (1981г.), но к настоящему времени уже давно успел устареть, так и не вытеснив полностью IPv4; да и IPv4 еще живее всех живых. На момент появления IPv6 мало какое сетевое оборудование и ПО (в т.ч. ОС) его поддерживали; а пока внедрялась поддержка IPv6, в IPv4 появились дополнительные возможности (костыли, продлившие жизнь старому протоколу): бесклассовая адресация, частные IP-адреса, NAT и т.д. А сейчас IPv6 поддерживает практически все сетевое оборудование и ОС.
TCP появился в 1981г., и также уже, конечно, давно устарел: имеет уязвимости (в т.ч. к атакам типа SYN-флуд), проблемы с MSS (MTU, в т.ч. при использовании VPN) и т.д. Аж в 2000г. выпущен стандарт более современного транспортного протокола STCP (основные достоинства — многопоточность и стойкость к атакам SYN-флуд), но он так и не заменил TCP. Также в качестве преемника TCP для использования с HTTP можно рассматривать QUIC (работает поверх UDP). А протокол DCCP появился в 2002г.на замену UDP (1980г.), и также его почти нигде не видно.
Тот же FTP (1971г.) уже давно устарел (в т.ч. незащищенные передача данных и паролей), и на его замену выпущены более совершенные протоколы. Однако FTP и до сих пор жив (хотя количество действующих файловых архивов заметно уменьшилось). В 2020г. поддержка FTP была исключена из браузера Google Chrome (разработчики обсуждали удаление FTP еще с 2014г.), однако по требованию пользователей была возвращена в след. версии браузера, но потом все равно была прекращена. Также и Mozilla неоднократно заявляла об удалении FTP из браузера Firefox к 2021г., некот. время держалась, но потом все же удалила его из браузера.
Но есть и др. ситуации, когда новые версии протоколов внедряются очень быстро, например, HTTP/ 2 и HTTP/3. Финальный черновик HTTP/2 появился еще в 2015г. на замену старой рабочей лошадке — HTTP/1.x. HTTP/2 имеет значительные преимущества по сравнению с предыд. версией (в частности, является двоичным). Еще не успели выпустить финальную версию HTTP/2 — уже ведутся работы по разработке HTTP/3 (работает совместно с QUIC). И уже половина мирового HTTP-трафика идет с использованием новых версий HTTP (причем до выхода официальных стандартов). Но это только потому, что они были поддержаны разработчиками браузеров и веб-серверов, а также ведущими корпорациями и организациями (Google, YouTube, Microsoft, Adobe, Meta, Apple, Mozilla, Netflix, Yahoo и мн.др.) И такой прогресс был достигнут всего за неск. лет (начиная с 2020-2021 годов).
Давно устаревших, но до сих пор использующихся сетевых протоколов — довольно много. Но мы не можем никак отказаться от их использования в пользу др. более современных протоколов, т.к. внедрить новые массово сразу и везде пока не представляется возможным, т.к. не можем сразу отказаться от старых. И многие новые протоколы или новые версии старых успевают безнадежно устареть еще до массового внедрения.

Смысл технологии не в скорости работы оборудования, а в скорости вывода на рынок новых продуктов. Поэтому сделали и быстро-быстро выталкивают сырым на рынок, чтобы на хайпе нового максимум заработать.

Да потому-что это не новые технологии, а комбинаторика уже известной технологии (не технологий)!!! И это уже орудие в руках регуляторов и/или олигархов, или как там их сейчас называют, и это действительно при неумелом использование только вредит!

С теми же SSD мы очень заморочились с надёжностью в своё время, очень долго тестировали классику рейдов. Дело в том, что диски в массиве выходят из строя плюс-минус в одинаковое время. И если один посыпался, то второй может вылететь прямо во время ребилда

а можно больше деталей? я пока не только с таким сам не сталкивался, но и не слышал таких историй.
точнее слышал, но только про баги в прошивках, которые приводят к отказу через N часов работы.

единственное что приходит в голову, у ssd есть проблемы с чтением старых участков, обычно это касается ультрабюджетных накопителей, но вот, скажем, samsung тут тоже отметился, 870 evo и даже серверные pm893/897 страдают от той же проблемы. в результате при ребилде легко наткнуться на нечитаемые области.
однако patrol read + мониторинг отлично решает эту проблему (диск будет отбракован заранее)

Факт: рейды на NVMe делать бесполезно, они замедляют обращения, по сути.

ну замедляют и замедляют, что с того? как минимум в случае с зеркалом я бы не сказал, что замедление критичное.
если у нас приоритет надёжности, то некоторое замедление можно и потерпеть.

Sign up to leave a comment.