Комментарии 100
Большинству контор, даже крупных, нахрен не сдался весь этот набор возможностей СХД EMC на пять листов (также как и большинству гос. покупателей коммутаторов и маршрутизаторов Cisco не нужно 98% их возможностей). При этом весь этот маркетинг о покупке крутого устройства, которое решит проблемы на десять лет вперёд (т.е. проблемы, которых ещё нет) уже тоже приелся.
На мой взгляд, программные решения уже вполне зрелые и надёжные, и перейти от простого iSCSI СХД на встроенном функционале Windows или Linux на одном сервере к Windows Storage Spaces на куче серверов и JBOD или чему-то ещё более сложному вообще не проблема. И такой переход будет решать реальные проблемы. Ну и дешевле будет, само собой.
Что авторы статьи думают на этот счёт?
Софтовые решения дают и разноуровневое хранение и SSD кеширование и дедупликацию.
Аппаратные дают тоже, но софт дешевле и проще в плане поднятия в случае проблем с железом (кроме проблем с накопителями). Для небольших и думаю многих средних контор это предпочтительнее решение. Софт постепенно вытесняет железные решения.
Софт постепенно вытесняет железные решения.
Статистикой поделитесь?
А она хоть у кого-то есть? Как учесть кучу серверов которые используют как хранилище дисковое, как учесть кучу самосбора с вполне себе приемлемыми характеристиками?
Ну а софт, так уж получается в жизни, что специализированные решения со временем переделываются на более дешевые чипы + софт.
Большинство контор даже не подозревает о реальных требованиях к инфраструктуре и СХД. И я значительно чаще вижу обратную ситуацию, коогда из-за непонимания реальных цифр по RPO и RTO, стоимости простоя в час, контора использует решения и архитектуры на порядок худшие, чем реально требуются.
Любые разговоры же «им все это не надо» вообще лишены смысла пока не сформулирована стоимость данных и влияние простоев и потери данных на основной бизнес.
Давайте рассмотрим конкретный пример. Когда-то я участвовал в модернизации (читай создании) ЦОД для одной из крупнейших и авторитетнейших госструктур. Вы, конечно, знаете, но для тех кто не в курсе, скажу, что именно государство в России является основным покупателем СХД. Некоторые крупнейшие вендоры первые годы жили только! за счёт госзаказов от какого-нибудь РЖД. Тоже факт из первых рук, если что.
Так вот, большая госструктура. Каков у неё стоимость простоя в час? Да кто же знает? Это же не коммерческая компания. Но не это главное, суть в следующем.
Поставили мы им СХД за сумму порядка миллиона долларов, подключили к корзинкам с серверами по 10GB FCoE (или iSCSI — не помню). На серверах VMware vSphere. Всё работает, всё хорошо.
Проходит время и диски начинают сыпаться, они же там обычные, что бы и кто не говорил про «доработку прошивок», «дополнительное тестирование» и пр. И в какой-то момент вендор говорит: «Ребята, вы под санкциями, менять диски не можем!». А купить при наличии гарантии не так просто.
Так чего же делала эта СХД за бешеные деньги — то же что и 99% СХД — обслуживала кластер виртуализации. Всё, что её отличало от самосбора в этом смысле — два независимых контроллера. Хотя и самосбор может иметь сколько угодно путей просто добавив сетевые интерфейсы.
Так что я не к тому, что СХД надо срочно заменить на SuperMicro + CentOS + tgtd. Я про то, что представление о корпоративном ИТ всё же меняется и зачастую такая замена уже уместна. Также как и использование публичных облаков, что в первые годы их продвижения казалось скорее экзотикой.
RPO / RTO — это не сложновысчитываемые характеристики, а всего лишь целевые показатели доступности сервисов, которые ДОЛЖНЫ присутствовать в техническом задании на проектирование.
Проектирование любой инфраструктуры без данных показателей — это шаманство, а не инженерная работа.
На практике получается совсем нелегко добыть от бизнес-подразделений показатели руб/час по простою и потере данных, из которых мы конечно получаем экономическое обоснование той или иной технологии в архитектуре инфраструктуры, или непосредственно сами RPO / RTO. Но это говорит лишь о слабости и незрелости менеджмента в целом. Никакой связи с безграмотностью проектировщика или его отношением к проектированию.
«Всего лишь обслуживала кластер виртуализации». Обслуживание кластера виртуализации — это предоставление пространства хранения данных с заданными / удовлетворяющими показателями производительности и надежности. При этом можно использовать весь набор технологий — репликацию (с управлением через средства гипервизоров, в данном случае SRM), снапшоты, QoS для выделенных под нагруженные сервисы отдельных томов, журналирование и так далее.
То, что хранилка за миллион долларов была тупой дисковой полкой с двумя контроллерами — это фейл, извините, вашего проектирования. Или попросту освоение бюджета.
Мне же не так повезло. Мне приходилось прикидывать «на глаз» что есть сейчас и что будет. Выбирать из одного вендора (потому что другие не подходят). Экономические обоснования всегда должны быть в рамках бюджета. Да и вообще — заказчик как правило был из госсектора (хотя и не всегда), где понятие стоимости простоя в рублях вызовет тяжёлое недоумение (представьте, к примеру, Ген. прокуратуру). Ну и ТЗ и прочее писалось со стороны — пообщаться с бизнес-пользователями, поинтересоваться планами развития ИТ и будущими потребностями было просто не у кого или нельзя.
Вот мне почему-то кажется, что мой случай несколько чаще встречается на практике чем ваш. А может и нет, может просто так сложилось.
В самом простом варианте, можно посчитать на сколько увеличится трудоемкость выполняемых процессов и определить стоимость простоя как суммарное увеличение трудоемкости (и стоимости соответственно). Не правильно и очень грубо, но вполне возможно.
Одним из мамонтов пока остается HPE 3Par, в котором используются ASICи.
Но не нужно пытаться натянуть мартышку на глобус, для больших компаний этот же подход просто не катит.
А вот огромные клауд-провайдеры а-ля AWS/Azure/Google/Alibaba/IBM могут себе позволить это держать на самосборе. Но даже они не могут покрыть все портебности бизнеса в системах хранения, собственно по этому вендоры появляются как услуга в этих гигантах со своими железяками и софтом. Потому что десятки лет опыта, интеграцию и экосистему, не пропьёшь.
Нет денег на что? на ЭТО?
ИТ на сегодня — это часть средств производства. В рамках ИТ оборудования есть система хранения данных. Стоимость покупки средств производства (CapEx) и обслуживания средств производства (OpEx) учитываются при продаже продуктов / услуг.
Далее мы рассматриваем влияние доступности / качества средств производства на само производство. Если встанет станок, то как это повлияет на деятельность компании? Если будет утерян годовой отчет, или полностью будет утеряна 1С: Склад, то как это повиляет на деятельность компании?
«Денег нет» — это неверная фраза, верная будет звучать так: «ты, как ответственный за ИТ системы, не предоставил мне, ответственного за финансы, ИТ-риски и влияние их на основную деятельность компании, а я не заложил это в бюджет». Об этом я тоже не раз писал.
www.beerpanda.ru/?p=176
И да, если влияние ИТ систем и в частности СХД на компанию низкое и компания может спокойно простоять дня три без СХД, то выбор SOHO системы или самосбор вполне обоснованный и правильный. Но сначала надо посчитать.
сейчас один такой диск иногда может больше, чем дорогущая полка из-за устаревших интерфейсов (точнее их пропускной способности)
хитро спрятана проблема NVMe
А в чё собственно проблема NVMe? В том, что не все вендоры к нему уже готовы?
NetApp сейчас, пожалуй, лидер в этом направлении, так в «Full NVMe» массиве AFF A320 полки подключаются через 100GbE через RoCE, к примеру.
Но проблема одиночного диска в его:
1. Надежности. Умрет диск — пропадут данные
2. Монопольном доступе. С диском может работать только система, в которую он физически включен.
Ну он уже давно LiveOptics, но картинки рисует красивые и информативные :)
А можно подробнее, что прекрасного в DPACK? Кроме красивых картинок, которые можно с умным видом показывать начальству или заказчику? По мне так утилита от уважаемого вендора, которая не умеет анализировать уже собранные performance логи с его же вендорских СХД выглядит мягко говоря странным поделием. Если проблемы с производительностью у меня были «вчера», то чем мне поможет DPACK «сегодня»? :). Это не говоря уже про СХД сторонних вендоров.
DPACK не для анализа проблем, котрые были вчера. Это инструмент, который позволяет понять текущее состояние, а дальше уже решать, что с этим делать. Чаще всего его используют для сбора статистики для последующего сайзинга нового решения.
Таки уважаемый вендор совсем не под этим соусом подает его партнерам и заказчикам :), скорее как серебряную пулю. Т.е. по факту DPACK в лучшем случае подходит для того, что бы сильно на глазок прикинуть текущую нагрузку заказчика со стороны серверов (и только некоторых СХД уважаемого вендора) и не более того :). При этом вендор отказался от Mitrend, который выглядел куда как интереснее и умеет намного больше и лучше чем DPACK (в то время даже не знавший, что в природе существует еще что-то кроме серверов) :).
Ну тогда это вопрос к вендору. Я DPACK как раз воспринимаю как инструмнет для "прикидывания на глазок".
Собственно к тому почему DPACK вдруг "на глазок". Мне не очень понятен например смысл тратить 3 дня или неделю на снятие данных о производительности систем заказчика в реальном времени в случаях, когда на СХД уже присутствует готовая статистика на 90 дней назад. Но DPACK с ней работать почему-то не научили. Проблема тут только в том, что статистика эта для простых смертных доступна только при прямом подключении в интерфейс управления СХД, а для пресейлинга это как раз не назвать удобным.
А для анализа производительности есть бесплатные утилиты от производителей СХД, тот же OCUM или Cloud Insights.
Где хоть слово про типы нагрузки? (OLTP/dwh)
Где рассказ про iops/latency/bandwidthи их зависимость?
Мне кажется те, кто в теме знают что делать и без таких статей. Те, кто не в курсе после этой статьи будут еще более не в курсе.
Лучше пойти к 2-3 вендорам и поговорить с их пресейлами и сравнить показания — пользы будет больше
Лучше пойти к 2-3 вендорам и поговорить с их пресейлами и сравнить показания
Собрались американец, русский и француз, и говорят по-китайски…
Сколько раз было — закидываешь вендору спеку — столько то iops, под такие то задачи, такой объём… один на флеше считает, второй на гибриде — какой пользы тут будет лучше?
А ты говоришь флэш, гибрид…
в некоторых
Давайте пересчитаем их по пальцам :)
Спеки урегулировались не один месяц, и было большой проблемой даже привести их к более-менее одинаковым показателям… Например, у одного вендора дополнительные диски можно втыкать по одному а у другого только пару, или у одного емкость дисков / полки больше чем у другого и там надо докупать еще одну полку (цена растет) и т.д.
В итоге вопрос выбора вендора — это не простой процесс.
Потому что надо выбирать не по одинаковому количеств удисков, а по требуемым показателям производительности, наджености и функциональности. Каждый вендор может выполнить это требования, используя разные технологии и разное количество дисков.
Но чтобы просто сравнить спеки, привести их к более-менее одинаковым характеристикам — надо попотеть… а потом оказывается что один вендор конкретно дороже из-за таких вот особенностей.
>Где рассказ про iops/latency/bandwidthи их зависимость?
Вероятно ждут вашего пера. Цель данной статьи не включала данную тематику.
Напишите замечательную статью как выбирать СХД правильно. Со всеми подробностями, включая общую теорию проведения пилотного тестирования, генерации нагрузки, правильной трактовки результатов. Судя по вашим комментариям, вы являетесь в этом несомненным специалистом. Почту за честь учиться общей теории СХД по вашим статьям.
С точки зрения читателя, у меня есть прекрасная статья от Антона и эээ ничего от доктора. Кто из вас мне больше полезен?
Нет ничего плохого, чтобы спросить у автора о пропусках. Отличный ответ, что это за рамками данного материала. А вот дальнейшее нытье что все плохо, но сам не дам… Это не достойно профессионала.
Простой пример — у вас нагрузка OLTP, и вы решаете по статье сделать все на базе iscsi (там же написано что это тоже самое что и fc). При этом для экономии вы скорее всего пустите данные по тем же свичам, что и общий трафик (хорошо если в разных vlan-ах). И тут кто-то решил себе на вечер скачать фильм, или просто воткнули в сеть кривой принтер — и вот уже ваша OLTP база офигевает от задержек в пару секунд на запись/чтение, вас натягивают как сову на глобус у начальства.
Статья под таким названием скорее вредная, чем полезная. Жаль что вы этого не понимаете
О том как вы пустили все по одним свитчам в одном VLAN и как у вас в офисе народ качает на вечер фильмы и в итоге лежит ваша 1С, а потом вас натягивают как сову на глобус?
Но вернемся к вопросу — вы вольны написать правильную статью. Займет у вас не сильно больше времени, чем написание вот всех этих обличительных комментариев.
И есть еще одно подозрение — что после статьи такого уровня у вас сменится работа и вырастет зарплата
И есть еще одно подозрение — что после статьи такого уровня у вас сменится работа и вырастет зарплата
=) посмеялся
Но вернемся к вопросу — вы вольны написать правильную статью. Займет у вас не сильно больше времени, чем написание вот всех этих обличительных комментариев.
печально что вы не слышите что вам говорят — это большая целая статей, в которые должны входить основы хотя бы:
Теория (3-5 статей статьи):
- физическая теория (диски/рейды/iops/latency и тому подобное)
- теория про нагрузки и какие они бывают
- блочный/файловый доступы
- построения san-сетей
"Практика" (еще не понятно сколько статей):
- что такое классические san-сети и как с этим жить
- что такое sds и как с этим жить
- сравнение когда что более уместно
- высокая доступность
- высокие нагрузки
И это то, о чем я сходу подумал. А есть еще тысячи моментов которые всплывут во время написания.
По сути все эти выборы сводятся к шутке с баша — "какой лучше дистрибутив Linux выбрать? Тот, который стоит у твоего знакомого админа"
Займет у вас не сильно больше времени, чем написание вот всех этих обличительных комментариев.
Каждая статья это примерно 3-5 дней плотной работы (актуализировать знания, подобрать пруфы, само написание). В итоге это реально месяцы работы и на выходе по сути просто книжка. И вы реально считаете что я трачу столько на комментарии?
При этом для экономии вы скорее всего пустите данные по тем же свичам, что и общий трафик
Давайте будем честными — это не проблема выбора СХД, а полное отсутствие компетенции у человека, который этим занимается. Тут ни одна статья не поможет.
Теорию струн бесполезно рассказывать людям у которых нет соответствующей базы для понимания.
Завалить свич скачкой фильма? У вас свичи 10 мегабитные? ЧП могут быть, но такое подключение имеет иногда и плюсы.
А вот попробуйте сами что-то написать. Прийдут такие же как вы и спасибо не скажут.
Антон, вполне занимательная статья для общего развития. Спасибо! Мне казалось ты ушел в воинствующего HCI вендора (возможно ошибался), где все приходящие немедленно становяться адептами нового учения :). Рад что с тобой такого не произошло и здравый взгляд на вещи ни куда не делся.
Во вторых, статья принципиально задумывалась про классические СХД, здесь намеренно ни одно HCI решение не упомянуто.
Непосредственно как фишка erasure coding именно под таким названием применяется только в гиперконвергентных системах, поэтому я просто убрал его из заголовка. Поскольку гиперконвергенцию в рамках данной статьи мы не рассматриваем от слова совсем.
В классических erasure coding не используется, но применяется он и не только в гиперконвергентных системах. Есть еще горизонтально масштабируемые системы хранения, которые не являются гиперконвергентными и появились за долго до них. Isilon, HydraStor, Elastic Cloud Storage и возможно еще какие-то похожие по принципам защиты данных решения.
Optimal erasure codes
Parity: used in RAID storage systems.
Это к чему сейчас? :)
К тому что WiKi редактируется всеми и ни кем?
Или к тому что parity это частный случай для Erasure Code, но используемый только в RAID (а значит и классических СХД)? :)
Как-то вы очень цеф обидели.
В посте ceph упоминается только в фразе про "наколенные изделия".
Если зрелые системы SDS на базе устоявшихся платформ периодически оформляются в виде коммерческих продуктов как например:
ZFS
— Nexenta
— Open-E
— Raidix
— etc.
Lustre
— DDN
— Supermicro
— Hitachi
— HPE
— etc.
Scality
— HPE
— DELL
WEKA.IO
— HPE
— DELL
— Supermicro
То Ceph на сколько я знаю никто не продает как продукт с поддержкой. Потому что на коленке и сырой.
Э… Вы когда-нибудь слышали о компании Red Hat? И что они шипят RH Storage с цефом внутри? А уж сколько они за саппорт берут...
Алсо, я хочу с интересом послушать про вендора, который готов взять полную ответственность за баги и их последствия.
После покупки RedHat IBMом, последний прекратил поддержку ряда продуктов, в частности коммерческого ceph, он сейчас передан комьюнити, новых продаж с поддержкой не будет.
А что значит СХД? Вообще то, слово на "Х" понял, а все вместе?
На своем опыте могу сказать одно — СХД может появиться в компании при определенном уровне развития и зрелости.
Для меня СХД — это как минимум два блока питания, два контроллера)
Как выбрать СХД, не выстрелив себе в ногу