Pull to refresh

Comments 50

Хорошая технология, чтобы обманывать покупателей услуг виртуальных серверов, обещая им локальные nvme.

Сейчас эта технология позволяет получить производительность в ~4.7M IOPS @ 4K (randread) и средним latency в ~15 мкс на эмулируемом NVMe диске, подключенном к remote Storage таргету по NVMe over Fabrics (это на 100GbE картах).
Так что, при желании, провайдер может дать покупателю облачного сервера производительность в несколько раз выше локального NVMe диска :)

Так то да, но и атомная энергия по-идее это свет в домах и тепло. А по жизни — разные применения получились, и в основном как побольше людишек выпилить.
Получается теперь наличие локального nvme не показатель, надо Iops мерять периодически.
Статья огонь, где еще о таких волшебных железках узнаешь.
UFO just landed and posted this here
Оно никогда не было показателем. Единственный показатель это заявленные иопсы. Как подключен диск к машине совершенно этому ортогонально. Вы может удивитесь, но скоро и видеокарты не будут подключены к машине локально.
В статье люди намеряли 15 000 иопс на чтение и 10 000 на запись. Как-то жалковато.

Производительность в основном зависит от того, какая СХД используется в качестве бэкенда для эмуляции. В статье говорится о Ceph, который применяется не для производительности, а скорее для минимизации стоимости решения и достижения максимальной емкости хранения.
Если нужна производительность — используете СХД с NVMe дисками и поддержкой NVMe over Fabrics.

Вообще-то статья подтверджает мой изначальный тезис. В блоге облачного провайдера рассказываетя о том, как они подключили медленный дисковый кластер по сети в качестве локального nvme. Наверное ради этого всё и задумывалось. Если нужна быстрая сеть, то зачем тогда нужна эта карта? Быстрые сетевые диски итак можно подключать безо всякой маскировки, которая в данном случае ещё и денег стоит.
Ничего она не подтверждает. Если клиенту заявлено 15к иопсов, то он их получит и никого не волнует, локальный это диск или сетевой. Вся идея nvme over fabrics в том, что разницы на практике нет. Задержки теже, а скорости можно получить во многие разы выше.

Эта карта именно для быстрой сети и нужна, т.к. современные процессоры не способны прокачать сотни гигабит. Поэтому индустрия пошла по пути SmartNIC/DPU — в сеть торчит эта железка, а за ней находятся pcie диски. Почитайте про Fungible DPU. BlueField2 конечно довольно убог в этом плане, ибо очень медленный, но другие представители этого класса устройств с этим справляются на ура. Собственно, эту тему по-моему начал амазон со своими nitro.
Эта карта именно для быстрой сети и нужна, т.к. современные процессоры не способны прокачать сотни гигабит.

Тут есть противоречие. Если процессоры не способны, то зачем такую карту втыкать в сервер, где процессор не способен прокачать её скорость?

200Гбит — это всего лишь 20 GiB. Рейд из нескольких nvme.

Но на практике карта имеет всего 8 линий PCI-e, поэтому она никогда не сможет прокачать 200Гбит.
А смысл в том, что процессора в шасси никакого и не будет, а если и будет, то он будет не задействован в этих задачах. Я поэтому упомянул funible DPU. Там ничего кроме дисков и DPU нет.

Но на практике карта имеет всего 8 линий PCI-e, поэтому она никогда не сможет прокачать 200Гбит.

bluefield с двумя 100гбит портами имеет 16 линий 4.0, а это даже больше 200гбит.
А смысл в том, что процессора в шасси никакого и не будет, а если и будет, то он будет не задействован в этих задачах.


Эта карта как раз обеспечивает доступ процессора к nvme хранилищу. В этом и суть статьи, что карта нужна для организации доступа виртуалок к «локальному» nvme.
Чего? При чем тут обеспечение чего-то? У вас вопрос был «Если процессоры не способны, то зачем такую карту втыкать в сервер, где процессор не способен прокачать её скорость?» Ответ на него простой — там, где эта карта будет стоять, процессора и не будет. Это один из юзкейсов DPU — JBOF шасси, в которых нет ничего, кроме SSD и DPU. Второй юзкейс — да, втыкать эту карту в сервер, чтобы эмулировать nvme pcie устройство, хотя сами диски находятся где-то далеко. Полезно для того, чтобы сервер мог загружаться с таких «дисков». В вычислителях не нужно будет даже загрузочные диски ставить.

Маленькое уточнение - эта карта - SMART NIC а не CONTROLLER. по железу это почти одно и тоже , разница лишь в тонкостях настройки PCIe шины. SMART NIC он "End Point" на шине, а CONTROLLER он "root complex". конкретно эта модель ввиде контроллера никогда не выпускалась так как является младшей в линейке. в линейке так же есть х16 борды с 100GbE /EDR портами и повышенной частотой ядер. на их базе и создавались контроллеры которые используются в JBOF.

кстати , в JBOF есть еще один немаловажный компонент - PCIe свич. ибо прямое подключение SSD к DPU не еффективно. все же SSD остается "узким местом" для пропускной способности (подразумевается что PCIe работает в gen4 режиме). а вот подключение к скажем 32ум дисками через свичи выглядит уже куда более интересным.

Гугл говорит, что root complex она может, но тут может действительно не уточнили просто вариант карты конкретный. Да и в даташитах это мелькало forums.developer.nvidia.com/t/obtaining-and-building-linux-kernel-source-for-doca-1-0/175916/4
Да даже если не может, я все же больше о DPU в общем там вел речь. Сабж так то обрезок во многих планах — проц совсем медленный у нее по сравнению с конкурентами. Надо 3 версию ждать видимо.

ибо прямое подключение SSD к DPU не еффективно

Ну хз. Если у нас дофига дисков и свитч, это значит на полную все диски работать не смогут. В каких-то платформах это наверное не критично. Я вот смотрю fungible платформу — там свитча не видно, DPU напрямую к бэкплейну похоже подключены.
Понятное дело, что если мы строим JBOF, где важен объем для тех же QLC дисков, то там да. Можно свитчами обложиться и петабайты ворочить. Скорость тут второстепенна. Но если цель все таки получить сверх быстрое СХД, то как по мне должно быть прямое подключение.

сабж был залочен для Смарт Ников. тот же Fungible даже S1 будет не просто впихнуть даже в FHHL форм фактор (у них вобще есть PCIE девайсы? а то я на сайте не заметил.)

как их сравнивать по скорости? у них архитектура ядер разная. я не знаю например как сравнить 52 ядра 1.6Гц МИПС с 8 ядрами на 2.5Гц АРМ. подскажите?

каких конкурентов вы имеете ввиду?

если сравнивать сабж с fungible F1 по PCIe конечно последний жирнее и имеет собственные 64 линии (ген 3 правда). и конечно же ему не надо никаких свичей он сам себе свич. с другой стороны такой чип больше никуда не пойдет кроме тех самых систем о которых вы упомянали. т.е. гибкость в применении весьма скромная. BlueFiled-1 имел 32 линии. BlueField-3 ..... скоро узнаем :)

у них вобще есть PCIE девайсы? а то я на сайте не заметил

Еле откопал в их куче рекламы, таки есть pages.fungible.com/rs/038-PGB-059/images/PB0051.00.12020330-Fungible-Data-Centers.pdf

как их сравнивать по скорости?

Я чисто сужу по отзывам, что блюфилд совсем медленный. Собственно и подход у них какой-то не такой. Все остальные обмазывают свои DPU аппаратными ускорителями, внедряют ОС собственные, SPDK оптимизируют под них и прочее, а про блюфилд ничего толком. Ну и подход к железу разный, да. Что fungible, что какой-нить kalray — там прям видно, что это специализированный ускоритель под задачу, а не прилепленный ARM SoC к сетевухе.

каких конкурентов вы имеете ввиду?

Хотя бы fungible и kalray. По крайней мере по описанию и позиционированию, у них решения так сказать next-gen. Про остальных просто ничего не знаю, так то решений дофига, рынок быстро заполняется.

странный отзыв. ибо скорость таких девайсов сильно зависит от того, чем их загружать. сравнивали на одних и тех же аппликациях с теми же Песандро. DPU не единственная функция которую они могут выполнять. и кстати голый диск контроллер / диск виртуализатор очень скромен по ресурсным запросам. заускали DPDK на полную пропускную способность.

обмазывают свои DPU аппаратными ускорителями, внедряют ОС собственные

ну так и тут аккселераторами полна ж... простите горница людей. :) но с ними другая проблема. они место на силиконе хотят и электричество жрут в не зависимости от использования. а собственные ОС - клиенты такого не любят. проходили...

Есть просто вот такая штука arxiv.org/pdf/2105.06619.pdf и результаты тут совсем не впечатляют. В раздельном режиме он не тянет, только в embedded режиме, что как-то не очень для устройства, которое как раз таки должно быть точкой подключения, а не только снифером пакетов.

и кстати голый диск контроллер / диск виртуализатор очень скромен по ресурсным запросам

Да, но когда речь о миллионах IOPS, я чето начинают сомневаться в блюфилде. Особенно смотря на то, что творят его конкуренты.

клиенты такого не любят. проходили...

Ну это видимо до поры до времени, пока запросы маленькие. Все таки внедряют их явно не от хорошей жизни, а чтобы достичь нужных скоростей. Контрол плейн пожалуйста на линуксе, а датаплейн работает на том, что лучше подходит для задач. Думаю гиперскейлеры переживут, раз уж им не лень с FPGA даже возиться. А остальным, по большому счету, все эти DPU не особо и нужны.
Ceph спокойно может миллионы иопсов наравне с коммерческими СХД за тонны денег. Тут данная статья совсем не показатель.
Кстати, в даташите по этой карте нигде не указано про 4.7М иопсов. Откуда цифры?

Более того, она не может выдать (та карта с картинки) такие цифры даже в теории, поскольку имеет всего 8 линий pci-e. По моим расчётам именно эта карта может выдать не более миллиона иопс с учётом многочисленных накладных расходов.
В даташите никаких опсов указывать и нет смысла, это не накопитель, а DPU. Сколько он чего выдаст целиком и полностью зависит от того, какое приложение на него будет установлено. А цифры думаю взяты из готовой системы. Не знаю какой, но гугл с подобными цифрами выдает решение western digital, которое точно также полагается на DPU со 100гбит интерфейсами.
В даташите никаких опсов указывать и нет смысла


Конечно, имеет. Потребитель должен знать насколько узким местом является эта карта. Если на практике она пропускает всего 1 миллион иопс, то ваша дутая цифра в 4.7М (которая относится к маркетинговым материалам WD, а не к этой NVidia-карте) — это маркетинговый bullshit.
Вы совсем читать не умеете? Может давайте intel будет у процессоров своих iops указывать? Чушь не порите.

это маркетинговый bullshit.

Ну точно читать не умеете. Во-первых. Где я сказал, что это решение на bluefield? Там стоит другой DPU. Во-вторых, ваши расчеты не стоят выеденного яйца, т.к. ни на чем не основаны.
Ну точно читать не умеете. Во-первых. Где я сказал, что это решение на bluefield?

Эта статья посвящена конкретной карте NVIDIA bluefield 2. Поэтому не нужно вводить читателей в заблуждение, подсовывая им цифры из маркетинговых материалов WD.

Во-вторых, ваши расчеты не стоят выеденного яйца, т.к. ни на чем не основаны.

Читай, изучай.

Из 100Гбит выжимают только 13-36Гбит, да и то при использовании размера кадра от 256КБ до 1МБ. Такой размер кадра уменьшает иопсы случайного доступа 4К в 32-256 раз. Поэтому реальные случайные иопсы, которые даст 1 такая карта будут в 100-200 раз ниже, чем даст локальный накопитель.

Как и получилось у авторов статьи. Хотя они подключили целый КЛАСТЕР, а не какой-то там жалкий 1 накопитель.
Эта статья посвящена конкретной карте NVIDIA bluefield 2. Поэтому не нужно вводить читателей в заблуждение, подсовывая им цифры из маркетинговых материалов WD.

Это нужно говорить человеку выше, который цифры дал, не мне. Он точно так же говорил о nvme-of решениях, а не конкретно bluefield.

Из 100Гбит выжимают только 13-36Гби

Ага, а 400гбит свитчи и сетевухи делают, потому что делать нечего. В вашей же статье все 100гбит они спокойно достигли твиком пары параметров, которые и так все знают. И все эти ваши разы опять не стоят ничего. Когда на практике все эти иопсы будут посланы в параллель с большой глубиной очередей, все эти скорости будут легко достигнуты.
И все эти ваши разы опять не стоят ничего.

Вот когда на практике это будет сделано, тогда и поговорим. А сейчас ты просто работаешь по маркетинговым материалам как попугай.

Нужно дождаться результатов сторонних тестирований.
И, о чудо!!! Мы имеем всего 15К иопс с целого кластера. Читай статью.

А мой 1 локальный NVMe — 750К.
Вот когда на практике это будет сделано, тогда и поговорим

Можете погуглить, примеров достаточно вплоть до десятков миллионов иопс. Не хотите — ваше дело верить, что это все маркетинг. Вы, будучи продаваном, лучше бы за трендами следили. А то так индустрия без вас на nvme-of перейдет, а вы все будете твердить, что оно не работает.
Для nvme-of точно также нужны nvme, которыми я и торгую.

Можете погуглить, примеров достаточно вплоть до десятков миллионов иопс.

Что-то не нагуглил ни одного примера NVMe-OF с десятками миллионов иопс не связанного с производителями хранилищ NVMe.

Вообще, единственное что есть, это маркетинговый материал WD c 4М.
не в ту сторону смотрите. єта технология по сути значительно расширяет провайдеру возможности для оверселлинга клиентам ресурсов которых у провайдера даже близко нет. За счет тех клиентов кторые платят за резервирование мощностей, но по факту их никогда не используют на полную.
nvme это просто протокол, который вообще ничего не означает и ни привязан ни каким дискам. Сейчас по nvme будут подключать hdd. Соответствующая поддержка внесена в nvme спецификацию, а производители дисков думают, как это реализовать в контроллерах их дисков.

Технология эта нужна, чтобы осовременить стек и существенно увеличить скорость СХД. nvme это общий протокол доступа к блочным хранилищам. Как iscsi, один в один, который уходит на свалку истории. Сейчас nvme диски, которые pcie интерфейс имеют, очень сильно ограничены в скорости т.к. завязаны на медленные и малочисленные линии pcie. С nvme over fabrics с помощью вот таких DPU и SmartNic как в статье, диски будут подключены к какой-нить ethernet фабрике, где скорости куда выше нынче, чем в pcie.

Что до обмана, никто никого обманывать не будет. Пользователя вообще не волнует, как ему диски подключены. Провайдер дает ему главное — сколько иопсов он получит. Подключен диск локально или по фабрике значения тут не имеет. Благодаря фабрике как раз таки провайдер имеет куда больше возможностей предоставить много иопсов всем и сразу.
Сейчас по nvme будут подключать hdd.

Не сейчас, а в возможном будущем. В реальности таких HDD СЕЙЧАС не существует.

Сейчас nvme диски, которые pcie интерфейс имеют, очень сильно ограничены в скорости т.к. завязаны на медленные и малочисленные линии pcie.


Эта карта имеет всего 8 линий PCI-e, поэтому она не сможет даже в теории обеспечить линейную скорость большую, чем всего 1 хороший локальный NVMe c 8ю линиями.

А несколько локальных NVME в рейде точно её превзойдут. По линейным скоростям уж точно. Какое бы крутое не было удалённое хранилище.
Не сейчас, а в возможном будущем. В реальности таких HDD СЕЙЧАС не существует.

И какой смысл в этой придирке? У меня вообще слово «будут» написано. Их появление уже гарантировано. Сроки тоже есть примерные — сегейт собирался сэмплы к концу следующего года дать.

Эта карта имеет всего 8 линий PCI-e, поэтому она не сможет даже в теории обеспечить линейную скорость большую, чем всего 1 хороший локальный NVMe c 8ю линиями.

Основные формфакторы в датацентрах сейчас это U.2 и m.2, а это не более 4 линий. Поэтому версия этой карты на 16 линий спокойно потянет 4 таких накопителя. Если поставить несколько карт, то еще больше.

А несколько локальных NVME в рейде точно её превзойдут. По линейным скоростям уж точно. Какое бы крутое не было удалённое хранилище.

Весь смысл DPU в том, что он сможет всю это пропускную способность выдать по фабрике. Нет никакого смысла в этих ваших локальных дисках в рейде, если их нет в машине, где крутится код клиента. Смысл, чтобы взять эти диски из соседней стойки и не потерять в скорости. Для этого nvme over fabric и эти DPU и делают.

И как раз локальные nvme в рейде никого не превзойдут. nvme over fabric решение не имеет пределов по масштабированию — этих коробочек с дисками и DPU можно хоть тысячу наставить и подключить как одно nvme хранилище в виртуалку. Локальные диски будут оставлены далеко позади очень быстро.
Их появление уже гарантировано.


Пока вещь не появилась, то ничего не гарантированно.

Основные формфакторы в датацентрах сейчас это U.2 и m.2


m.2 — это основной формат в настольных компьютерах и ноутбуках. А в датацентрах российских основной формат — hh-hl, западных — u.2.

Поэтому версия этой карты на 16 линий спокойно потянет 4 таких накопителя.


Не потянет на полной скорости, так как есть ещё сетевые издержки и сетевые задержки. Сеть всегда медленнее локального доступа по PCI-E.
Пока вещь не появилась, то ничего не гарантированно.

Интерес гиперскейлеров это гарантирует. Люди отказываются от sata и sas.

m.2 — это основной формат в настольных компьютерах и ноутбуках. А в датацентрах российских основной формат — hh-hl, западных — u.2.

Опять чушь порите. Почитайте распределение формфакторов ssd в энтерпрайзе www.ngdsystems.com/page/Flash-storage-grows-up-with-new-EDSFF-SSDs-denser-3D-NAND Подавляющее большинство это сата, u.2 и m.2. hh-hl там на уровне погрешности, это мертвый продукт в свете перехода на новые формфакторы заместо u.2. Уж про m.2 так вообще смешно такие вещи читать. Вы похоже вообще с рынком не знакомы. Это один из основных форматов у гиперскейлеров.

Не потянет на полной скорости, так как есть ещё сетевые издержки и сетевые задержки. Сеть всегда медленнее локального доступа по PCI-E.

Сеть уже быстрее локальных pcie — нынче 400гбит порты внедряются. Только с приходом pcie 5.0 можно будет делать сетевухи хотя бы с одним таким портом — больше 16 линий не может. Отчасти поэтому nvme-of и внедряется. Так что пропускную способность сеть обеспечит полную, это не проблема вообще. Латентность — да, чуть больше будет, но тоже не особо проблема. Вы же знаете про RDMA, правда?
Интерес гиперскейлеров это гарантирует. Люди отказываются от sata и sas.

NVMe протокол на hdd никак их не ускорит. Не верь маркетологам.
HDD даже SATA III полностью утилизировать не могут.

А с рынком NVMe я точно знаком лучше тебя. Так как торгую ими. Об этом есть инфа в профиле.

Там вообще график трендов, а не реального использования по данным какого-то журнала. Даже без ссылки на сам журнал.

А я говорю не о трендах, а о реальности.

m.2 сильно проигрывает u.2, так как с ним нельзя делать горячую замену, рейды с hot-swap. Он маленький. Там не разместишь много памяти, мощный процессор и суперконденсаторы.
Я знаю, что торгуете, я поэтому и намекаю — вам бы лучше в рынке разбираться стоило бы. Подобные заявления про m.2 позволено делать разве что обывателям, которые про серверное железо никогда ничего не слышали.

Я тоже говорю о реальности. Помимо этого графика можно было пойти и ознакомиться, что ставят гиперскейлеры в свои серверы. Если вам конечно интересно разобраться в теме чуть по-лучше. Ежели нет, можете продолжать дальше верить, что m.2 это настолки и ноутбуки
Ежели нет, можете продолжать дальше верить, что m.2 это настолки и ноутбуки


Вера тут нипричём. У меня было всего парочка клиентов из дешевых хостеров, которые брали m.2 для серверов с целью экономии.

А все остальные предпочитали hh-hl. И только после этого только U.2.

Но доля u.2 медленно повышается, так как на новых шасси они стали появляться.
NVMe протокол на hdd никак их не ускорит. Не верь маркетологам.
HDD даже SATA III полностью утилизировать не могут.

А кто сказал что-то об ускорении? Ускорение таки есть небольшое, но это не важно. Единственная причина перевода hdd на nvme это унификация стэка протоколов и интерфейсов. И толкают эту идею никакие не маркетологи, а инженеры, которые сейчас спеки пишут и контроллеры разрабатывают.

m.2 сильно проигрывает u.2, так как с ним нельзя делать горячую замену, рейды с hot-swap. Он маленький. Там не разместишь много памяти, мощный процессор и суперконденсаторы.

Невероятно, а я и не знал. Представляете, именно поэтому гиперскейлеры придумали новый формфактор, чтобы заменить все свои m.2 и решить перечисленные проблемы. А заодно еще u.2 получится на пенсию отправить, с ним тоже свои проблемы.
заодно еще u.2 получится на пенсию отправить, с ним тоже свои проблемы.

А какие проблемы с u.2? Я вижу только одну — предлагает всего 4 линии, но новомодные форматы тоже не более 4х предлагают.
Латентность — да, чуть больше будет, но тоже не особо проблема. Вы же знаете про RDMA, правда?

проблема. низкие задержки — это причина, по которой ssd вытеснили hdd. и это единственный фактор, который продаёт оптаны.


и RDMA никак не может сделать задержку обращения к сетевому накопителю меньше, чем к локальному

Не только поэтому. Они вытеснили, потому что они могут много iops, а их много они могут, потому что очереди глубокие делаются, что скрывает задержки. Когда идет речь о nvme-of мы имеем теже самые глубокие очереди, что даст нам то же количество iops, но с чуть больше задержкой. Это замедлит интерактивные операции, вроде ожидания отклика на действие юзера, но в глобально масштабе параллельность запросов эти латентности скрывает. ssd накопители это не область, которая критична к задержкам. Поэтому индустрия и смотрит на nvme-of спокойно. Иначе бы за эту затею даже не брались. На iSCSI живут же как-то, а тут будет еще лучше. В конце концов, кэширование на хостах никто не отменял, что задержки потенциально вообще устранит.

Оптейн это понятно дело. Его этот фактор только продает, потому что он стоит как самолет. У него единственные юзкейсы и получаются, либо персистентная память, либо кэш записи быстрый. Собственно, оптейн по фабрике подключать вроде и не собирался никто, потому что его юзкейсы как раз чувствительны к задержкам.

А RDMA поможет эту задержку сократить относительно наивной реализации по сокетам. Локальной конечно не достигнет, физику никто не отменял.
«Любая достаточно развитая технология неотличима от магии.»
Описанная технология, пожалуй, упростила бы вчерашнюю задачу перевозки сервера с нулевым даунтаймом.
Жаль, что пока оно стоит чуть дороже крыла от боинга
Дополнительно видны разъемы Mini-USB,
Странно, почему не micro-USB?

Разъемы и кабели надежнее :)

Никак нет:
«The Micro plug design is rated for at least 10,000 connect-disconnect cycles, which is more than the Mini plug design».

дело не в колличесте циклов коннект-дисконнект. дело в том, что найти трухольный коннектор микро или тайп-С оказалось не такой уж простой задачей. обратите внимание, что коннектор расположен на правой стороне карты - т.е. механически он ничем не защищен. это черевато вырыванием коннектора с кишками. так же стоит упомянуть, что этот интерфейс сугубо для апгрейта софта. т.е. для обычной работы платы он не должен быть подключенным.

ЗЫ: я думал за аудиоджек тапки полетят - а его по ходу никто не заметил. :)

В 21 году я бы сказал странно, что не type-C

А что если вынести журналы вашего "тестового и не самого быстрого кластера ceph" на NVRAM NVMe или PMEM/NVDIMMы ?

Sign up to leave a comment.