Обновить

PCIe умер, да здравствует CXL

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели83K
Всего голосов 54: ↑52 и ↓2+65
Комментарии51

Комментарии 51

С введением про Intrconnect есть один нюанс... PCIe - это ни что иное, как PCI Express, унаследованный из PCI. В котором слово Interconnect использовалось совместно с топологией разделяемой шины.

Дежавю

в современных системах процессор (CPU) и ускорители (GPU, FPGA, ASIC для AI/ML) имеют свою собственную изолированную память.

Такое же аргументировали когда говорили что AGP устарело, а новое PCIe позволит делать видеокарты без собственной памяти, а используя общую память с хвостом.

Ну конкретно псие может и не помог, но те же маки уже 5й год на унифицированной быстрой памяти и это явно сильно круче традиционного разделения памяти между цпу и гпу.

те же маки уже 5й год на унифицированной быстрой памяти

У нормальных людей это уже лет -дцать называется интегрированной видеокартой, но у макеров как всегда своя атмосфера.

это явно сильно круче традиционного разделения памяти между цпу и гпу.

Опять же, у потребителей продукции эппл какие-то очень свои критерии крутости, которые нормальным людям не понять. Одно могу сказать точно - они явно не про производительность.

У нормальных людей у интегрированной видеокарты пропускная способность на уровне обычной DDR 5, а у М процессоров, особенно старших, на уровне видеокарт с GDDR, на вообще всю память в том числе оперативную в обычных задачах. Там в макс чипах 546 ГБ/сек. RTX 5070 если что выдает 192 ГБ/сек имея GDDR7 на борту.

А так да, одно и то же, но есть нюанс, как в анекдоте.

RTX 5070 если что выдает 192 ГБ/сек имея GDDR7 на борту.

А это где такие интересные повести пишут? Официальная документация выдает 672 GB/s. И это далеко не пердел, у 5090 все 1792 GB/s.

У нормальных людей у интегрированной видеокарты пропускная способность на уровне обычной DDR 5, а у М процессоров, особенно старших, на уровне видеокарт с GDDR

Ага, вот только с "докинуть плашечку", как хотел автор соседнего поста про ноут от леново, возникнут определенные трудности.

RTX 5070 если что выдает 192 ГБ/сек имея GDDR7 на борту.

Что называется - давайте обратимся к источника.

Да, я не туда посмотрел, но, это же никак не ломает мой поинт. М4 макс выдает 546, это совершенно не сопоставимо с тем, что в обычных системах выдает "интегрированная видеокарта", у нее скорость обычной ддр.

По сути ничего не изменилось в моем тейке, а минусы зря поставили, не разобравшись в сути.

Распаяйте ей 8 каналов DDR5 вместо того, чтобы вставлять её в слоты на 2 канала - и будет вам то же самое на интегрированной памяти.

Другое дело, что пока что никто в здравом уме не делает серверные CPU с встроенной графикой, а потребительские APU рассчитаны обычно на десктнопный лоу/мид сегмент и это не про 8 каналов.

Ваш изначальный "тэйк" неправильный.
И по-хорошему минусы надо ставить за тэйк, а не случайную ошибку (но ошибка - показывает, что вы влезли вообще не имея представления о чём пишите).

Ну конкретно псие может и не помог, но те же маки уже 5й год на унифицированной быстрой памяти и это явно сильно круче традиционного разделения памяти между цпу и гпу.

SLC (system level cache) - точка когерентности для CPU и GPU
SLC когерентна для L2, с инвалидацией DMA-регионов
(где-то в промежутке вариант, когда поверх общей памяти мапим GPU-регион в обход кэша).

Вы не правы потому, что предполагаете первый вариант ультимативно лучше. На самом же деле оба этих варианта конкурентны и предпочитаются в зависимости от типа нагрузки.

Интересно говорите. А кейсы ATX и макбук сравнивать будем?

Соотвественно подаваемую мощность и охлаждение всего этого великолепия, учитывать будем?

Миниатюризация в собственном соку, без потери качества, а то и круче.

PS: я не яблочников защищаю, если что…

Такое же аргументировали когда говорили что AGP устарело, а новое PCIe позволит делать видеокарты без собственной памяти

Я достаточно стар, чтобы помнить те времена, когда говорили, что обычная PCI устарела, а новая вчетверо более быстрая AGP позволит делать видеокарты без собственной памяти.

Есть некоторые подозрения, что когда-то до этого говорили, что обычная ISA устарела, а новая PCI позволит делать видеокарты без собственной памяти.

Нет, они говорили, что ISA устарела, а шина VLB позволит драматически ускорить всё. А потом, что PCI заменит VLB.

Что PCI не сравнивали по скорости с VLB, это ожидаемо, они же плюс-минус одинаковые были, PCI была более удобной, а не более быстрой - пропускная способность не зависела от скорости процессора, не было ограничений по нагрузочной способности и т.д.

Говорить говорили, но и прогресс на лицо?

CXL позволит удешевить облачные ноды с большим объёмом одну ОЗУ?

Думаю, провайдеры уже экспериментируют

Из статьи как-то не очень понятно - если несколько серверов будут использовать одну общую ноду с памятью через CXL - как они все будут подключаться к этой CXL ноде?

Есть специальные CXL порты?

Сколько серверов может подключиться к одной CXL ноде?

Не думаю что там будут общие ноды с памятью между серверами. Судя по описанию - эта штука просто даёт возможность ставить дополнительную оперативную память в слоты расширения PCIe когда все слоты оперативной памяти уже забиты, а хочется больше.

Судя по

Решение от CXL: Вместо покупки дополнительного железа для каждого сервера можно создать общие когерентные пулы ресурсов (памяти, ускорителей) в масштабах стойки или целого ЦОДа из 4000 узлов (в версии CXL 3.0).

Серверу для данных выделяется большое количество памяти из общего пула CXL-памяти.Серверу для рендеринга подключаются дополнительные GPU из пула ускорителей.А простаивающий сервер может вернуть свои ресурсы в общий пул, чтобы их могли использовать другие.

Все-таки возможно объединение нескольких серверов в пул. Но конкретики в статье не нашел

Вероятно, CXL поверх PCIe.

Оперативку крайне затруднительно тащить из другой железяки, задержки будут бешанные, проще будет сразу с ssd грузить

Вот в том числе и для этого cxl придумали, и в статье было - понятно что оперативка локальная быстрее, но вот оперативка из cxl-пула уже будет пошустрее ssd…

Вот только с такими частотами придётся оптику использовать, речь о том что физически нельзя разместить оперативную память подальше от процессора - придётся понижать скорости.

Да, строится cxl-фабрика, можно провести аналогию с SAN (сети ранения данных). Можно почитать всякого по запросу cxl fabric или cxl switch

Спасибо. Почитал, действительно интересно.

Вот только трэнд последних лет - уход от единой точки отказа: отваливается один сервер, то другие серверы в кластере продолжают работать.

А вот с CXL памятью получается наоборот: если сдохнет такая "общая" память, то упадут все серверы, которые используют эту память... Единая точка отказа.

Впрочем я думаю, что про этот сценарий умные люди тоже подумали, просто я не углублялся...

по идее тут тоже можно провести аналогию с SAN-сетями - общая память тоже не единое устройство, а несколько, с отказоустойчивостью\репликацией + локальной оперативки это не отменяет. в общем штука довольно забавная, даже не столько для памяти, сколько для других ресурсов, вроде тех же видях. так что будем наблюдать за развитием:)

Всё зависит от масштаба. Если вы облачный провайдер и серверов у вас как на серверной фабрике, то в рамках одного ДЦ часто единицей отказа является целая стойка, потому что в ней уже есть один ToR-свитч, который является единой точкой отказа для всех серверов в этой стойке. Если туда добавить ещё и CXL-память, то по большому счету ничего не меняется (хотя вероятность отказа подрастет).

Ну, чаще всё ж встречал два TOR.. соответственно от каждого по линку на каждый сервак и аплинк двойной..

Уже представляю RAID из CXL серверов... Можно пойти дальше - что мешает сделать CXL оптосетевуху, которая будет подтягивать память вообще из другого ЦОДа? Пусть и медленно, зато совершенно прозрачно и для БД или хостинга сайтов сойдёт.

Плюс на крайний случай в качестве последнего рубежа падения, может выступать ethernet через оптический линк. Да медленно, но всякие ЧП - сойдет еще как! Банки успеют сохранить данные на резервные сервера, а тиктокеры подождут замены стойки.

'Если провести аналогию с автомобилестроением, PCIe — это добротный седан среднего класса со своим кузовом, шасси, колёсами и двигателем, а CXL — это комфортабельный кроссовер нового поколения, собранный на том же шасси седана, но у него совершенно другой салон, кузов, улучшенная аэродинамика, модифицированная подвеска, система управления, электроника, ПО и, самое главное, другая цель — он создан для дорог, где седан не проедет. '

Какое забавное совпадение.

Буквально вчера Гемини мне одно сравнение на примере двух автомобилей ровно так же объяснял.

Одобрил ваш комментарий, так как за свободу слова :) Всё так — мы, сисадмины, делаем сравнения с автомобилями с 1946 года :) В блоге можно найти ещё штук 100, ещё до того, как LLM появились.

Ну так себе сравнение. Маркетологи конечно вещают что кроссоверы проходимее и больше седанов, но это обман. Цифры говорят что кроссоверы дороже, тяжелее и жрут больше топлива. А некоторые не кроссоверы по салону больше и по проходимости лучше.

Кроссовер и аэродинамика это из разных вселенных.

Мм, вы так пытаетесь сказать что заметная часть статьи вовсе не копипаста нейросетки? Я считаю что само по себе это не хорошо, не плохо, сейчас странно было бы не использовать LLM, и удачно сгенерированный пример лучше плохого выдуманного/отсутствующего. Но именно сам факт привкуса генерации от вашей статьи, на лицо.

И да, очень похоже на Gemini)

Извините, но за такие заголовки называю: "журнашлюхи".
Статья большая, познавательная, но заголовок демотивировал на её чтение.
Пришел я "в истерике" (шутка) от того что у меня есть несколько PCIe плат и вдруг может оказаться что они станут ненужными как старенькие AGP видео.
По факту оказалось что CXL это надстройка над PCIe, и никуда он не умер.
А так конечно, мне "дионозавру" этого не понять и не оценить, мне увы недоступно работать там где эксплуатируется такое железо. Дома же, у меня максимум 16Gb на n5095, и в углу стоят всякие Пентиумы да Сайрексы... Хотя начинал ещё с Нейрон-И9.66 с целыми 256кб памяти...

"Журналжисты" более цензурный термин, пользуйтесь.

Поддержка CXL сейчас нужна уже далеко не только в серверах, но и в рабочих станциях, на которых работает локальный ИИ. Думаю, что вскоре это в том или ином виде распространится и на высокопроизводительные ПК. Вообще, CXL - это недостающее звено для обеспечения возможности непрерывного апгрейда ПК и рабочих станций с сохранением в работе старых вычислительных модулей и памяти при добавлении новых и более производительных. Для этого нужно оказаться от концепции материнской платы с CPU, и перейти к концепции компьютера как сети из множества вычислительных модулей с CPU, GPU и NPU, соединённых кабелями и пассивными соединительными платами. CXL позволяет сделать ресурсы всех этих модулей в значительной степени общими.

В то же время у меня вызывает сомнения способность CXL обеспечить действительно быструю работу двух и более вычислителей с кэшированными в более чем одном из них данными. Ведь в этом случае прежде чем использовать данные вычислительный модуль должен запросить у всех других модулей, которые одновременно кэшировали эти данные, не изменились ли они. Хотя этот запрос в CXL выполняется аппаратно, но это в любом случае запрос через последовательную шину, гораздо более медленный, чем обращение к собственному кэшу.

Для этого нужно оказаться от концепции материнской платы с CPU, и перейти к концепции компьютера как сети из множества вычислительных модулей с CPU, GPU и NPU, соединённых кабелями и пассивными соединительными платами

Угу, и зачем вам PU запрошлых поколений после смены версии CXL?
И куда вы будете втыкать 40 пиновый IDE на плате с CXL. Не, я даже верю что переходник будет. Правда дороже нового жесткого диска.

От IDE отказались уже лет 10 назад, а я говорю об использовании оборудования возрастом до 3-4 лет. Обеспечение возможности непрерывного апгрейда позволит проводить апгрейд ПК чаще, примерно раз в год, чтобы он соответствовал очень быстрому росту аппетитов локального или частично-локального ИИ. При этом разумеется, все используемые вычислительные модули должны поддерживать ту или иную версию CXL. А между версиями CXL, насколько я понимаю, есть обратная совместимость. IDE же - это периферийный интерфейс, который может быть на одном из вычислительных модулей, если он вдруг почему-то нужен, и доступ к нему будет расшариваться этим модулем. А может быть и на плате PCIe версии от 5.0, которая тоже обратно совместима с CXL.

Ну я брал АМ4 топовую мать с целью долго на ней сидеть. Сейчас все говорят АМ5 рулит, опять же DDR4 против 5. Да, я по прежнему могу играть с видео (но топовое будет избыточно для проца), но проц под замену, а он в любом случае идет в обнимку с памятью. Старый проц не может воспользоваться новой памятью, так как в любом случае будет не готов по интерфейсам, аналогично новый проц не развернется на старой памяти.

Итого, материнка все равно нужна каждый раз новая. Ну или делать блейды проц+память, и уже они будут втыкаться в некую шину к которой будет подключаться медленная периферия. Что там будет с видео я честно говоря не понимаю, с одной стороны я привык что ему нужна максимальная близость к процу, с другой есть внешние карты с USB интерфейсом.

Итого, материнка все равно нужна каждый раз новая.

Собственно говоря, сейчас замена всей платформы на АМД как раз и подвязана под переход на новый вид памяти. Память же живет достаточно долго, сколько там DDR4 была актуальна, лет десять? Вот, это время вы можете платформу не менять. Естественно, будут какие-то программные ограничения, а-ля "новый процессор-то с сокетом совместим, но для вашей семилетней материнки производитель решил не выпускать обновление биос с микрокодом для новых процессоров, или новый микрокод просто не влезает во флешку биотса"

Вот я как раз и говорю про блейды проц+память формата большой видеокарты, которые могут втыкаться в пассивную кросс плату, куда подключается их периферия, а между собой соединены ленточными шлейфами CXL подобно тому, как видеокарты могут соединяться по NVlink. При этом GPU и NPU так же могут подключаться по CXL через кросс-плату, а остальная периферия по PCIe. За счёт того, что кросс недорогой и универсальный, и его можно подобрать по количеству слотов точно под конфигурацию, в корпус можно поместить несколько таких кроссов для разных поколений процессорных плат, и добавлять их в порядке апгрейда. Другой вариант - сделать корпус плоским, с креплением за монитор, и соединять несколько расположенных рядом таких корпусов по CXL через кабель.

Было уже такое. В промышленном компьютере в стоечном корпусе была пассивная "материнская" плата, к ней подключался БП и так же в неё втыкалась процессорная плата (пень 4 вроде был) и все карты расширения (тогда еще ISA популярен был).

К сожалению название уже не вспомню, давно это было...

Адд: бывший коллега подсказал - это был Advantech 510

Почему было? В промышленных ПК пассивные кросс-платы не прекращали применяться, в том числе и с PCI-express. Но это только часть подхода.

Автор видимо хотел, чтоб я сдох прежде чем дочитал. PCIe не умрет так как оно завязано с процессором и чипсетом материнской платы и вбухивать бабла вагон на разработку существенно нового никто не будет на данный момент.

Обрадовали, я уже поверил что новый слот придумали, а тут почти кликбейт... Спасибо за статью. Те кто хоть раз занимались разработкой PCI-e устройств понимают как нелепо он спроектирован. С точки зрения унификации, масштабируемости это непродуманное поделие. А дальше со временем лишь нагромождение. Симметрии у него нет, хотя изначально пытались ее заложить. Не продумали деление на х1 сразу, а в будущем стали разделять. Проблемная бифукация.

А как это выглядит в кремнии?
этот CXL реализуется как отдельный модуль или он заставляет все то же ядро PCIe дергать ножками и передавать нужные данные?

я давно уже ожидал что то подобное должно вылезти, так как скорости до памятей начинают активно расти, и тот же SSD(превратился в nvme) и сам интерфейс PCIe с каждым поколением в 2 раза поднимает скорость.

У меня что-то возникает аналогия с общим туалетом на этаже. Вроде оптимально используются ресурсы, но люди почему-то такое не любят. Вообще хотелось бы цифр, а на сколько будет система с CXL , дешевле , чем старый вариант, когда память с запасом берётся? И потом , если два модулся со своей памятью при полной нагрузки покажется 100% производительности, то у одного с общей будет явно меньше 100% , а сколько?

Круто автору нейрослоп постить

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
servermall.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия