Как стать автором
Обновить

Комментарии 32

МТ/с это «мегатакт в секунду»? Обычно в мегагерцах измеряют
Дело за малым — протащить сотню single-ended трасс с частотой 4GHz от процессора до DIMM, чтобы оно не загнулось от перекрестных помех.
Когда уже интересно эти парни там заменят DDR на последовательную шину и перестанут закапывать стюардессу?
Элементная база на 32 ГГц, вероятно, дороговата пока.
Так уже заменили — HMC, только это оказалось еще хуже стюардессы, поэтому закопали даже раньше. Основной фэйл, как я понимаю — еще большая чем у классических sdram латентность из-за гигабитных трансиверов.
На самом деле у толстых процессоров последовательная шина. У Intel Xeon E7. У IBM Power 8 — DMI, Power 10 — OMI. Там ставится специальный чип, который разворачивает последовательную шину в параллельную на месте и все. То есть процессор может вообще на другой плате находиться и к памяти подключаться кабелем.
Это позволяет подключать к ним конское количество памяти и держать в ОЗУ целые БД, видимо Latency тут не жмет особо. Все равно на порядок ниже чем у подсистемы хранения и сети.
Вот Вам в качестве рекламы например наша машина с 16ТБ ОЗУ на борту. 128 плашек в 2U.
image
Пора уже и плашки делать штатно с сердесами. А то мы получаем типичные проблемы Signal Integrity на параллельной шине. Заниматься анализом глазковых диаграмм и смотреть BER на таких шинах — это нонсенс.
Я думаю причина просто в инерционности процесса — ну типа пока канает параллельная шина — пусть будет.
Так-то да, но такое ОЗУ становится все менее оперативным. Это здорово, когда альтернатива — хранить данные HDD. Ну и серверным процессорам, как я понимаю не столь критично за счет большого объема кэша. Но в качестве единственной памяти для пользовательских машин как-то не супер.
А нет данных по латентности этих шин? (лень искать самому)
Ну я вот смотрю сейчас в даташиты P8 и его Memory Buffer и не вижу в явном виде какой-то цифры. Да и бестолковая она сама по себе, не особо информативна.
Про OMI я слышал что чуть ли не время распространения сигнала + 1 такт (на то чтобы последовательную шину развернуть в параллельную). Но там тупой SerDes вообще.
DMI буфер умнее — там кэш внутри, еще мозги какие-то — я думаю побольше будет задержка.

DDR сама по себе не особо «оперативна» — там циклы рефреша до 20% производительности могут отъедать.
Уже двигаются в этом направлении достаточно давно- притом без жесткой привязки к такому-то вендору
1
но все равно почему-то цепляются за тот же форм фактор.
Дело за малым — протащить сотню single-ended трасс с частотой 4GHz от процессора до DIMM, чтобы оно не загнулось от перекрестных помех.

А протащить еще более быстрый(= кратно выше частота Найквиста) SERDES сильно проще(пусть и short reach)? В конце-концов, даже иные DIMM под DDR5 рассчитаны на 7+ GHz- понятно что порог быстро исчерпается, но тем не менее. И почему проблема именно в xtalk, тем более что это довольно легко решаемая проблема? К примеру, почему не PI vs BER/bathtub curve? «Легко»(sarcasm on) набрать on-die memory типа HBM, но цена будет космическая при меньшем итоговом объёме и расширяемости в сравнении с DDR- это легко заметить на примере цен того же Nvidia A100 SXM4.
А протащить еще более быстрый(= кратно выше частота Найквиста) SERDES сильно проще(пусть и short reach)?

Конечно проще ибо дифпара сама по себе менее шумная и восприимчивая как к Xtalk так и к чистоте питания.
А во вторых SerDes имеют схему CDR — там не надо ровнять клок с данными как наркоман. И тащить можно сильно дальше. С DDR же проблема в том что в окрестности процессора еще и разгуляться особо негде.
В конце концов там же есть UPI рядом 20+ лэйнов 5GHz — я бы не сказал что с ними какие-то трудности бывают особые. Растаскивается за 2-3 дня обычно и все.
И почему проблема именно в xtalk, тем более что это довольно легко решаемая проблема?

Проблема Xtalk не решается легко при спейсингах в 4-5mil, всяческий изврат типа tabbed routing имеет предел эффективности, я уже не говорю о том, что он очень хреново производится на фабриках.
Конечно проще ибо дифпара сама по себе менее шумная и восприимчивая как к Xtalk так и к частоте питания.

Это пока она нормальная диффпара, т.е. не загубленная mode conversion.
А во вторых SerDes имеют схему CDR — там не надо ровнять клок с данными как наркоман. И тащить можно сильно дальше. С DDR же проблема в том что в окрестности процессора еще и разгуляться особо негде.

Касаемо клока спору нет, но с выравниванием не могу согласиться- как мне кажется(не вселенское откровение не претендую) у проблемы есть четкие очертания, которые выглядят примерно во так
2
Так ровняет большинство дезигнеров, схожим образом ровняет и автомат- так и съедается то самое место у проца.
Так ровняет большинство дезигнеров, схожим образом ровняет и автомат- так и съедается то самое место у проца.

И что в этом хорошего? У тебя во первых на более высоких частотах сигнал будет ходить не по аккордиону а сквозь него из-за stray-capacitance между петлями, а во вторых — стоит тебе отойти от оптимального размещения из рефдизайна (ну например DIMM двинуть вправо по отношению к процессору, или подвинуть их поближе) и все сразу становится сильно хуже.
И что в этом хорошего?

Абсолютно ничего- и в этом собственно мой посыл вкупе с этой картинкой.
У тебя во первых на более высоких частотах сигнал будет ходить не по аккордиону а сквозь него из-за stray-capacitance между петлями

Если не сделано адекватное расстояние до опоры, то конечно все будет ровно так как ты сказал- но я так не делаю, а делаю вот так.
tuning-2
Это пример во многом искусственный(LPDDR4-3200, HDI, подогнанный дизайн) но принцип иллюстрирует. Выравнивание в ноль(менее 0.001мм), к слову- сугубо потому, что это довольно легко если к этому подходить определенным образом. С any angled+tangent arc свичбэками и поворотом аккордеонов проблема режется под корень- притом со всех сторон.
Ну и ты как то легко показал масштаб проблемы.

Дык, тут как раз она- очень много пустых островов. Я шутки ради сегодня завтра в пост вставлю картинку с
any angled+tangent arc свичбэками и поворотом аккордеонов проблема режется под корень

Сугубо смеха ради конечно- никакой фаллометрии и критики с удобных диванов)
Дык, тут как раз она- очень много пустых островов.

Тебе кажется =) Ты же не думаешь что мы не знаем про такую технику выравнивания. Знаем — чай не вчера с ветки спрыгнули.
Да — она экономит больше места (хотя не капитально, поэтому я написал что тебе кажется — оно просто выглядит более плотно что-ли), но требует гораздо больше времени. А еще потом очень больно когда приходит главный конструктор и просит подвинуть DIMM на пару мм. Ты ж их прямо по констрейну жмешь к друг другу. Как в последний раз.
Тебе кажется =)

Да вроде нет xD — достаточно посмотреть на правый нижний угол и в пинфилд чтобы место найти. Тут проблема скорее в этом
А еще потом очень больно когда приходит главный конструктор и просит подвинуть DIMM на пару мм.

Если класть без островов, с киберспортом, то это катастрофа без вариантов.
Ты же не думаешь что мы прям не знаем про такую технику выравнивания.

Нет, конечно нет- мне ваши возможности понятны(насколько это слово применимо), к YADRO я отношусь с уважением.
Ты ж их прямо по констрейну жмешь к друг другу. Как в последний раз.

Ага, а потом еще выяснится что забыли какой-нибудь SMBus c гпио и все- и это непременно после того как тюнинг уже сделан по N-му кругу.
Вот если твою картинку привести к такому виду
image
Я не думаю что будет большая разница с switch-back. Чудес не бывает.
Я не говорю что твое конфу плохое — я и сам так делал и не раз и не два когда сам занимался топологией. Просто это не панацея и у него есть расплата.
Вот если твою картинку привести к такому виду

Это, так сказать, прелюдия к тому чтобы сделать все немного плотнее — но делаться оно должно иначе: сначала траска заровнялась, потом к ней прижалась следующая с размазыванием тюнинга где надо, повтор до финиша. Однако с укладкой произвольным углом с дугами и свичбэками это конкурировать не может- даже если делать все под 45 гр, все равно возникнут острова и «излишняя геометрия» в силу повторяющейся митры
3
И это еще даже без докрученных фанаутов.
Просто это не панацея и у него есть расплата.

Конечно- при киберспорте цена ошибки абсолютна, relayout.
Я не думаю что будет большая разница с switch-back. Чудес не бывает.

Заявленный выше пример odd-angled segments + tangent arcs, очень простой и почти синтетический, к тому же все еще с островами пусть и с минимальными.
1
Касаемо чудес- вот прямо чудес конечно нет, но заметно сэкономить слои это почти наверняка, а если идти дальше по пути киберспорта, например с итеративной подгонкой таргета(видно на пикче) то можно делать прелестные вещи, особенно в memory down дезигнах. Скажем, для PCIe ускорителя(front-/backhaul, неважно) с 4 ранками ддр и большой FPGA это выстреливает на 200%. С DIMM выстреливает слабее, но становится проще зарулить те самые проблемы с xtalk, тем более все равно сильно выигрывается место.
В конце концов там же есть UPI рядом 20+ лэйнов 5GHz — я бы не сказал что с ними какие-то трудности бывают особые. Растаскивается за 2-3 дня обычно и все.

Говоря про UPI видимо подразумевается сугубо Intel- с учетом околоидеального пинаута и довольно низкой скорости(~10G, если не путаю) то тут наверное трудностей нет вовсе никаких, спору нет- откуда им взяться?
Проблема Xtalk не решается легко при спейсингах в 4-5mil

Конечно, ведь эта проблема собственно и возникает при таких спейсингах.
tabbed routing имеет предел эффективности, я уже не говорю о том, что он очень хреново производится на фабриках.

Не фанат tabbed routing, но успешный опыт применения есть- все дело в том, как его готовить: в конце концов, он разного вида бывает, с разной же применимостью- нужно просто очень четко сформулировать задачу. С другой стороны, это надо очень далеко зайти чтоб такой прием стал крайней мерой- как мне кажется, в больших камнях это признак либо over-engineering, либо слепого повторения референса, либо просто ошибочного дизайна.

Ну так логично же. Вся DDR5 память — регистровая.

Вы драматизируете — доступ в RAM происходит берстами или кэшлайнами. CAS Latency в 1 такт погоды не делает.
Там же не вся шина регистрируется, а только адреса/команды.
Тем более контроллеры памяти обычно держат несколько открытых страниц и эту CAS Latency Вы видите только тогда когда он их меняет.
В заголовке «начала производство», а в первом же предложении «сообщила о разработке».
Кликбейт такой кликбейт.
Подозреваю, что смысла начинать реальное производство пока ноль — тупо нет потребителей продукции.
Так что разработали, выпустили опытную партию в сотню модулей и успокоились до поры, до времени…
Такие же глючные как их SSD диски?
А ведь при частоте 8400 МГц сигнал успевает пройти расстояние только порядка 36мм за период, а для типичного модуля памяти пару сантиметров это только расстояние от чипа до контактов! Или в этом нет проблемы, кто то скажет?
В 2 раза меньше — оно же не со скоростью света распространяется, а примерно в половину от нее — грубо 15см/1нс.
Проблемы в этом нет — потому что там строб DQS двунаправленный. Просто будет Latency. Но есть другая проблема, которая отсюда вытекает — данные DQ приходится очень плотно выравнивать с DQS по длине и трассировка получается адская. Чем выше частота — тем точнее ровнять, тем адовее будет.
Модули также получат поддержку коррекции ошибок (ECC, Error Correcting Code).

Это вроде как неотъемлемая часть стандарта DDR5.
Это вроде как неотъемлемая часть стандарта DDR5.

Вроде как нет, а вот регистровость памяти становится обязательной.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.