Alaunquirie Jan 22 2009 at 17:15

HPC: nVidia, AMD, Sony Cell, x86

5 min

7.5K

Computer hardware

+43

Comments 66

UFO landed and left these words here

Alaunquirie Jan 23 2009 at 07:13

Регистры 128-и битные, влазят 4 single или 2 double

UFO landed and left these words here

diablitozzz Jan 22 2009 at 19:05

lambda Jan 22 2009 at 19:19

Intel не позволит кануть x86. Вспомните про Larrabee, который поддерживает и базируется на x86 инструкциях.

worklez Jan 22 2009 at 19:44

эти 153 GFLOP достаточно непрактично использовать, потому и не
пробовал (с точки зрения выпуска программы не для внутреннего потребления).

Что имеется в виду?

Alaunquirie Jan 22 2009 at 19:50

Доступ к ним тяжеловато получить.

worklez Jan 23 2009 at 07:07

O RLY?
Не понимаю. Если это готовый сервер или акселератор с интерфейсом PCI-E, то вот они, ресурсы. Если это PS3, то ставим Yellow Dog (или какой-нибудь другой дистрибутив GNU/Linux) и делаем свои расчеты на всех доступных SPE.
Во всех случаях для программирования используются одни и те же библиотеки/фреймворки, так что разработка отличается не очень кардинально.

BarsMonster Jan 23 2009 at 13:05

Для конечного пользователя релизнуть трудно.
Объяснять простому юзеру как ему надо на приставку линух ставить — достаточно трудновато.

Ну а о цене акселей с интерфейсом PCI-E лучше помолчим, чтобы не расстраиваться зря :-)

worklez Jan 23 2009 at 13:38

Речь о HPC. Зачем это «простым юзерам»?
Простому юзеру достаточно купить PS3 и интересующую его игру, но мы не о том.

BarsMonster Jan 23 2009 at 13:42

На случай если пишеться клиент для распределенных вычислений типа Folding@Home.
Фолдингу то хорошо, с помощью сони они все без Линуха сделали, и запускать конечным пользователям легко.
К сожалению для простых смертных этот пусть закрыт :-)

beeruser Jan 23 2009 at 11:06

Когда речь идёт о пиковой производительности то получить её на х86 не намного легче чем на CELL.
Умножение больших матриц даёт на полноценном CELL ожидаемые 200GFlops.

superhabra Jan 22 2009 at 20:23

Строка «Реальная скорость, GFLOP» не несёт практической смысловой нагрузки, т.к. не указано каких операций. Тем более у разных операций различное время выполенения.

eugenios Jan 22 2009 at 22:04

FLOPS — FLoating point Operations Per Second (операций с плавающей точкой(одинарной точности наверно))

так что все очень даже понятно: например надо перемножить 2 матрицы NxN, считаешь, сколько надо операций, и считаешь приблизительное время

superhabra Jan 22 2009 at 23:11

Вы не правы. Каких операций не указано, это может быть вполе суммирование.
А умножение матриц требует умножение и аккумулирование — эти операции, к примеру могут выполянтся 10 тактов, а суммирование 1 или 2 такта.
По этому FLOPS довольно абстрактная хар-ка.

eugenios Jan 23 2009 at 10:26

я с вами согласен. тут надо уточнить что считается за одну операцию.

BarsMonster Jan 23 2009 at 12:58

Большинство операций на GPU выполняются за один такт(иногда правда со сниженной точностью) — вот именно такие и учитываются.

l2k Jan 22 2009 at 20:49

Побольше таких статей, если можно :)

Alaunquirie Jan 22 2009 at 20:55

Можно ;)

cst Jan 23 2009 at 06:54

А можно немного наглядных графиком с вычислением чего-нибудь одного?
Например решения судоку?

UFO landed and left these words here

Alaunquirie Jan 22 2009 at 20:55

Хабрапарсер со статьей чет мудрит, продолжение в хабраредакторе буду ваять.

UFO landed and left these words here

Alaunquirie Jan 22 2009 at 21:06

В синтетических — да, из одночиповых — на практике — 295ая нвидиа

ENi Jan 22 2009 at 22:48

295 — двухчиповая :]

Alaunquirie Jan 22 2009 at 21:07

А по себе скажу, что 4870 страдает от нехватки нормальных дров. Очень.

Toshas Jan 22 2009 at 23:59

Это спорно, к тому же заточка многих игр под nVidia нивелирует незначительный прирост в производительности. Ну а вычисления на GPU пока массово идут под брендом CUDA.

Alaunquirie Jan 23 2009 at 07:09

Нет заточки под nVidia. Mean to be played — всего лишь шильдик, который значит, что если видяха в списке поддерживаемых есть, и компьютер соответствует минимальным требованиям — оно запустится.

ENi Jan 23 2009 at 07:25

Эта программа и есть для того, чтобы разработчики затачивали игры под GeForce, вообще-то.
en.wikipedia.org/wiki/The_way_it's_meant_to_be_played

Alaunquirie Jan 23 2009 at 07:42

Их просто_проверяют_на_совместимость. Есть аналогичный шильдик и у ATI, просто они отказались от использования, причину не помню, если найду статью — покажу. Те игры, которые реально лучше работают на ATI маркируются соответствующим красно-белым клеймом.

l2k Jan 22 2009 at 21:22

Кстати, а куда делать платформа OpenCL, которую помойму AMD и продвигает, как основного соперника CUDA?

Alaunquirie Jan 22 2009 at 21:30

AMD has decided to support OpenCL (and DirectX 11) instead of the now deprecated Close to Metal in its Stream framework.

l2k Jan 22 2009 at 21:36

АМД решила продвигать OpenCL, вместо CTM. Я об этом и говорю. Или от её слов до дела ещё не дошло?

Alaunquirie Jan 22 2009 at 21:47

На деле пока все крайне странно себя ведет, это раз, два — CTM — это как раз реализация низкоуровневых команд. (Даже название об этом говорит)

l2k Jan 22 2009 at 21:49

Вы, видимо не верно поняли мой вопрос.

Я говорю про то, что вы использовали Brook+ и даже похвалили, что в нём реализованны CTM.

Хотелось увидеть в статье (возможно продолжение этой) OpenCL, как альтернативу CUDA и Broom+. Если можно, конечно.
Собираюсь просто этим заниматься скоро — OpenCL сейчас вижу, как достаточно продуманную кроссплатформенную (Radeon+Geforce) альтернативу.

ivanrt Jan 22 2009 at 21:59

Хороший обзор. Скажите, а чем предполагается компилировать код для Phenom?

Alaunquirie Jan 23 2009 at 07:10

Intel С++ с соответствующими настройками

Sannis Jan 22 2009 at 23:28

Программы, работающие по 5 секунд — это ещё очень далеко от HPC. Может они и высокопроизводительные, но много насчитать не очень-то получится… Раз уж у вас есть под рукой необходимое оборудование, стоило бы проверить производительность на более приближенных к жизни операциях, например двумерном Фурье-преобразовании матрицы размером 8192x8192 :)

Toshas Jan 23 2009 at 00:03

5 секунд — это всего лишь время через которое ОС посчитает что вычисления захватили ресурсы видеокарты и снимет процесс.
Если покупается GPU для специальных рассчетов, то монитор к ней подключать не следует, и в таком случае Windows watchdog не срабатывает, можно считать сколько нужно.

Sannis Jan 23 2009 at 11:52

Обойти можно всё, это понятно :) Но это лишний камень в огород CUDA, пресс-релизы которой пестрят заявлениями о том, как же с ней удобно работать даже на офисных PC. Особенно, если не покупать новые топовые карты, а пробовать работать с той, которая стоит на рабочем компьютере.

Toshas Jan 24 2009 at 00:11

5 секунд — это лимит на исполнение одного kernel'я, а в консьюмерских задачах кернели отрабатывают зачастую за миллисекунды.
И никаких камней нет, потому что ATI имеет те же проблемы.

Sannis Jan 24 2009 at 18:39

Я имел в виду сравнение не с ATI, а с вычислительными системами на основе CPU :) Не спорю, что есть много задач, где вычисления занимают мало времени, просто я их, видимо, не отношу сильно к области HPC, которая была заявлена в заголовке статьи. Либо я не до конца понимаю терминологии, чтож, буду читать…

jerom Jan 23 2009 at 08:57

Классическое умножение матриц 6000x6000: www.gpgpu.ru/articles/sgemm-7.html

Sannis Jan 23 2009 at 11:55

Спасибо за ссылку. Намного более адекватный результат, превосходство GTX280 над Core2Quad 9300 всего полтора раза. И это для перемножения матриц, которое для GPU идеально подходит.

jerom Jan 23 2009 at 12:05

Так написано же, что на double производительность в 10 раз падает. Смотрите float:
Blas — 87, Cuda — 372. В 4.3 раза быстрее чем Quad, в 17 раз быстрее одного ядра.

Думаю, быстрое преобразование фурье может дать больший разрыв во floate за счёт хорошего синуса в Nvidia.

Sannis Jan 23 2009 at 13:54

Мне кажется сравнивать с одним ядром уже давно пора перестать :)

В том-то и дело, что в реальных считательных задачах не всегда достаточно float. Если кратко, то этого достаточно для видео, графики, игр, что и неудивительно, но не стоит экономить на точности при расчёте ядерных реакторов. Фурье само по себе имеет тенденцию терять точность даже при преобразовании туда-обратно, то делать это во float не очень хорошо.

bvs Jan 22 2009 at 23:53

Что то FLOPS в вашей табличке для чипов сильно расходятся с тем что приведено в en.wikipedia.org/wiki/FLOPS
Это потому что у вас «реальные»? :-)

Alaunquirie Jan 23 2009 at 07:11

Да, а там — теоритический максимум, практически нереально

DustCn Jan 22 2009 at 23:57

На самом деле пиковая производительность x86 i7 @ 3GHz(Nehalem):
a) Single precision: 8*3Ghz = 24GFlops per core, 24*4 = 96GFlops per CPU;
b) Double precision: 4*3GHz = 12GFlops per core, 12*4 = 48GFlops per CPU.

Смотрите например тут:
icl.cs.utk.edu/hpcc/hpcc_results.cgi

Подтест DGEMM — как раз этот случай. Высокая локальность, чисто Flops-ы :)
S-DGEMM — замер на одном процессе, EP-DGEMM — замер на всех ядрах, усредненный.

Вот, а «Реальная скорость в 153 GFLOPS» — это от лукавого…

Alaunquirie Jan 23 2009 at 07:12

В этой статьи не рассматриваются вопросы связанные с падением производительности из-за памяти/кеша. К указанной в таблице цифре я приближался на всех платформах кросе Cell. На x86 все помещалось в регистры и немного L1 кеша, потому и скорость 150 а не 96.

DustCn Jan 23 2009 at 07:23

Уважаемый — я вам даю теоретический пик. С которым вообщем-то согласны в индустрии. А вы мне черт знает что — я не могу понять в чем вы измеряете свои флопсы, откуда взялась эта цифра 150??

BarsMonster Jan 23 2009 at 12:56

Этот теоретический пик — на матричных операциях, и я согласен что он тоже важен. В данной статье я привожу максимальную реально достижимую скорость, не учитывая ограничения памяти (например когда все в регистрах или в L1 кеше). Производительность работы с памятью (bandwidth & latency на разных уровнях) можно рассмотреть в отдельной статье, там тоже много интересного :-)

DustCn Jan 23 2009 at 13:08

Теоретический пик как раз и не учитывает кэши и память.
Ну вы приведите код в конце концов, и все ведь станет ясно. Тот кусок кода что в оригинальной статье меряет не Flops-ы а Mips-ы, т.е целочисленные инструкции. Возможно отсюда у автора и такие цифры.

Про bandwidth и latency — пожалуйста. Только сразу указывайте для какой операции.

BarsMonster Jan 23 2009 at 13:12

Производительность и на 32 битных целых, и синглах(по крайней мере пока мы говорим о простых операциях) у всех одинаковая — все занимает по одному такту.
Код в статье — лишь для примера.

DustCn Jan 23 2009 at 14:48

Не может быть!!! Вас кто-то обманул :)
4 сингловые операции за такт или 3 целочисленные, а с применением адресной арифметики может быть и 5.
И вообще х86 сейчас может выполнять до 6-ти или 11-ти (точно не помню) инструкций за такт с помощию буфера циклов.

BarsMonster Jan 23 2009 at 14:51

Я говорю об SSE операциях, так и получается 12 операций за такт на ядро — 3 операции по 4 числа.
Ставить вместо SSE операций обычные пожалуй не стоит :-)

DustCn Jan 23 2009 at 15:45

Еще раз. В процессоре 1 блок SSE шириной 128бит. Он за 1 такт выполняет 1 SSE инструкцию над 128 битами.
«3 операции по 4 числа.» — нихт. Никак. Невозможно.

BarsMonster Jan 23 2009 at 15:49

В Core2Duo и выше 3 SSE блока — это и дает очень большую скорость.
В Phenom — тоже 3, но 2 из них специализированные.

На реальных приложениях (например моя программа BarsWF) выжимает ~35 млрд операций в секунду на ядро, как это возможно если можно делать только 4 операции за такт?

DustCn Jan 23 2009 at 16:26

Небольшой апдейт:
1 блок FP умножения и 1 блок FP сложения — отдельно.
Итого 2+2=4 double precision FP операции за такт.
Делилка и вычиталка — те же самые блоки.
Другие операции — сильно медленнее.
Конверсия чисел, load и store за операции не считаются.

Вобщем чтобы прекратить спор предлагаю вам написать программу, делающую больше 4 FP операций за такт. Хотспот вашей BarsWF подойдет.

BarsMonster Jan 23 2009 at 16:38

Вы правы, а я не прав :-)

BarsMonster Jan 23 2009 at 16:38

peak FP throughput for vectorized code of 2 64-bit MUL and 2 64-bit ADD per cycle (8 SP or 4 DP FLOPS)

DustCn Jan 23 2009 at 16:43

Отлично :)
Теперь можете прикинуть как это выглядит на больших машинах, на отлично вылизанном DGEMM (или распределенном Linpack) — сколько реально достигается процентов от пика. Ссылку я давал выше.
Данные будут примерно такого порядка: 75% на п4, 82% на Core2Duo и примерно 85-89% на Нехалеме. В этом и сила этого процессора.

ekzoman Jan 23 2009 at 05:16

фанАТИчно пахнущая статья…

Infanty Jan 23 2009 at 06:44

Спасибо!!! Ещё бы вводные курсы по nVidia CUDA и AMD Brook почитать.

MadCat Jan 23 2009 at 14:11

Кроме того, материнская плата под 4 видеокарты стоит намного дешевле платы под 4 процессора.

А можно пример такой материнки? Я максимум слышал про 3 карточки, и из них одна по шине еще зажата будет…

BarsMonster Jan 23 2009 at 16:14

www.newegg.com/Product/Product.aspx?Item=N82E16813130140

279$

Зажаты — может быть, не для всех задач нужна полная полоса пропускания.

Работающию систему 4x9800GX2 видел и на скриншоте и внешний вид )