Vadikus Dec 17 2014 at 05:55

Пилотный выпуск видео курса «Параллельное Программирование и Оптимизация для Intel Xeon Phi копроцессоров»

3 min

High performance*Programming*Concurrent computing*

Tutorial

+12

Comments 20

Pand5461 Dec 17 2014 at 08:47

Какие задачи выгодно решать на Xeon Phi? Как-то те тесты, что я видел, показывают не очень радужные результаты.

Vadikus Dec 17 2014 at 09:30

Если кратко, то пока только в тех случаях, где есть compute-bound или bandwidth-bound задачи. Т.е. много вычислений на каждое число, так как доступно до 2.2 TFLOP/s для одинарной точности; или же последовательный доступ к памяти — т.к. 8 контроллеров памяти с прифетчингом справятся с этой задачей лучше (реальные 160 GB/s), чем CPU (~60GB/s). Проблемы возникают, если есть случайный доступ к данным. Тут пиши — «пропало!». Прифетчинг становится бесполезным и наблюдается резкое падение пропускной способности. Такая же картина будет на GPGPU, если у вас есть опыт программирования для этих архитектур.

Можно ещё добавить, что пока Xeon Phi имеют только in-order ядра, т.е. параллелизм на уровне инструкций, как при out-of-order buffers — отсутствует. Это поменяется со следующим поколением Xeon Phi — Knights Landing.

Ну и пока мы ограничены шириной PCIe шины, которая для 2ого поколения устройств (PCIe v2 with 16 lanes) может пропускать до 7 GB/s (реальных я видел только 6.5 GB/s). Т.е. из простого расчёта можно прикинуть, что нужно минимум где-то 1200 FLOPs на каждый double, что бы оправдать перегон этих данных по шине. Опять таки это поменяется со следующим поколением, т.к. Интел решил выпустить Knights Landing как CPU чип, т.е. все куча ядер будут сидеть прям на материнской плате с доступом к сотням гигабайт памяти.

Как-то так… Я об этом буду подробно в курсе говорить.

stalkerg Dec 17 2014 at 20:23

А я вот, что нашёл www.nvidia.com/object/justthefacts.html может конечно и ангажировано но всё же…

dmbreaker Dec 17 2014 at 10:44

Копропроцессоры, ок.

Vadikus Dec 17 2014 at 10:56

А если по сути вопроса, пожалуйста?

-2

beeruser Dec 17 2014 at 13:12

ru.wikipedia.org/wiki/%D0%A1%D0%BE%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80

Vadikus Dec 17 2014 at 13:32

Спасибо за поправку. Учту при дальнейших переводах. Хотя себя будет сложно переучить, т.к. в ангийской транскрипции это слово читается именно как «ко-», а не «со-». Это как в названии штата «Техас» отродясь не было буквы «х» (американцы произносят его как «Тексыс»), но в русском произношении — появилась, думаю из-за схожего написания ;)

-2

beeruser Dec 17 2014 at 14:22

Причём тут транскрипция, когда префикс «co-» однозначно переводится как «со-» =)
соfounder => соучредитель, а не коучредитель

Vadikus Dec 17 2014 at 14:42

Префикс «со-» произошёл от латинского «cum», который читается как «кум» — cum laude (кум лауде) с похвалой. Как в русском «к» стало «с» — ума не приложу. Но я и не филолог, так что мне можно.

Предлагаю лучше на темы производительных вычислений поговорить.

-3

vxsw Dec 19 2014 at 01:08

Префикс co- (лат.) в данном случае не переходит в со- (рус.), а переводится, как и processor.
В отличие от coworking, который транслитерируется целиком, из-за трудности буквального однозначного перевода.

sulnedinfind Dec 17 2014 at 20:08

нет, Texas в русском языке просто транслитерирован не с английского, а с испанского. отсюда и ударение.

evnuh Dec 17 2014 at 11:14

Вся суть видео могла быть передана 4 сниппетами кода и 4 графиками, соответственно. С парой абзацев про объяснения.
Собственно, я сомневаюсь, что вы расскажете что-то большее, чем есть в книге «C++ Concurrency in Action: Practical Multithreading» by Anthony Williams. А прочитать её за две недельки можно, читается гораздо легче, чем просмотр данного видео :)

Vadikus Dec 17 2014 at 11:35

Вы правы. Данный пример очень прост. Хуже дела, например, обстоят с кодом для оптимизации использования кеша. там снипет кода может не помочь, и проще будет выслушать чьё-то объяснение. В нашей книге (xeonphi.com/book) есть и такие примеры. А в целом, видео лекции создаются с двойной целью: 1) некоторые ученики предпочитают видео материал, чем чтение книг. 2) дальнейшее распространение учебного материала в странах не говорящих по-английски можно сделать просто переведя субтитры на нужный язык.

-1

Vadikus Dec 17 2014 at 11:42

Упомянутая книга рассматривает особенности реализации параллельного доступа к С++11 структурам данных. При этом векторизация, распределённые вычисления в кластерах, оптимизация траффика, оптимизация доступа к памяти, и остальные 90% материала нашего учебного курса она не рассматривает. Так что можете, конечно, сомневаться, но я расскажу намного больше, чем покрыто в упомянутой книге.

evnuh Dec 17 2014 at 22:46

Блин, я упоролся совсем. Конечно это не эта книга, хотел написать про www.akkadia.org/drepper/cpumemory.pdf «What every programmer should know about memory».

Vadikus Dec 18 2014 at 13:51

Да, это хорошая статья. Я её всем рекомендую, тем более, что с Уричем Дреппером я лично знаком, с тех пор когда он ещё работал в Red Hat, и приезжал к нам на кампус в North Carolina State University, где главный офис «красных шапочек» и находился. Но опять, это только работа памяти. А где векторизация, где неоднородные распределённые вычисления, я спрашиваю?..

Gumanoid Dec 19 2014 at 01:02

Он же Ульрих :)

Vadikus Dec 19 2014 at 02:14

Прошу прощения, описочка вышла. Хотя, если честно, я его имени даже и не помнил. Будучи тогда студентом аспирантуры я осмелился его называть только «мистером Дреппером». До обращения к нему по первому имени я тогда ещё не дорос.

rafuck Dec 18 2014 at 03:00

Программа курса в целом интересна, однако предложенный видеоролик удручает. Зачем-то на протяжении 12 минут два раза объясняется тривиальная «оптимизация». Для того, видимо, чтобы в конце показать высокие синие столбики. Продемонстрировали бы их сразу на 7 минуте и дело с концом, все равно об их получении в ролике нет ни слова. Можно, правда, заметить, что использовались Cilk и OpenMP. В общем, лучше уж совсем без видео, нежели с таким.

Vadikus Dec 18 2014 at 03:37

Учтём.

Я согласен, сейчас это странно выглядит. Связано это с тем, что в начале были сняты два отдельных видео ролика: теоретическая часть отдельно от практической. Они были просто склеены вместе, когда я занялся русской озвучкой.
В дальнейшем, я думаю, стоит объединять их в месте. Т.е. при показе слайда с теоретическим объяснением можно сбоку ещё показывать изменение исходного кода программы.

В любом случае, спасибо за комментарий.

Show the best of all time