Relaps Sep 2 2012 at 14:38

Два гиганта в одной программе — Nvidia CUDA и MPI

4 min

15K

Programming *

Recovery Mode

+25

Comments 21

Sicness Sep 2 2012 at 15:09

Это ведь не работает с ATI? А можете дать наводку?

Relaps Sep 2 2012 at 15:18

Нет, с ATI работать не будет, технология CUDA только! для графических плат Nvidia. Если говорить про ATI я бы смотрел в сторону OpenCL, но как оно будет работать с mpi я без понятия.

MuLLtiQ Sep 2 2012 at 15:22

У ATI есть аналог CUD'ы: ATI Stream.

Ну и OpenCL поддерживается и там и там.

chersanya Sep 2 2012 at 15:28

ATI Stream всё-таки достаточно устарел, сейчас развивается OpenCL, и лучше использовать именно его. Причём это будет работать практически везде: CPU, GPU разных производителей в отличие от CUDA и ATI Stream.

kekekeks Sep 2 2012 at 15:22

Интересно. По идее, используя MPI можно и нормальный вычислительный кластер на видеокартах сделать?

kbtsiberkin Sep 2 2012 at 17:48

Отчасти, гибридный MPI+CUDA код активно используется на современных кластерах, включающих в свой состав GPU.

Кроме того, CUDA вполне адекватно взаимодействует и с OpenMP. А можно и с тем, и с другим. «Даёшь кентавров в программировании». Главное, не перестараться сильно с синхронизацией, а то потери на обмен данными превзойдут все ожидания.

Relaps Sep 2 2012 at 18:43

Изначально планировалось запустить проект на tesla c2070 и какой-то кластер там был, но в конце-концов что-то там не срослось и доступа к нему нет, поэтому жду машину поинтересней. Ну а так вообще — да, в той же c2070 используются видюхи уровня gtx480.

Relaps Sep 2 2012 at 18:48

Извините, промахнулся комментарием:( читайте ниже.

m08pvv Sep 2 2012 at 15:23

Хм… прочитав про MPI+CUDA подумал что далее будет про как минимум два компа, а тут опять всё локально…
Как теория вполне сойдёт, а для практики маловато.

m08pvv Sep 2 2012 at 15:25

Да, было бы интересно почитать опыт запуска на нескольких компах с разными карточками — там уже немного хитрее.

Relaps Sep 2 2012 at 18:55

Тут скорее интереснее был бы mpi код, т.к. в cuda можно установить device который будет использоваться.

gribozavr Sep 2 2012 at 18:19

> Упор я хочу сделать именно на саму структуру программы и настройку вышеописанных технологий для работы в одной программе.

Как-то слабо. Статья в двух словах: сначала следуйте мануалу по вашей реализации MPI, затем мануалу по CUDA.

Я ожидал рассказ про прямое копирование данных между памятью разных карт при помощи MPI и прочие классные штуки.

Relaps Sep 2 2012 at 18:38

Возможно расскажу ближе к новому году, когда у нас запустят гибридный суперкомпьютер, самому интересно.

ZaWarudo Sep 2 2012 at 19:29

А чем этот метод принципиально лучше OpenCL? Там ведь код для CPU и GPU пишется и запускается единообразно.

chersanya Sep 2 2012 at 20:22

Кстати, несмотря на то, что OpenCL запускается и там, и там, ядра часто пишутся отдельные для CPU и GPU (если вообще используется CPU). Это связано с различными оптимизациями для этих устройств, код написанный для GPU будет значительно медленнее работать на CPU (по сравнению с оптимизированным для CPU). Ну а раз всё равно писать отдельный код, то можно воспользоваться и (субъективно) более удобными инструментами, чем OpenCL.

ZaWarudo Sep 2 2012 at 20:50

Я к тому, что используются одни и те же средства, а не 2 разные по идеологии и методам библиотеки. Оптимизации — это отдельная проблема, ведь часто приходится учитывать особенности каждой модели GPU и соответственно корректировать код.

Удобство — это когда как. Вот для научных вычислений лучше бывает архитектура shared memory. Например, для расчётов методом «частицы-в-ячейках» для каждого потока требуются параметры всех частиц, поэтому message-passing не очень катит.

Relaps Sep 2 2012 at 20:25

Ну считается, что на cude проще писать, это конечно не настолько обычный «с», как ее везде пиарят, но по сравнению с OpenCL небо и земля. Конечно это лично мое мнение, т.к. я с OpenCL мало знаком, знаю что это такое и видел код, как-то даже хотел попробовать писать на нем, а потом вот на cuda натолкнулся и в принципе доволен, наверное одним из главных минусов можно считать — наличие данной технологии только на gpu nvidia. Пожалуй в следующей статье расскажу про cuda, в принципе для ее понимания достаточно неплохо разбираться в с/c++.

ZaWarudo Sep 2 2012 at 20:57

Мне лично кажется, что отсутствие кроссплатформенности — это ощутимый недостаток. Я пишу как раз на OpenCL из-за этого, а также потому, что OpenCL действительно весьма и весьма близок к С. Вплоть до того, что необходимо изучить только пару специфичных функций типа получения номера потока и иметь под рукой спецификацию.

MuLLtiQ Sep 2 2012 at 22:33

Собственно OpenCL для этого и был создан Khronos Group (разрабатывающая OpenGL, и куда входят и Nvidia, и AMD, и Intel и прочие): чтобы унифицировать программный интерфейс использования видеокарт для параллельных вычислений.

OpenCL сложнее чем CUDA, требует больше кода, но если нужна кроссплатформенность — то лучше использовать именно его.

snk Sep 2 2012 at 23:04

Недавно начал осваивать эту технологию, так она связана с темой моей будущей диссертации. Вообще русскоязычной документации, по CUDA, CUDA+MPI, CUDA+MPI+OpenMP, как оказалось, валом. Кому интересно:
https://sites.google.com/site/cudacsmsusu/file-cabinet
http://tesla.parallel.ru/wordpress/?p=153 — здесь можно попросить логин на тестовый кластер с двумя сокетами и 8-ю теслами, без системы очередей.

snk Sep 2 2012 at 23:31

Уточню: для доступа на тестовый кластер необходимо зарегистрироваться (наличие конкретной задачи для расчета на GPU+MPI — обязательно).