Comments / Profile of ALEX_k_s / Habr

How to become an author

Alexander Kolganov @ALEX_k_s

Программист высокопроизводительных вычислений

ProfileArticles10PostsNewsComments46

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Jul 20 2016 at 13:10

Раз уж я пишу про CUDA, то имею право использовать вендорно зависимые функции. Вы лучше не просто так ссылки пишите, а приведите пример производительности всего того, что упомянули. А так — это голые слова.

На счет буфера А ничего не понял. Может быть имелось в виду то, что повторные загрузки, начиная со второй линии не повторяются — так это и так оптимизируется компилятором и для этого не надо уродовать код.

Про pragma unroll и так было сказано, а описанные вами оптимизации компилятор сделает и так.
Если вы думаете, что тернарная операция сработает быстрее if, то советую обратиться к профилировщику. Видимо для AMD и openCL еще не придумали нормальных инструментов. А вот у Nvidia все по человечески.

Кому нужны ваши 5%? Если бы это были разы, то другое дело.
Если очень интересно реально то показать, то напишите ваш очень оптимизированный код на openCL и запустите на ГПУ Nvidia и посмотрите что получится.

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Jul 20 2016 at 13:09

:

Конкурс GraphHPC-2016 на самую быструю реализацию параллельного алгоритма Community Detection: Итоги

ALEX_k_s Apr 4 2016 at 12:26

Я скорее всего добавлю в текст ссылку, она в принципе будет и там доступна. Да и чтобы не копировать все с того сайта, я кратко описал основное тут. А так — все будет доступно. Там даже есть архив за 2015 год с реализацией победителя.

Конкурс GraphHPC-2016 на самую быструю реализацию параллельного алгоритма Community Detection: Итоги

ALEX_k_s Apr 4 2016 at 12:06

А что так не внимательно читали?
1) пример реализации есть на С++,
2) используемый алгоритм описан в самой правой колонке таблицы.
в скором времени будет выложена реализация победителя.

Конкурс GraphHPC-2016 на самую быструю реализацию параллельного алгоритма Community Detection

ALEX_k_s Jan 21 2016 at 18:28

окей

Конкурс GraphHPC-2016 на самую быструю реализацию параллельного алгоритма Community Detection

ALEX_k_s Jan 20 2016 at 19:32

В разделе Задача есть пример на языке С++, но если есть желание попробовать на чем то другом, то можно попробовать установить необходимое ПО на тестовом сервере. Тестировать на другом языке скорее всего возможно будет только на одноузловом сервере. Также придется переписать саму задачу на другой язык (пример ее реализации, или хотя бы часть функционала).

OpenCL. Как начать

ALEX_k_s Jul 7 2015 at 19:14

А в новых версиях OpenCL еще не появилась поддержка template C++?

Решение разреженных СЛАУ больших размерностей средствами ManagedCuda в .NET

ALEX_k_s Jun 30 2015 at 11:12

Это конечно замечательно, что вы применили ГПУ и воспользовались уже написанной библиотекой, но
1) почему для расчетов используется шарп — ведь по моему ясно, что Си для этих целей куда лучше — и портируемость и поддержка со стороны CUDA/OpenCL/ MPI
2) ваш Mani.net вполне возможно лучше бы работал, если бы был на Си, так как используя CUDA вы выходите на хорошо оптимизированные библиотеки, написанные на Си, так еще и на GPU.

Также может я что то упустил, но не заметил — параллельная ли ваша версия или последовательная? именно то, что сравнивалось на графике. По вашим цифрам получается где то в 16 раз ускорилось.
PS: еще как пожелание — график было бы лучше смотреть, если бы на нем была только ваша версия и GPU, то есть увеличенный масштаб. А то он лишь показывает, что то, с чем вы сравниваетесь — хуже, а конкретно на сколько лучше — не ясно.

Гибридная реализация алгоритма MST с использованием CPU и GPU

ALEX_k_s Jun 16 2015 at 11:27

Структуры типа AF-heap или атомарной кучи — это сугубо теоретический способ понизить асимптотическую сложность некоторых алгоритмов. В статье, где определяется AF-heap, несколько раз подчёркивается, что к реальному миру это никакого отношения не имеет, а работать эта куча будет при числе элементов 2^12^20. Кстати, алгоритм MST при этом всё равно не линейной сложности. Существование линейного нерандомизированного алгоритма для MST всё ещё под вопросом. Алгоритм Chazelle (2000 год) имеет среднюю линейную сложность, однако константа там по факту получается настолько большой, что в реальном мире всё равно гораздо выгоднее считать алгоритмами со сложность O(m ln n).

Гибридная реализация алгоритма MST с использованием CPU и GPU

ALEX_k_s Jun 16 2015 at 09:09

очень странно, что статья 1991-1994 годов и до сих пор нигде не применили такую структуру и не написали MST за линейное время

Шифрование ГОСТ 28147-89 на х86- и GPU-процессорах

ALEX_k_s Apr 24 2015 at 10:32

самый новый драйвер от NVIDIA и CUDA 7.0 поддерживает данный механизм. Другое дело — что быстрее: вычисление или передача. Скорее всего вычисления пролетают быстро, тем самым алгоритм в хорошем случае должен сводиться к копированию и выгрузке данных. Еще хотел добавить:
если алгоритм использует мало данных или вообще сохраняет их только для выгрузки/загрузки, то можно вообще не использовать глобальную память, загружая данные прямо с ЦПУ через L2 в ядро. Также можно делать и с выгрузкой. Этот механизм называется UMA или как то так. В общем передаете указатель на память ЦПУ и обращаетесь к нему как к массиву в ядре. Тогда эти ваши стадии скорее всего не понадобятся.

Шифрование ГОСТ 28147-89 на х86- и GPU-процессорах

ALEX_k_s Apr 21 2015 at 17:30

Мне кажется на 750 видеокарте не поддерживается двунаправленная загрузка / выгрузка. Соответственно схема не подходит для все ГПУ =)
И я думаю вряд ли производительность ГПУ линейно масштабируется, там очень много факторов.

У самого есть возможность прогнать алгоритм на GTX Titan и Xeon E5 v2, если код конечно не секретен =) а еще интересно посмотреть на оптимальность кода на ГПУ

Оптимизация обработки изображений на C++ с использованием SIMD. Медианный фильтр

ALEX_k_s Apr 21 2014 at 08:39

но в проекте нет makefile, а самому писать не охота)

Оптимизация обработки изображений на C++ с использованием SIMD. Медианный фильтр

ALEX_k_s Apr 20 2014 at 05:52

Классный пост! сделал бы еще сборку для линукса — цены бы не было)

Реализация алгоритма BFS на GPU

ALEX_k_s Mar 8 2014 at 15:04

А в чем собственно проблема? Эти данные закачиваются туда один раз. Предположим вам надо разметить граф хотя бы 32 раза. Тогда на карту будет одна закачка и 32 раза запустится алгоритм. То есть получаем, что на 32 точки 31 работает со скоростью Х, а 1 — Х / 3. Итоговая скорость с учетом копирования уменьшится примерно на 3-4%.
Если же по алгоритму планируется добавление новых дуг, то это тоже можно предусмотреть и добавлять в уже выделенное место.

На Титан помещается граф и на 4Гб, просто для его обработки не хватило памяти, так как был не эффективно написан алгоритм сортировки. Для многих карт я еще пока не думал что делать.

Реализация алгоритма BFS на GPU

ALEX_k_s Mar 8 2014 at 04:47

Нет. Если его учесть, то время счёта будет равно 1/3 от общего. Тем более если вы считаете разные алгоритмы на графах, то загружать будете один раз.

Реализация алгоритма BFS на GPU

ALEX_k_s Mar 7 2014 at 15:02

Всего три этапа: чтение данных сгенерированного графа в формате CSR; далее этап преобразования данных, описанные в SSSP; собственно счёт.
Какой этап вас конкретно интересует? И что понимается под разогревом?

Реализация алгоритма SSSP на GPU

ALEX_k_s Mar 5 2014 at 17:36

Все величины весов имеют порядки 10¹⁶ и сравниваются именно с такой точностью при проверке полученного массива расстояний. Я не понимаю к чему вы клоните.

Реализация алгоритма SSSP на GPU

ALEX_k_s Mar 5 2014 at 16:49

Порядки получаемых длин от 1,5 — 3,0, веса лежат в полуинтервале (0, 1]
Исходные данные были в double и в double они выдаются обратно. Требуется double.

Реализация алгоритма SSSP на GPU

ALEX_k_s Mar 5 2014 at 06:06

Эффективное использование ресурсов GPU. Там, где производительность порядка 1 млрд дуг/сек, профилировщик NVVP показывает производительность L2 на high уровне при незначительных записях в массив dist, и чуть меньше high — при многочисленных записях. Эффективность чтения из глобальной памяти GPU — 100%, запись — где то 25% так как мало данных пишется. Производительность шины показывается на уровне выше среднего.

2