Comments / Profile of ALEX_k

Alexander Kolganov@ALEX_k_s

Программист высокопроизводительных вычислений

ProfileArticles10PostsNewsComments47

Когда компиляторы удивляют

ALEX_k_s Dec 28 2025 at 04:54

Без опций в gcc это эквивалент О0

Релиз ZLUDA 4.0 — инструментария для запуска CUDA-приложений на GPU AMD

ALEX_k_s Jan 3 2025 at 15:48

Я проводил сравнение своих приложений на похожих ГПУ, хотя технически конечно амд и нвидиа сложно найти похожие. Я оставил эти результаты в вопросах к автору этого репозиторию, или могу поискать ссылку или графики скинуть.

Имплементация чисел с фиксированной точкой (часть 2)

ALEX_k_s Jul 30 2024 at 05:51

не такое уж и сложное дело, берем обычный процессор, который у вас есть, далее пишем какой-нибудь не сложный вычислительный код и смотрим, сколько нужно времени для double, сколько для предложенной реализации. Если окажется, что предложенная реализация быстрее, но при этом выдает приемлемую точность, то можно было бы попробовать использовать этот тип в более серьезных приложениях. У меня интерес есть к этому, так как в CFG коде не всегда можно "нормально" перейти с FP64 на FP32, если бы получилось что то интересное с предложенным кодом, то можно было бы попробовать использовать его, так как точности в FP32 не всегда хватает.

Опробовать можно на методе Якоби, например, хотя бы на последовательной реализации. Например, на таком коде, нужно только выкинуть наши директивы распараллеливания, если смущают, а так - ни будут проигнорированы. http://dvmh-server.ddns.net:3000/Alexander_KS/SAPFOR/src/branch/master/dvm/tools/tester/trunk/test-suite/Performance/jac3d.cdv

Имплементация чисел с фиксированной точкой (часть 2)

ALEX_k_s Jul 30 2024 at 05:21

Самое главное, какая производительность этого дела? Сравнима ли она с double, float? Было бы интересно это увидеть, иначе смысл этого всего немного теряется. И насколько быстро растёт погрешность, например, при выполнении редукции по сумме скажем 1000000 чисел?

Ода хейта C++

ALEX_k_s May 23 2024 at 07:10

даже в таком варианте будет true

Ода хейта C++

ALEX_k_s May 23 2024 at 07:09

где в статье так написано?

Ода хейта C++

ALEX_k_s May 22 2024 at 17:14

приведите хотя бы один компилятор, который так не делает и будет выдано false? в статье не сказано, что может быть выдано или true, или false, утверждается, что только false, при этом если взять и скомпилировать самыми распространенными компиляторами, то получим совершенно иную картину.

-1

Ода хейта C++

ALEX_k_s May 22 2024 at 11:04

Не знаю, писал ли кто то здесь про это, но если в статье это не исправлено, значит нет:
<<< Однако код"abrakadabra" == "abrakadabra"вернет false, ведь это два разных массива >>>

тут явно ерунда написана, так как в С++ будет возвращено значение true, можете проверить это на коде
printf("%d\n", "abrakadabra" == "abrakadabra");

Сравнение времени выполнения алгоритма на CPU и GPU

ALEX_k_s Nov 21 2020 at 19:52

А зачем писать с# приложение, нельзя напрямую запустить программу из консоли и вывести время её работы, как это было сделано чуть выше?

Сравнение времени выполнения алгоритма на CPU и GPU

ALEX_k_s Nov 21 2020 at 19:45

Более того, в фортране есть операции над массивами, которые заменяют циклы, например, А=В+С, где А, В, С — массивы.

Сравнение времени выполнения алгоритма на CPU и GPU

ALEX_k_s Nov 21 2020 at 19:43

Одно дело, пишутся какие то тестовые программы, другое дело — реальные приложения. Попробуйте написать на своем питоне один из тестов NAS NPB, например BT или LU для газодинамики, и посмотрим, как быстро он будет выполняться на ГПУ, благо результатов очень много, в том числе мною оптимизированные версии под высокоуровневую модель DVMH, где не нужно писать ни строчки на языке C-CUDA. Думаю, что на питоне даже с такими библиотеками и близко не достичь нормальных результатов, а времени на разработку будет потрачено не мало.

О странном методе экономии места на жестком диске

ALEX_k_s May 25 2019 at 18:30

А что как не по русски то написано, читать как то не приятно. Очень плохо объясняется, даже узко специализированному читателю мне кажется на очень то и ясно. Самое главное очень размыта именно сама суть алгоритма — откуда же там берется место и как это вообще работает.

Самая быстрая и энергоэффективная реализация алгоритма BFS на различных параллельных архитектурах

ALEX_k_s Dec 20 2017 at 09:37

Если честно сказать, то он адаптирован для ГПУ и ЦПУ мой + я придумал, как надо организовать данные, чтобы алгоритм работал максимально эффективно. Причем положение данных позволяет выполнять обработку большинства алгоритмов намного быстрее, чем если бы граф находился в произвольном состоянии.
Безусловно, текущий алгоритм это совершенно новый и намного лучший алгоритм, чем был ~5 лет назад, опубликованный мной.

На счет моделирования — надо понять какой процент от общего времени занимают переходы и для чего при переходе использовать BFS ?

Конкурс GraphHPC-2017 на самую быструю реализацию задачи Betweenness Centrality

ALEX_k_s Jan 18 2017 at 12:52

совсем совсем нет? 1,5 месяца же срок.

История участия (и почти победы) в ежегодном соревновании Russian AI Cup 2016

ALEX_k_s Jan 9 2017 at 10:04

Присоединяюсь к поздравлениям. Времени убито гораздо больше, чем у меня =) Но, возможно, оно того стоит.

Быстрее быстрого или глубокая оптимизация Медианной фильтрации для GPU Nvidia

ALEX_k_s Aug 24 2016 at 04:03

Здесь это тоже хорошо смотрится) особенно для тех, кто ищет реализацию из поисковиков.

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Aug 19 2016 at 18:08

Алгоритм не может быть точным или не точным. Алгоритм фильтрации либо корректный, либо не корректный. Последний Алгоритм 3 вообще не правильный, так как он не даст корректного результата. На счет 2го — вопрос.

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Aug 19 2016 at 14:00

а применить то как median_5 к нахождения медианы в квадрате 5х5?

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Aug 16 2016 at 11:43

специально для этого комментария в статье присутствует уточнение. На данный момент нет фиксированной скорости передачи данных между ГПУ и ЦПУ. Также в данном направлении постоянно идет развитие. К примеру, сейчас есть стандарты PCIe 2.0/3.0 и готовится к релизу 4.0. Скорость у них вполне себе известная, для 2.0 — 8 ГБ/сек, для 3.0 — 15ГБ/сек. И я думаю не трудно посчитать самому сколько это будет передаваться. Другое направление — NVlink со скоростью порядка 40-80 ГБ/с.
Но как бы ни была быстра шина между ГПУ-ЦПУ, скорость работы ГПУ все равно будет быстрее и если посмотреть текущие тенденции развития ГПУ и ЦПУ, можно заметить, что ГПУ повышает вычислительную мощность с каждым новым поколением гораздо больше, чем ЦПУ.
Ну и в данном случае предполагалась либо потоковая обработка, либо последовательность фильтров или обработки изображения. Ясное дело, что только одну картинку обрабатывать на ГПУ нет смысла, да и написано это все было ради того, чтобы показать простоту разработки под ГПУ, по отношению к использованию AVX.

Оптимизация обработки изображений с использованием GPU на примере Медианной фильтрации

ALEX_k_s Jul 22 2016 at 08:14

а amd_median5 или amd_median7 там есть? И на сколько мощный там ГПУ? + вы не учитываете, что там обращения идут в ЦПУшную память, которая очень медленная.

2 3