Comments / Profile of dmi

Дмитрий@dmi_a

Программист

ProfileArticlesPostsNewsComments9

Секреты невозможных вычислений на GPU

dmi_a Oct 10 2018 at 10:42

Ссылкой поделитесь? Возможно, у меня есть подписка.

mi.mathnet.ru/dm1388
С части IP из России открывается, с части нет

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 18:02

Соглашусь, тут мы допустили небрежность. Изначально хотели больше написать про x86 и историю, но потом этот текст ушел, т.к. все-таки статья о другом.

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 17:26

Celeron и младшие i3

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 17:24

Ну что это за описание сложности? Ну неужели нельзя формулу написать?

В худшем случае 2^n. Пути редуцирования (до 2^(n/2) примерно) не так интересны, это специфика задачи. К сожалению, статья раньше была в открытом доступе, а сейчас доступ только по подписке :(

О планировщике задач, о профилировании OpenCL кода, о том, какие оптимизации на OpenCL делали, что сработало, а что нет.

«Путевые заметки» остались, вопрос насколько это интересно. Там много спорного и, к сожалению, немало негатива — видно что AMD технология уже не так интересна как прежде. Инструментарий заброшен, компилятор сломал всю обратную совместимость, APP SDK с сайта не скачать.
Подозреваю, что бросили все силы на Vulkan…

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 15:24

У нас в одном вычислительном юните 12 GPU, данные на них мы загружали из управляющей программы на языке C. На OpenCL это делается просто — в каждую карту загружается массив входных векторов. Именно задачи тут распределять не нужно, каждый юнит может считать свою последовательность, т.к. решение короткое по времени.
Между юнитами загрузка очень простая, именно для этого случая просто скрипт на питоне.

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 15:17

Было несколько модификаций, 8086-1 работал на 10 Мгц

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 15:14

Первый вариант работал в четыре потока + диспетчер.
Дополнительный прирост скорости образовался из-за слияния функций. Видимо более компактный код компилятору проще оптимизировать.
К примеру, SQLite не зря делают Amalgamation — они говорят о росте производительности до 5%

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 15:09

При переходе из Excel к C++ поменяли способ хранения данных. В Excel каждая последовательность была представлена массивом чисел (набором ячеек), а на C++ задействовали uint256 и закодировали последовательность в бинарном виде. Если в Excel при проверке на наложение со сдвигом необходимо было перебирать все члены массива, то на C++ это просто битовые операции — rotl, and.
Количество переборов тоже снизили, многие комбинации заведомо не являются решением.

Секреты невозможных вычислений на GPU

dmi_a Oct 9 2018 at 14:48

С несколькими ядрами внутри — действительно не было. А вот технология SMP взяла старт с 486-х и применялась в серверных решениях. Правда это было уже на излете 486х, незадолго перед выходом Pentium Pro.