Не пытаетесь ли вы изобретать велосипед? для CUDA точно есть реализация, для AMD наверняка тоже. ну и было бы интересно сравнить скорость на GPU с ними.
Ну во-первых MKL тоже меняется от времени, а во вторых может вдруг выясниться, что у них ничего не теряется? Кроме того стоит контролировать частоты при измерениях.
А потом в приложении появятся потоки и оно с треском рухнет.
про управление форматированием в C странный заход. Там все есть, что надо.
не мешает посмотреть на MAGMA https://icl.utk.edu/magma/
У меня на GF4080 примерно так решается система с одинарной точностью
% N NRHS CPU Gflop/s (sec) GPU Gflop/s (sec) ||B - AX|| / N*||A||*||X|| % ===============================================================================
10304 1 --- ( --- ) 6008.86 ( 0.12) 1.19e-10 ok
GPU умеют 64bit. правда в игровых картах производительность существенно порезана, относительно 32.
Не пытаетесь ли вы изобретать велосипед? для CUDA точно есть реализация, для AMD наверняка тоже. ну и было бы интересно сравнить скорость на GPU с ними.
Ну во-первых MKL тоже меняется от времени, а во вторых может вдруг выясниться, что у них ничего не теряется? Кроме того стоит контролировать частоты при измерениях.
а MKL потестить?
На каком процессоре все это тестировалось? И было бы неплохо посмотреть, сколько могут выжать другие известные библиотеки.
Gunnar ничего не ломал, все было сломано тем, кто криво заюзал hashtable.
Зачем там вообще hashtable? 🙄
Невозможно взять что-то под лицензией GNU и сменить ее на что-то другое.
ну там выше ссылка на pcre2 есть, я когда отвечал еще не видел того коммента. не думаю, что есть смысл смотреть на старые версии того же самого.
А где pcre?
... и внося новые баги :)
Оригинальный DOOM был написан не на С++ :)