Комментарии / Профиль KILYAV / Хабр

Я использую rdtsc для измерения в тактах, а вот cpuid я использовал буквально один раз в незаконченном коде как селектор выбора оптимального кода для текущей машины.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 19 ноя 2024 в 12:43

Есть обновление, тесты AndreyDmitriev показали, что лучший на данный момент код на AVX-512 в 10 раз быстрей. Возможно мой код можно ускорить в два и даже три раза, но все равно AVX-512 будет в три пять раз быстрей.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 18 ноя 2024 в 18:10

В примере с Если процессор поддерживает SHA256RNDS2, SHA256MSG1 и SHA256MSG2, есть момент который я хотел попробовать, а именно непосредственную загрузку коэффициентов в регистры не из памяти, а непосредственно командным способом.

Ну и если задуматься то весь этот код по сути ассемблерный, но обернутый в С-подобный синтаксис, что позволяет значительно легче интегрировать его в целевой проект.

Возможно еще один способ который позволяет их коду быть быстрей, это какой то хитрый способ заставить проц грузить данные в кеш заблаговременно.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 18 ноя 2024 в 17:52

Надо попробовать убрать MMX и перенести все в SIMD

На wiki написано, что часть OpenSSL написан на ассемблере, так что возможно тут соревнуются два асм кода и похоже их лучше.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 18 ноя 2024 в 15:38

Исправил.

В процедуре загрузки я не учел, что "заглушку" тоже нужно перевернуть.

Попробуйте сейчас.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 18 ноя 2024 в 13:50

Вы совершенно правы, я забыл перезапустить указатель на таблицу констант между блоками, в итоге начиная со второго блока вместо констант происходило чтение мусора.

Что еще раз напоминает об опасности работы с указателями.

Большое Вам спасибо за внимание к моему коду и его проверку.

Надеюсь он Вам пригодится.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 18 ноя 2024 в 08:04

Забавно, но вот только что я узнал ответ на этот вопрос.

Изначально инструкция movd появилась вместе с ММХ до х64 и могла пересылать только 32-битные данные из GPR в MMX, а инструкция movq пересылала данные между регистрами MMX, потом регистры расширили, а мнемонику менять не стали, и по прежнему movd пересылает данные между разными регистрами, а movq между регистрами ММХ.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 20:14

Я компилирую через ml64 у него есть странный баг, он не понимает инструкцию movq в данном контексте, мне даже попадалась инфа в нете, что люди обращались по этому вопросу и им ответили что и так сойдет.

Так и живем.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 14:26

Попробую, проверю.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 09:41

Если не выходить за пределы SSE то пенальти не будет назначено.

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 08:06

Поправил

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 08:06

У меня нет оснований для такого утверждения, но я предполагаю что регистры MMX & XMM с аппаратной точки зрения это одни и те же регистры, где в качестве MMX регистра выступает нижняя часть MMX регистра, таким образом мой код просто "отжимает" себе больше регистров из общей "кучи". К примеру в Skylake 128 векторных регистров, разделяемых между 6-8 ядрами.

Согласен что решение через старшие регистры SIMD "безопасней".

Генерация SHA-256 посредством SIMD (SSE-2) инструкций, в MMX и XMM регистрах, без использования памяти (почти)

KILYAV 17 ноя 2024 в 07:59

К моему удивлению, практически никакой разницы, увеличение размеров регистров позволит упростить перемещение между ними и разместить все вычисление в SIMD, но алгоритмы Декомпрессии и Компрессии по прежнему будут вычисляться по два и одно значение за раз.

AVX & AVX-512 сделают код короче и быстрей, но не в разы.

Экономические выгоды от добычи полезных ископаемых в космосе

KILYAV 11 фев 2024 в 06:25

Есть тысяча тонн рения на НОО в форме шара объемом примерно 45 кубометров и диаметром 4,5 метра. Сталкиваем его с орбиты и он падает в океан на мелководье где мы его поднимаем. (Первый простой вариант)

Есть тысяча тонн рения и примерно две тысячи тонн лития на НОО в форме шара где рений снаружи а литий внутри, объемом примерно 3790 кубометров и диаметром 19,3 метра. Сталкиваем его с орбиты и он падает в глубоководную часть океана после чего всплывает самостоятельно за счет положительной плавучести, цепляем на трос тащим в порт.

Очередной взгляд на собеседования. Часть 1

KILYAV 2 дек 2023 в 14:50

"Все" посты одна сплошная ошибка выжившего, все пишут о тех кого наняли, я вот хотел бы почитать о тех кого не наняли.

Развенчание мифа о собственной продуктивности программистов

KILYAV 2 дек 2023 в 09:36

Я с удовольствием почитал бы книгу "Токсичное программирование", жаль таких не пишут.