v1tos Sep 17 2019 at 07:03

Как не сделать самый быстрый strlen и найти недоработку в Visual Studio 2019 Community

8 min

10K

Assembler * C++ * Programming *

From sandbox

+26

Comments 10

maksqwe Sep 17 2019 at 09:07

Насколько я понял, вот баг-репорт.
developercommunity.visualstudio.com/content/problem/734414/it-seems-that-visual-studios-cpp-compiler-creates.html

Буду следить, но не думаю что успеют пофиксить до выхода 16.3 версии, скорее всего пофиксят уже в 16.4.

picul Sep 17 2019 at 09:31

Судя по документации третий цикл заменяется на: length += res;
Также не совсем понятно зачем первый цикл — можно прочитать без выравнивания с помощью _mm_loadu_si128 и сделать то же, что в основном цикле.
Еще стоит попробовать заменить _mm_cmpistri на _mm_cmpestri — может, станет быстрее.

Antervis Sep 17 2019 at 13:25

когда loadu попадает на границу страницы, это в лучшем случае медленно, в худшем — segfault.

picul Sep 17 2019 at 13:52

Ладно, можно прочитать по выровненному вниз адресу, и проверить как в статье про «самый быстрый» strlen, правильно сдвинув результат movemask-а.

Antervis Sep 17 2019 at 14:42

есть у меня подозрение, что выфильтровывание нулей перед невыровненным участком того не стоит для коротких строк

v1tos Sep 17 2019 at 15:01

Интринсики

__m128i data = _mm_load_si128((__m128i*)(str + length));
if ((res = _mm_cmpistri(z128, data, _SIDD_CMP_EQUAL_EACH)) != 16)

Компилируются в одну инструкцию

pcmpistri   xmm1,xmmword ptr [eax+edx],8

Замена на _mm_cmpestri делает код медленнее, почти в 2 раза.
Выровненная память быстрее на 2-3%, исключения misaligned нет, и да видимо выровнить предварительно лучше, что бы не боятся в основном цикле выхода за границу страницы.

picul Sep 17 2019 at 15:56

На счет _mm_cmpestri — странно. Но все равно спасибо за тесты.

Antervis Sep 17 2019 at 10:08

Сделали ли мы самую быструю strlen? – К сожалению, нет, ребята с www.strchr.com/sse2_optimised_strlen сделали еще быстрее и не используя SSE4.2.

А за счет чего, если не секрет? Вроде как по latency/throughput pcmpstri обходит pcmpeqb + pmovmskb + not + bsf для всех актуальных процов. Или они сами итерации грамотнее реализовали?

IvUs Sep 17 2019 at 16:32

А пробовали ли вы x64 вместо устаревшего x86?
У меня 17я студия, ваш бенч показывает такое:
x86 debug — 8.5
x86 release (все оптимизации) — 3.1
x64 debug — 6.77
x64 release (все оптимизации) — 1.7
То есть x86 и x64 довольно по-разному себя ведут.

v1tos Sep 18 2019 at 10:21

Добавил тесты для x64. Поведение компилятора VS аналогично.