andrey0917 Jun 30 2025 at 05:07

с): реализация алгоритма Lemire-Keiser на Go с ARM NEON

8 min

2.1K

Go * Assembler *

Case

+14

Comments 7

ThickChineseGuy Jun 30 2025 at 05:43

Интересное ускорение, Андрей. Стандартный utf8.Valid() в Go — это и вправду достаточно «узкое место» во многих проектах, особенно при потоковой обработке больших данных

Приятно удивила инженерная точность, с которой ты выжал максимум из ARM64 — х10 ускорение это мощно)

За открытые исходники отдельное спасибо — попробую внедрить в свой пет по перекладыванию джейсонов 😅

tunegov Jun 30 2025 at 05:49

Ключевая идея заключается в том, что практически все ошибки UTF-8 можно детектировать, анализируя только первые два байта каждой последовательности.

Что значит практически все? Нельзя быть немножко беременной, особенно в механизме валидации данных.

andrey0917 Jun 30 2025 at 07:08

статья не детальный разбор алгоритма, а конкретной моей его реализации. я дал ссылки на обзор алгоритма. если хотите обсудить мою реализацию Велком

tunegov Jun 30 2025 at 11:59

Я и хотел спросить- в Вашей реализации обрабатываются все возможные ошибки в utf-8 или не все?

andrey0917 Jun 30 2025 at 17:41

все, я же написал есть тесты и фузинг, прочтите статью , прежде чем комментировать

DrSmile Jun 30 2025 at 11:22

Обработка хвостов выглядит излишне сложной. Я бы просто грузил в регистр как есть, а потом занулял хвосты маской.

andrey0917 Jun 30 2025 at 17:42

да, возможно стоит упростить, думаю именно на обработке хвоста проирываюю чутка реализацие на расте