EvilMan Aug 21 2023 at 14:05

Regex engine internals as a library [full]

Hard

77 min

6.2K

Programming * Rust *

Translation

+32

Comments 10

homm Aug 21 2023 at 18:55

Мне кажется странным поддерживать в движке регулярных выражений какую-то определенную кодировку юникода, пусть даже такую распространенную как UTF-8. Из статьи я понял, что огромный класс проблем был только от того, что нужно было реализовать поиск именно в байковом представлении UTF-8. Может быть было бы эффективнее искать сразу в кодпоинах Юникода?

EvilMan Aug 21 2023 at 20:48

Судя по всему, даже используя алфавит из кодпоинтов Юникода всё равно получаем огроменные символьные классы (и, соответственно, гигантские автоматы). При этом теряется универсальность и ещё, наверное, пришлось бы часть движков делать в двух экземплярах - один экземпляр для алфавита на основе байт, а второй - для алфавита из Юникодных кодпоинтов.

Helltraitor Aug 21 2023 at 23:09

Не поверил своим глазам, как раз искал статьи про устройство Regex для решения одной задачи с LeetCode. Спасибо огромное

EvilMan Aug 22 2023 at 09:12

Там ещё есть ссылка на серию статей по устройству библиотеки RE2 от его автора.

FUNNYDMAN Aug 22 2023 at 14:19

Какая задача?

Helltraitor Aug 22 2023 at 14:41

https://leetcode.com/problems/wildcard-matching/

POPSuL Sep 6 2023 at 14:02

Если хочется именно написать свой КА, то я думаю можно начать с книжечки:

https://www.oreilly.com/library/view/introducing-regular-expressions/9781449338879/

А если нужно просто решить -- ну, решается эта задача в лоб в три строчки :)

AnotherAnkor Aug 22 2023 at 07:07

Сорян, но поясните для меня, что такое "крейт" и "трейт"? Даже википедия ничего не знает по теме.

EvilMan Aug 22 2023 at 07:57

Crate - это так в rust называются библиотечные модули, иногда их называют пакетами. Trait - это что-то вроде интерфейса - набор методов, которые реализованы для конкретного типа данных. В русскоязычной литературе встречается термины "характеристика" и "типаж".

DarkEld3r Aug 22 2023 at 21:44

Crate — это так в rust называются библиотечные модули, иногда их называют пакетами.

Немного не так. Crate — "единица компиляции", это может быть как библиотека, так и исполняемый файл. Подробнее вот тут.