kureimoru12 мар 2010 в 15:16

RE2 — новая библиотека регулярных выражений

1 мин

6.5K

C++ *

+39

Комментарии 23

НЛО прилетело и опубликовало эту надпись здесь

kureimoru 12 мар 2010 в 20:41

Если я правильно понял документацию (под рукой нет ни библиотеки, ни даже компилятора C++), то как-то так:

std::string text("multiline\ntext");
int lineno = 2;
std::ostringstream replacement;
replacement << "sprintf '%05d ', " << lineno++;
re2::RE2::GlobalReplace(&text, "^", replacement.str());

НЛО прилетело и опубликовало эту надпись здесь

kureimoru 12 мар 2010 в 21:08

А, тьфу ты, не выполнит, конечно. В любом случае, это отличие плюсов от перла, регекспы не меняются в обоих случаях. Вот:

replacement << setfill('0') << setw(5) << lineno++;

НЛО прилетело и опубликовало эту надпись здесь

kureimoru 12 мар 2010 в 21:22

Да, этого с ней сделать не получится. Все функции замены (и проверки) в библиотеке принимают фиксированные строковые значения и вызов сторонних функций или callback'и на каждую замену не поддерживают.

Bonart 13 мар 2010 в 08:03

Весьма интересно. Но надо понимать, что линейное время поиска и расход памяти даются далеко не даром: принципиально не позволяют реализовать ряд фич вроде сверхжадных квантификаторов, опережающих и ретропроверок и тем более рекурсий и обратных вызовов. Плюс ряд возможностей вроде сохраняющих скобок и квантификаторов с указанным большим числом повторов весьма дороги в реализации.

tpolm 13 мар 2010 в 12:30

спасибо, Кэп!

impwx 13 мар 2010 в 08:09

В TCL гибридный механизм, который работает скорее как DFA, нежели NFA.

kureimoru 13 мар 2010 в 08:21

Да, вы правы, в той же статье Tcl вспоминают в контексте DFA, а не NFA. Я поправил пост.

Bonart 13 мар 2010 в 08:43

ЕМНИП там DFA ищет образец целиком, а потом на него натравливается NFA. Т.е. с точки зрения расхода ресурсов это все-таки NFA, в котором DFA-дополнение используется в целях оптимизации

impwx 13 мар 2010 в 10:56

Но работает он с DFA-скоростью, т.е. в любом случае, есть ли совпадение или нет, он требует одинаковое время для поиска.

Bonart 13 мар 2010 в 16:40

Нет — DFA-скорость при возможности достигается, но в общем случае не гарантируется. Главное преимущество чистого DFA для гугла (не надо думать об оптимизации самого регэкспа) в этом случае не реализуется.

rev 13 мар 2010 в 09:15

Вау! 2010 год, а плюс-плюсники открыли для себя регулярные выражения

NeonMercury 13 мар 2010 в 09:18

Вы, как я понял, не пишите на плюсах, не понимаете о чём идёт речь, так зачем холиварить?!
Просто появилась ещё одна либа для регэкспов, не более

rev 13 мар 2010 в 09:21

Ваша логическая цепочка обрывается на первой половине предложения. Писал, теперь вот по таким постам не жалею, что слез. Спасибу автору.

stab 13 мар 2010 в 09:53

Странно, что в сырцах есть как файл nfa.cc так и dfa.cc, таки решение гибридное, если судить по коду в re2.cc.

Bonart 13 мар 2010 в 10:26

Тогда нужны точные критерии, когда подрубается NFA (подозреваю, что при использовании сохраняющих скобок), иначе слова о линейном потреблении ресурсов останутся только словами.

impwx 13 мар 2010 в 11:04

Почитал только что список возможностей — подожду использовать, пока не сделают обратные ссылки и опережающую \ ретроспективную проверки. Никто не тестил на скорость относительно PCRE?

tpolm 13 мар 2010 в 12:48

вы статью читали? Там по ссылкам есть тестирование скорости относитлеьно PCRE

impwx 13 мар 2010 в 13:14

Прошу прощенья, не нашел с первого раза :)
Если кому-то интересно — сравнение тут.

Bonart 13 мар 2010 в 16:33

Обе эти фичи на DFA нереализуемы принципиально. С ними о линейности требований к ресурсам можно забыть.

impwx 13 мар 2010 в 18:57

А жаль!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий