BarsMonster Dec 26 2012 at 20:10

Опережающие и ретроспективные проверки в регулярных выражениях

3 min

81K

PHP * Website development * Regular expressions *

Tutorial

+52

Comments 48

Bytamine Dec 26 2012 at 21:17

Сколько этим пользовался, а только сегодня узнал, что они называются опережающие и ретроспективные )

ComodoHacker Dec 26 2012 at 23:24

Отдельное вам спасибо за уважение к русскому языку и попытку переода терминов. Хотя бы в заголовке.

zerkms Dec 27 2012 at 00:26

Раз такое дело: мало кто знает ещё о так называемых «possessive quantifiers». При этом они предоставляют довольно интересное поведение.

Почитать: www.regular-expressions.info/possessive.html

bolk Dec 27 2012 at 03:54

В регулярках вообще много такого, что мало кто знает. В PCRE есть «глаголы» (VERBS), например. Про рекурсивные регулярки мало кто слышал почему-то и так далее.

matiouchkine Dec 27 2012 at 06:49

Смею предположить потому, что всегда проще написать две регулярки последовательно, вместо того, чтобы ломать мозг потенциальному поддерживателю кода.

bolk Dec 27 2012 at 11:33

Это как сказать. Например, глагол «UCP» (так кажется, могу путать) нужен для корректной работы с UTF-8.

matiouchkine Dec 27 2012 at 14:42

Чтобы использовать магическое слово «UCP» — не обязательно знать про «VERBS в PCRE», правда?

BarsMonster Dec 27 2012 at 14:46

Собеседовал недавно человека, решаем задачку… Он в конце регулярного выражения ставит модификаторы isU

Спрашиваю «А зачем они нужны и что значат»?
Ответ — «Не знаю, они нужны чтобы все правильно работало, всегда их ставлю»

matiouchkine Dec 27 2012 at 14:54

Смешно, конечно.

Но я себя заставлял разбираться в PCRE года через три, после того, как начал пользоваться всякими регулярками. Просто болк — он педант, он шагу не ступит, пока не проверит поле вокруг на триста миль вперед на отсутствие мин. Это очень ценное качество, но оно не всем дано.

akirsanov Dec 27 2012 at 15:39

Зато человек не жадный.

bolk Dec 27 2012 at 18:27

Я не про модификаторы, я про «глаголы».

bolk Dec 27 2012 at 18:27

Неправильно. UCP — это и есть VERBS. Применяется он, например, так: /(*UCP)\w+/.

matiouchkine Dec 27 2012 at 18:59

Я знаю, как он применяется, спасибо.

Это никак не отменяет тезис «увидел на стаковерфло, и повторил», правда?

aalexand Dec 27 2012 at 10:10

Рекурсивное регулярное выражение — это уже не регулярное выражение, а стековая машина. Это не делает их менее полезными, но важно понимать, что это уже не конечный автомат.

bolk Dec 27 2012 at 11:35

Рекурсивное регулярное выражение — это всё ещё регулярное выражение, пусть и не автомат. Где есть требование делать их конечным автоматом?

aalexand Dec 27 2012 at 12:25

Классическое использование термина «регулярное выражение» означает «выражение, описывающее некоторый регулярный язык». Это, как мы видим, не всегда так, но мою чуткую душу это коробит, так что вот и напоминаю.

UFO landed and left these words here

bolk Dec 27 2012 at 18:28

Например, мне как-то нужно было матчиться на функцию, в которую могла быть вложена другая функция. Что-то вроде sin(cos(0.3))

UFO landed and left these words here

bolk Dec 27 2012 at 18:56

Неизвестен он.

Meredian Dec 27 2012 at 04:08

Простите за банальность, но традиционно, про html и регекспы
Вас спасает надежда на то, что пользователь не будет злоупотреблять, но вообще когда-нибудь оно обязательно сломается ;)

BarsMonster Dec 27 2012 at 07:19

Да, именно на этот вопрос я натыкался когда столкнулся с проблемой.
Но в данном случае пользователь — только я, и я не склонен ломать свой сайт ;-)

LastDragon Dec 27 2012 at 06:03

www.books.ru/books/regulyarnye-vyrazheniya-3-e-izdanie-fail-pdf-626982/?show=1 там еще много интересного есть :)

skorney Dec 27 2012 at 10:03

Хорошая книга, тоже рекомендую, даже не жалко бумаги на бумажный вариант.

HomoLuden Dec 27 2012 at 06:03

Может лучше было использовать Markdown или другой движок? Пусть заморочка с абзацами (два пробела в конце строки или одна пустая), но зато готовый набор множества других «плюшек»

matiouchkine Dec 27 2012 at 06:50

Ага. Здравствуй, бухгалтер, теперь ты пишешь на маркдауне.

HomoLuden Dec 27 2012 at 17:33

Неа. Здравствуй, бухгалтер, теперь ты пишешь на HTML. Бухгалтеру необязательно говорить, что две решетки перед заголовком это «MARKDOWN».
Но вообще я согласен. Даже заморочка с абзацами и переносами для некоторых целевых групп неприемлемы.

BarsMonster Dec 27 2012 at 07:21

Изначально(лет 10 назад) на том сайте так и было, но с течением времени оказалось, что обычный HTML проще и удобнее.
Markdown у всех разный, а HTML — везде один :-)

HomoLuden Dec 27 2012 at 17:36

HTML тоже разнится (я о кроссбраузерности). Хотя в данном случае набор поддерживаемых тегов подразумевается ограниченный весьма?

BarsMonster Dec 27 2012 at 17:40

Да, как на хабре. Никаких css, и прочих радостей жизни.

EvilMan Dec 27 2012 at 06:57

Мне кажется, что стоит упомянуть, что данные проверки относятся к так называемым «позиционным» проверкам, т.е. они совпадают не с текстом, а с позицией в тексте. При этом текст не «поглощается», что позволяет матчить его другой частью регулярного выражения.

Placido Dec 27 2012 at 07:24

Можно еще вспомнить, что опережающие проверки можно использовать перед искомым выражением (там, где обычно пишут условия для ретроспективной проверки) для имитации логического оператора «И» в регулярных выражениях. Например,

(?=.*\d)(?=^[A-Z]).{8,}

будет искать строки длиной не менее 8 символов, в которых есть хотя бы одна цифра И которые начинаются с прописной латинской буквы.

truezemez Dec 27 2012 at 08:13

Есть еще редко используемый модификатор — x. Он позволяет писать комментарии и игнорирует переносы строк:

$str = 'test-pcre-comments76755';
preg_match('
	~
	^      #начало строки
	(\w+)  #слово
	.+?    #любая последовательность (не жадная)
	(\d+)  #число
	$      #конец строки
	~x
', $str, $matches);
var_dump($matches);

array
  0 => string 'test-pcre-comments76755' (length=23)
  1 => string 'test' (length=4)
  2 => string '76755' (length=5)

bolk Dec 27 2012 at 18:30

Он ещё и пробелы игнорирует.

hermit931 Dec 27 2012 at 08:20

Наверное стоило так же упомянуть, что есть так же разные диалекты (в одном из них эти проверки не работаю), которые используют разные языки. К примеру в JS ретроспективная проверка не работает :). Я сейчас уже не помню, всех тонкостей, но их много

BarsMonster Dec 27 2012 at 08:26

Там проблемы в основном с look-behind — это упомянуто. Look-ahead работает обычно везде.
Добавил про JS.

hermit931 Dec 27 2012 at 08:31

C Look-ahead в JS не сталкивался, чаще требуется look-behind. Был разочарован, когда пол-часа долбился с написанием правила для такой проверки, и удивлялся, почему не работает. Оказалось что просто JS не поддерживает ее.

senia Dec 27 2012 at 08:36

Упоминать это можно в виде такой таблички.

hermit931 Dec 27 2012 at 08:39

Неплохо бы добавить табличку к посту )

BarsMonster Dec 27 2012 at 08:42

Готово )

Nordvind Dec 27 2012 at 14:03

Назовите хотя бы одну причину, почему не надо использовать нормальный html парсер, а пользоваться регексами, которыми невозможно нормально парсить context-free grammar?

BarsMonster Dec 27 2012 at 14:20

Причина проста: гвозди забивают молотком, а не микроскопом.

Именно парсить HTML (выкусывать ссылки, картинки и прочее) — конечно стоит парсером.
Заменять переводы строк — можно тем, что работает проще, быстрее и не требует поддержки.

Nordvind Dec 27 2012 at 17:56

Бред. Имеет смысл только для написанных на коленке приложениях для себя, или для очень небольших объемов html. Регексы, особенно чужие — write-only код, со всеми вытекающими.

BarsMonster Dec 27 2012 at 18:12

Еще раз — я не предлагаю выдирать урлы картинок регэкспорм — хотя это и можно сделать.
Регулярные выражения в 20 символов для простых задач — проще и понятнее, чем парсер.

bezumkin Dec 27 2012 at 14:41

С некоторых пор пользуюсь Jevix в своих проектах — очень доволен!

Практически забыл про оформление текстов. Вы, кстати, тоже им пользуетесь, прямо сейчас, на Хабре.

antoo Dec 28 2012 at 06:17

Вместо регэкспов можно спокойно использовать стандартную функцию nl2br

sectus Dec 28 2012 at 08:28

Такое выражение поломается

<ul>
<li></li>
<li></li>
</ul>

justAdmin Dec 29 2012 at 02:19

В Perl еще есть нечасто используемый ключик e, который позволяет запускать код Perl и использовать возвращаемое значение в подстановке:

# Преобразовываем urlencoded строки в читаемые utf8
s/ ( (?: %[0-9A-F]{2} )+ )/ { my $a1 = uri_unescape($1); utf8::decode($a1); $a1; } /gex;