ne0d1n 17 мар 2009 в 08:50

Named Capturing Group и Backreferences

3 мин

6.5K

Регулярные выражения*

+48

Комментарии 46

Osiris 17 мар 2009 в 09:15

Что-то с картинками не так
и катом

ne0d1n 17 мар 2009 в 09:32

Спасибо, подправил

isapioff 17 мар 2009 в 09:20

эм…
а если в тэге PRE встретиться последовательность <IMG src=… .../>?

ne0d1n 17 мар 2009 в 09:38

Не важно внутри какого тега. Будет работать.
Это не готовое к употреблению выражение, но в 99% случаев будет работать.
Если парсить страницу целиком, желательно перед этим убрать со страницы скрипты и комменты (отдельной регуляркой)
Особенно проблематичными могут оказаться конструкции типа onmouseover=«document.write('<img src...)»

isapioff 17 мар 2009 в 09:41

Дык! В этом и проблема!
Зачем собирать картинки, которые не картинки вовсе, а обычный текст?
Ваша задача — «Задача — найти в HTML все теги IMG»
Вот в текста ниже — НЕТ тэгов IMG!

<IMG src=abc/>

isapioff 17 мар 2009 в 09:42

Сорри, хабр съел. Вот правильный листинг:

<PRE>

<IMG src=abc/>

</PRE>

ne0d1n 17 мар 2009 в 09:46

Твоя правда, спорить не буду :)

Тогда небольшая поправка:
Если парсить страницу целиком, желательно перед этим убрать со страницы скрипты и комменты, блоги PRE (отдельной регуляркой)

isapioff 17 мар 2009 в 09:48

это можно указать в заметках к топику, чтобы не смущать новичков, чтобы не думали что есть простые лекарства :)

isapioff 17 мар 2009 в 09:49

Кстати, а как купить RegexBuddy в России?

ne0d1n 17 мар 2009 в 09:51

Не знаю. Я с таблеткой нашел. :)
Хотя была бы возможность, купил бы!
Оно того стоит!

isapioff 17 мар 2009 в 09:52

Я пользуюсь The Regex Coach
Правда, она иногда глючит и приходится проверят на своей собственной програмке простенькой.

flypigs 17 мар 2009 в 10:14

Под виндой лучше Expresso (http://www.ultrapico.com/Expresso.htm). Правда нужен хотя бы 2.0 .NET Framework.

Error_403_Forbidden 17 мар 2009 в 15:26

Я перепробовал все вышеперечисленные программы, но остановился на лучшей, на мой взгляд, бесплатной «RegEx Tester» sourceforge.net/projects/regextest
Остальные либо глючат, либо платные

НЛО прилетело и опубликовало эту надпись здесь

ne0d1n 17 мар 2009 в 16:02

Я из Узбекистана. У многих пока нет даже банковского счета. Но не будем о политике…

sunnybear 17 мар 2009 в 15:38

если имеется в виду, что выводится код в указанном виде, то там будут html-entities
если прямо в таком виде написать — то будет картинка, которая выловится

darkk 18 мар 2009 в 10:29

Проблема в том, что на самом деле внутри

может рендеряться.

http://darkk.net.ru/tmp/image-inside-of-pre.html

darkk 18 мар 2009 в 10:30

Чёртов хабрапарсер. Я про то, что «img» внутри «pre» может рендеряться.

isapioff 18 мар 2009 в 10:37

упс. точно. сорри!
что-то я перепутал.

ne0d1n 17 мар 2009 в 15:13

MTonly 17 мар 2009 в 16:05

Полезно бы где-нибудь вначале статьи подчеркнуть, что HTML-код разбирается лишь в качестве примера разбора любого, абстрактного кода. Чтобы увидевшие статью начинающие не пытались вручную разбирать HTML-код при наличии DOM, где задача решается простым document.getElementsByTagName('img').

Antipod 17 мар 2009 в 16:08

Интересно бы больше узнать о бесплатных тулзах для работы с регулярными выражениями. Пользоваться приходится редко, и в основном для .net, так что вполне устаривают ограничения «должен быть установлен .Net». Пошел за последней версией Regulator (http://sourceforge.net/projects/regulator/), но он при запуске выдавал иксепшен и слетал. Ковырятся в исходниках желания не было, да и задача с регулярным выражением была не настолько серьезной чтобы в исходниках регулятора ковыряться. В итоге на рсдн-е нашел RegEx Tracer (http://www.rsdn.ru/Forum/?mid=1884510), все что мне надо было, он делал. Но, повторюсь, хотелось бы побольше бесплатных тулов для работы с regex-пами.

НЛО прилетело и опубликовало эту надпись здесь

volanddd 17 мар 2009 в 16:09

А бесплатных аналогов нет?

ne0d1n 17 мар 2009 в 16:16

В комментах выше упоминался «RegEx Tester» sourceforge.net/projects/regextest но меня с самого начала Buddy устроил настолько, что даже не смотрел аналоги.
В нем и библиотека регулярок есть, и код готовый по регулярке создаёт для массы языков, и GREP встроенный для работы с файлами

mdevils 17 мар 2009 в 16:33

Вспоминается шутка:

Если у вас проблема и вы ее решаете регулярными выражениями, то у вас две проблемы.

В вашем примере вам быстрее было бы парсер HTML написать, чем так мучаться.

ne0d1n 17 мар 2009 в 16:38

Регулярки нужно знать хотя-бы для того, чтобы никогда не использовать. :)

Tanabe 17 мар 2009 в 17:00

Таки да :)

Интересно, как по скорости будет работать алгоритм, который вытаскивает все вот этой одной регуляркой и процедура, которая вытащит все и распарсит их отдально на тэги, взяв нужное?

mdevils 17 мар 2009 в 17:10

Не обязательно все вытаскивать: можно strpos("<img"..), а дальше парсить :-)

Tanabe 17 мар 2009 в 17:14

Ну, это страшненько :)
Но вообще, я когда защиту на PHP писал, у меня регэкспы вытаскивали заодно и позицию. Я, правда, от нее назад плясал — мне надо было вытащить все объекты при использовании функций и переменных (...->...).
Если бы я пошел по пути написания одного большого регэкспа, я бы, наверное, до сих пор отлаживал…
Хотя вот там в какой-то момент приходит мысль, что уже неплохо бы и разборщик грамматики написать, вместо всего этого :)

Bonch 18 мар 2009 в 12:56

Хм, можно и конечный автомат написать :)
Но я бы сделал так:

/<img[^>]+>/i

Под большинство случаев вполне подойдет. Если надо 100% совпадение со всеми вариантами — тут без КА никак.

Kirax 19 мар 2009 в 13:11

с HTML таки да, потому что там есть простая формальная грамматика, и проще сделать парсер. А бывают случаи когда формальной грамматики нет, или она слишком сложная, тогда нужны рэгекспы потому что проще описать некоторые шаблоны чем грамматику.

myiworm 17 мар 2009 в 17:53

<img\b, или <img\s+ не забывайте в названиях тэгов. Иначе можно нарваться на xml и пропарсить лишнего.

НЛО прилетело и опубликовало эту надпись здесь

ne0d1n 17 мар 2009 в 19:23

Как лучшее решение поставленной задачи — да.
Хотя слышал, что уронить html tidy невалидным HTML всё же можно, если постараться.

НЛО прилетело и опубликовало эту надпись здесь

Kirax 19 мар 2009 в 13:13

Запросто. К сожалению пока не встречал библиотеки которая работает хотя бы также четко как броузеры.

FatalErr 17 мар 2009 в 19:22

«куда лениво захватываются» — может, всё-таки нежадно? Ленивые обычно вычисления…

ne0d1n 17 мар 2009 в 19:27

перевел в лоб «lazy», т.к. учил в основном по английским учебникам.
Официальный перевод lazy в контексте регулярок не встречал, возможно нежадно — более точно

darkk 18 мар 2009 в 10:31

Обычно greedy я встречал в контексте регулярок.

FB3 17 мар 2009 в 21:09

Не рекомендовал бы применять регулярные выражения для работы с HTML.
Проще приводить HTML к валидному XML и потом кучей различных способов его можно обработать и выполнить ту же задачу более качественно и быстро.

Murz 17 мар 2009 в 21:32

Нормальной оффлайн программы для regexp я не нашёл под linux (сижу на kubuntu, kregexpeditor какой-то уж совсем непонятный, альтернативы какие-то хилые), наиболее удобным для себя нашёл онлайн-парсер regexpal.com/ — есть небольшие глюки с выделением результатов, а в остальном — штука отличная, выручает очень часто! Так что рекомендую всем к использованию! Бесплатно и всегда под рукой на любом компе.