serjoga Feb 20 2011 at 19:38

280 кроказябл или взрывная мощь регулярных выражений

4 min

18K

Regular expressions*

+96

Comments 68

Chvanikoff Feb 20 2011 at 19:46

Вы бы под кат убрали топик…

serjoga Feb 20 2011 at 21:56

не нужно минусовать юзеру… раньше было без хаброката. Спасибо Вам

Ryotsuke Feb 21 2011 at 08:19

чтобы не было таких глупых моментов, про опечатки и отсутствие ката надо в приват писать.

Alukardd Feb 20 2011 at 19:47

Эм… Всё это хорошо, но можно увидеть пример применения?
Мб мой вопрос странный, но что даём на вход и где здесь выход?

serjoga Feb 20 2011 at 19:49

копируем выражение, идем по ссылке в заключении. Там вставляем и смотрим. Не забываем поставить галочку на «global» поиск

Alukardd Feb 20 2011 at 19:56

И-и-и… выражение вставлено, css вставлен, сверху тот же css без переноса строк, я счастлив)))

serjoga Feb 20 2011 at 20:05

Я очень рад, то Вы счастливы. Теперь можете посмотреть в поле «Result» или в правый верхний угол, увидите разбор выражения на части. Если ничего не выводится, просто нажмите 2 раза на галочку «global». Вот что у меня

IgorMats Feb 20 2011 at 21:43

К сожалению, тоже ничего не работает. Справа одни циферки, а в поле Result отсутствует подсветка, что эквивалентно «сверху тот же css без переноса строк».

IgorMats Feb 20 2011 at 21:46

Дивным образом заработало. serjoga, спасибо большое, помозгую теперь)

serjoga Feb 20 2011 at 21:46

а что за браузер? я как бы не писал этот анализатор кроссбраузерно… могут быть проблемы. Но я пользуюсь ФФ 3.6.13, все работает. Также работает под Chrome (только, что проверил)

IgorMats Feb 20 2011 at 21:49

С Chrom'a смотрел. После несколько разового «тыканья» по extension mode заработало. Спасибо.

romik Feb 20 2011 at 20:06

А проверять выражение на корректность кто будет? Или @#%([[^&*=1] — это корректное выражение?
К тому же, вы действительно полагаете что разбор строки это самый медленный этап в задаче поиска DOM элементов по CSS селекторам?

serjoga Feb 20 2011 at 20:11

в JavaScript — абсолютно уверен. Так как я реализовал такой парсер. И он на 10 мс быстрее чем jQuery, на 5мс — за yass в FF3.0 тестировал. Но статья не о том.
К сожалению "@#%([[^&*=1]", мне не удалось найти на странице :)

homm Feb 20 2011 at 20:22

Скажу прямо, это не просто спорно, это вопиюще неправдоподобно.

serjoga Feb 20 2011 at 20:27

На чем основываетесь? Что по-вашему быстрее (в JavaScript)? Вызов в цикле метода «exec» или же 1 «match»?

homm Feb 20 2011 at 20:53

Да какая, собственно, разница. Все равно потом в лучшем случае с помошью браузера, в худшем вручную, перебирать элементы на странице в поисках удовлетворяющих условию.

serjoga Feb 20 2011 at 21:00

ну вот теперь моя очередь сказать прямо. Основываясь на вашем последнем ответе, я думаю, что Вы вообще не знаете особенностей JavaScript. Так как разница есть.
P.S.: в jQuery сделано через «exec».
P.S.S.: перебор очень прост, единственная сложность — это чтобы элементы в коллекции не повторялись. Решение этой проблемы ~~спер~~ позаимствовал у реализации yass

homm Feb 20 2011 at 21:07

Простите, вы тестировали на странице из 2-х элементов или из пяти, что их перебор занимал у вас ничтожное время? Можете привести реальные тесты, сколько времени занимает разбор строки и выборка элементов?

serjoga Feb 20 2011 at 21:14

Я уже написал… Статья не о том! Тесты проводились точно такие же, как на сайте yass. Не уверен как сейчас, но раньше автор yass проводил тесты на этой страничке, то есть на самой документации, где DOM элементов предостаточно.
Думаю дискуссию стоит остановить, так как это бессмысленно сейчас. Хотите пообщаться пишете мне в личку

widowmaker Feb 20 2011 at 20:33

> чтобы это написать сделал анализатор регулярных выражений на JavaScript
А RegexBuddy чем не устроил?

P.S. Есть даже генератор RegexMagic

serjoga Feb 20 2011 at 20:36

Я знал, что есть online решения. Но понимаете, когда в чем-то новичок, то чтобы стать профи нужно все потрогать своими руками. Это ИМХО

widowmaker Feb 20 2011 at 20:42

Это оффлайн решение, весьма полезное как раз для новичков, существует достаточно давно. Сам c ним познакомился когда изучал regular-expressions.

velociraptor Feb 21 2011 at 09:27

Есть еще Regex Coach, халявен, написан на Лиспе.

stansult Feb 21 2011 at 11:02

кстати да, я пробовал все три упомянутых, и Coach показался самым удобным

Gorthauer87 Feb 20 2011 at 21:22

Начинает напоминать brainfuck

gorynich Feb 20 2011 at 21:36

Поэтому слева-вверху у автора есть ссылка такого вида — naxblyahttp://tets :D

loat Feb 20 2011 at 21:38

«Если у вас есть проблема и вы решили использовать регулярные выражения, чтобы решить её ....»

serjoga Feb 21 2011 at 06:54

какое Вы можете предложить решение и с помощью чего?

loat Feb 21 2011 at 07:31

да не воспринимайте вы всё так серьезно, у вас не плохая работа, это просто шутка в тему.

petrovnn Feb 21 2011 at 19:57

«… то у вас уже две проблемы» :)

это окончание

asolntsev Feb 20 2011 at 22:10

Здравствуйте.
На мой взгляд, текст статьи довольно сумбурный и содержит ошибки. Взять хотя бы первую фразу: «В общем, наверное, как и другой любой начинающий JavaScript прогрммист (2 года назад), мне хотелось все реализовать своими руками.»: одна грамматическая и три стилистические ошибки, но самое главное — непонятно, о чём вообще речь. Поэтому поставил минус, несмотря на то, что тема может быть интересной.
Удачи.

ooprizrakoo Feb 20 2011 at 22:31

Написали бы автору в личку. Я вот про то, что слово «насколько» пишется слитно, сейчас ему напишу. И про желательность написания «чего-либо» через дефис.

asolntsev Feb 21 2011 at 16:03

Спасибо за совет, в следующий раз так и сделаю.

UFO landed and left these words here

stroncium Mar 24 2011 at 17:18

Приебываться — так приебываться…

«как и другой любой начинающий JavaScript прогрммист, мне хотелось все реализовать своими руками»

Прямо глаза режет. (Но я типа промолчал, пока речь не зашла.)

meettya Feb 20 2011 at 22:50

Регулярки — это хорошо, но вот пара моментов смущает.
Во-первых — а какая задача стояла перед автором?
Во-вторых — есть RFC или как их там, доки стандарта, там наверняка есть схема чего где идти должно, где буквы, где цифры. Конструкция вида "[^"]" мягко говоря смущает.
В-третьих — не стесняйтесь пользоваться сохраняющими скобками, если у вас там кавычки разные — смысла нет лепить вилку на 3 случая, лучше использовать ссылку на сохраненный элемент.
В-четвертых — предварительная оптимизация — ммм… бессмысленное времяпрепровождение. Приятное, но бессмысленное. Эдакая полировка сферического коня в вакууме.
И последнее — не лепите все руками. Есть либы, есть фреймверки, написанные талантливыми людьми не от хорошей жизни. Пользуйте их.

serjoga Feb 21 2011 at 06:14

задача стояла написать эффективное регулярное выражение. Конструкции вида "[^"]" — я использовал, для того чтобы в селекторах можно было писать свои регулярные выражения, а также любой текст, например для псевдо селектора ":contains()".
Хотел сделать быстрый разбор строки, а в JavaScript самый быстрый способ это сделать — использовать регулярное выражение.
Я не использовал обычных круглых скобок из-за того, что они работают медленней чем "(?: )". Об этом говорит Дж. Фридл. Сам же я не тестировал конечно.
Иногда, то что написано в фреймворке, далеко не есть идеалом. Поэтому существуют комюнити, которое конструктивно критикует результат и делает предложения по его улучшению.

meettya Feb 21 2011 at 07:10

задача стояла написать эффективное регулярное выражение.

эх, е-мае! оно эффективно ЧТО должно делать? матчить все подряд, реплейсить, валидировать? Я вот всегда перед написанием какой-то фичи, почти как на физике 6-го класса, беру бумажку и пишу — «Дано» и «Что делает», иногда еще и пример накидываю, чтобы понять «готово-не готово».

Я не использовал обычных круглых скобок из-за того, что они работают медленней чем "(?: )".

Фридл невероятно прав, однако, если ты его повнимательнее почитаешь, то найдешь, что использование сохраняющей скобки И ссылки на нее в САМОМ выражении может оказаться дешевле, чем вилки из ТРЕХ альтернатив, потому что regex-машина унутрянне делает промежуточную запись бОльшего размера, чем твоя несчастная кавычка, из-за которой вилка лепится.

Конструкции вида "[^"]" — я использовал, для того чтобы в селекторах можно было писать свои регулярные выражения, а также любой текст, например для псевдо селектора ":contains()".

Еще раз. У любого выражения есть 2 проблемы — оно не совпадает с нужным и совпадает с ненужным. В твоем случае выражение вида "[^"]" имеет потенциальную возможность совпасть со всякой ересью, которая стандартом не допускается. У тебя сматчилось, а на клиенте не работает.

serjoga Feb 21 2011 at 07:25

Вы безусловно правы. Но

Фридл невероятно прав, однако, если ты его повнимательнее почитаешь, то найдешь, что использование сохраняющей скобки И ссылки на нее в САМОМ выражении может оказаться дешевле, чем вилки из ТРЕХ альтернатив, потому что regex-машина унутрянне делает промежуточную запись бОльшего размера, чем твоя несчастная кавычка, из-за которой вилка лепится.

такое чувство, что Вы говорите поверхностно, в общем, а не конкретно о моем выражении. Не знаю, что Вам еще сказать, но пример есть, что делает — написано.
Я поэтому и написал, чтобы мне указали на минусы конструкции, но я не вижу фактов. Попробуйте использовать круглые скобки для запоминания и посмотрим, что у Вас получится в регулярном выражении, которое применяется и глобально и в котором эти скобки могут совпасть через раз, что значит может быть сбита их индексация. Если получится и это будет лучше работать, я Вам трижды скажу спасибо.
Я уверен, что это:

"[^\\"]*(?:\\.[^"\\]*)*"
|
'[^\\']*(?:\\.[^'\\]*)*'

работает быстро, так как ищется сначала первый символ или такая кавычка или такая, если нет — все до свиданье.

TravisBickle Feb 21 2011 at 02:54

> 280 кроказябл или взрывная мощь регулярных выражений
github.com/kakserpom/quicky/blob/master/Quicky_compiler.class.php#L1005 — ваше это цветочки. Кстати пример написан в блокноте без каких-либо подручных средств ;-)
Программировать регулярные выражения весьма интересно, подходите к вопросу именно с позиций программирования (представляя программируемый конечный автомат) и будет вам счастье!

zvirusz Feb 21 2011 at 04:17

Все же помнят регулярку для проверки email`а на соответствие RFC 822?
www.ex-parrot.com/~pdw/Mail-RFC822-Address.html

exIV Feb 21 2011 at 03:10

Для меня лично вообще открыт вопрос использования регулярных выражений в таких-вот сложных конструкциях. Все время остается осадок, что работает эта штука ну совсем не оптимальным образом.

Имхо как ни крути, но интерпритация таких-вот регулярок и прогон через них достаточно объемных данных это существенная нагрузка и тормоза, которые иногда сводят на нет саму целесообразность применения этого чуда :)

Вобщем я против маньяков с бензопилами :) все хорошо в меру…

LoneCat Feb 21 2011 at 05:49

Ну это наверное от реализации зависит, но по-моему вся соль регулярок в том и состоит что они компилируются целиком, а не интерпретируются по-операторно, и прогон по ним данных идет более чем оптимальным способом, который только можно придумать — все выражение на низком уровне, для ЯП с тёплым ламповым интерпретатором, вроде PHP, у которого простая итерация по символам строки уже будет в цать сотен/тысяч раз медленнее аналогичной на компилируемом C — это таки панацея для сложных правил обработки строк. К тому-же скомпилированные регулярки обычно интерпретатором кешируются, в частности в некоторых языках, в которых регулярка — объект — это можно делать явно, как например в javascript: RegExp.compile().

exIV Feb 21 2011 at 06:01

Да это понятно, что оно в теории должно быть написано «правильно». Но дело в том что рекурентные поиски по строкам это зачастую польба из пушки по воробьям :) Простой пример, возьмите HTML размером около 100кб и поищите в нем какую-нибудь простую и заранее известную конструкцию с помощью рекурентной регулярки и напряму, с помощью PHP, через strpos (понятно что про /i речь не идет)…

exIV Feb 21 2011 at 06:04

Ну и понятно что регулярка это именно абстрактное отношение к документу, но у меня на практике было довольно случаев, когда регулярки работали реально медленнее чем самописные функции поиска необходимых конструкций.

А когда кол-во обрабатываемых данных и потоков критическое, то использование регулярок это слишком дорогая цена за маленький размер кода.

serjoga Feb 21 2011 at 06:17

100%, что «indexOf» работает в несколько раз быстрее чем «match», но разбор строки поэлементно — в JavaScript гораздо медленней.

LoneCat Feb 21 2011 at 06:47

Ну безусловно таких случаев может быть масса, регулярка заведомо будет проигрывать strpos'у, который только и занимается тем, что ищет строку, и на тех объёмах текста, которые вы привели в пример этот проигрыш будет значительно весомее чем накладные расходы на выполнение опкодов при реализации алгоритма рекуррентного поиска через strpos, в то-же время на небольших строках, и с более сложными условиями поиска/замены регулярки будут в более выгодном положении.

exIV Feb 21 2011 at 09:50

Абсолютно согласен, про что и написал :)

Demetros Feb 21 2011 at 05:51

в JavaScript — абсолютно уверен. Так как я реализовал такой парсер. И он на 10 мс быстрее чем jQuery, на 5мс — за yass в FF3.0 тестировал. Но статья не о том.

Я так и не понял, о чем ваша статья.
Если она про мозгодробительные регулярные выражения, то ей место в блоге crazydev.
Если она про selector engine — то отсутствие результатов тестов и голословные утверждения о превосходстве в скорости над другими смехотворны, учитывая, что:
1. Другие уже давно пользуются нативным querySelectorAll в поддерживающих браузерах.
2. Учитывая пункт 1, скорость следует измерять не в ФФ3, а в ИЕ6-8, именно скорость работы движка селекторов в ИЕ является сейчас самым важным фактором.
3. Я проводил собственные тесты, тестировал только в ИЕ (по вышеназванной причине) и пришел к выводу, что ВСЕ тестируемые движки лажают при определенных условиях (попробуйте используя Sizzle поискать элемент по id используя контекстный объект — и будете сильно удивлены, что он использует не document.getElementById, а document.getElementsByTagName), поэтому всегда можно подобрать выигрышный набор тестов для данного движка.

serjoga Feb 21 2011 at 06:32

Нет, она именно о регулярном выражении. Оно очень простое. Я хотел всем показать пример, как достаточно простым (говорю простой, так как регулярка основана всего на одном шаблоне по сути) регулярным выражением можно проанализировать CSS селектор. Надеялся, что может кто-то выскажет критику по самому выражению и думал, что может кому-то будет интересно и получится еще более усовершенствовать его.

Статья не о том, но я скажу…
Да пользуются все «querySelectorAll», который почти соответствует стандарту (стандарт хорош — это точно), но что когда хочется написать свой псевдо селектор? Тогда используемый Вами фреймворк будет использовать собственную реализацию в лучшем случае, в худшем — просто вернется пустой результат.

Не думаете ли Вы, что я выглядел бы по идиотски, если бы тестировал это только в FF3.0, а потом заявлял бы всем, что это самое быстрое регулярное выражение? К тому же все эти действия происходили 1.5 года назад.

bolk Feb 21 2011 at 07:24

Я так и не понял что вы анализируете вашим выражением. Оно матчится на несуществующие селекторы так же хорошо, как и на существующие.

serjoga Feb 21 2011 at 07:28

в этот вся суть! Идея была не следовать стандарту, а реализовать парсер конкретной конструкции, похожей на селектор. Ведь тогда это можно будет применять и в XML тоже и не только, мало ли какие идеи/задачи придут в голову в будущем.

bolk Feb 21 2011 at 07:30

Чем тогда ваше выражение лучше «.*»?

serjoga Feb 21 2011 at 07:33

приведите пример пожалуйста. Почему Вы пишете, что-то не работает, но говори что? Как исправлять?
Это как бы Вам тестер сказал, что все пропало, система полностью не работает. А он не может в админку допустим зайти.

Скажите пожалуйста, конкретно — пример, ошибки

bolk Feb 21 2011 at 16:43

«+a» например.

serjoga Feb 21 2011 at 16:55

самый нормальный селектор (для JavaScript). Попробуйте написать jQuery('> div', document.body), c учетом, что в document.body есть тег div в 1 поколении. По Вашему это баг? С таким же успехом может существовать тег «а» в XML документе, почему нет?
По-моему этот баг-фича иногда даже очень удобен

bolk Feb 21 2011 at 20:45

Ну ок, а это: «a++a>>b»?

serjoga Feb 21 2011 at 21:49

спасибо за то, что нашли ошибку. Я постараюсь исправить и обновить пост в ближайшее время

Demetros Feb 21 2011 at 07:14

но что когда хочется написать свой псевдо селектор?

Лично мое мнение таково, что если человеку не хватает 3-х базовых селекторов (id, tag, class), значит он что-то делает не так. Все псевдоселекторы — это чуть-чуть от лукавого.

Надеялся, что может кто-то выскажет критику по самому выражению и думал, что может кому-то будет интересно и получится еще более усовершенствовать его.

Чем длиннее и запутаннее становится регулярное выражение, тем сложнее его совершенствовать, т.к. при малейших изменениях импакт может быть очень большим и надо тестировать _все_ варианты использования.

Но в общем, дело ваше, если это вам помогло понять регулярные выражения и javascript — хорошо.

bolk Feb 21 2011 at 07:26

Лично мое мнение таково, что если человеку не хватает 3-х базовых селекторов (id, tag, class), значит он что-то делает не так. Все псевдоселекторы — это чуть-чуть от лукавого.

То есть, чтобы сделать буквицу, вы будете к каждой первой букве строки лепить span? Чем вы замените :hover или :target? ЖабаСкриптом?

homm Feb 21 2011 at 07:32

Человек говорит о селекторах, которые могут понадобится из JS, а не о css. Мне так показалось.

Demetros Feb 21 2011 at 07:35

В данном конкретном случае, можно либо заключать первую букву в тег, либо использовать псевдоселектор :first-letter в css — в обоих случаях это будет гораздо правильнее, чем насиловать многострадальный ~~недо~~браузер IE пользователя, используя монструозные скриптовые псевдоселекторы.
Про вторую часть вопроса я не понял, зачем вам эти селекторы? Приведите хоть один адекватный пример их использования в javascript.

TheShock Feb 21 2011 at 19:00

А как же input[type="file"]?

Demetros Feb 22 2011 at 06:33

Если честно, не могу вспомнить, чтобы за 3.5 года я использовал подобный селектор, ну может от силы один-два раза. В любом случае, на уровне Sizzle в IE это делается простой фильтрацией результата getElementsByTagName, поэтому того же самого можно добиться и без использования таких селекторов, причем вполне возможно более оптимальным для данного конкретного случая методом.

PS: Я не спорю, так удобнее и меньше букв писать, но по факту, люди подключают монструозный jQuery на проект и используют 10% его возможностей.

Rudia Feb 21 2011 at 09:33

Я вот только не понимаю, почему каждый считает своим долгом написать тестер регулярных выражений. Скажу по секрету есть полно многофункциональных средств для создания и тестирования регулярных выражений, причем есть достойные бесплатные, которые нормально подсвечивают и по-человечески объясняют regex'ы.

habralan Feb 21 2011 at 10:43

может быть потому, что это правильный способ самому разобраться в теме?

Snowindy Feb 21 2011 at 12:03

Расскажите пожалуйста по пунктам, как работает механизм поиска элементов с использование такого регекспа?

что ему кормят и что он возвращает?

RinNas Feb 29 2016 at 07:32

https://github.com/mootools/slick/blob/master/Source/Slick.Parser.js