igordata Aug 31 2016 at 05:48

SRL — Simple Regex Language

2 min

13K

PHP * Regular expressions *

Recovery Mode

+33

Comments 73

UFO landed and left these words here

igordata Aug 31 2016 at 06:19

Зачем — не знаю. Если работать через класс SLR, как в примере на ГитХабе, то будет и подсветка, и автокомплит в IDE.

x512 Aug 31 2016 at 06:22

А то, что приятные глазу команды процессора в машинном коде заменены на всякие операторы и идентификаторы у вас неприятных ассоциаций не вызывает?)

UFO landed and left these words here

fireSparrow Aug 31 2016 at 06:50

Читабельность важна.
Сам думал написать питоновский модуль для более приятной работы с регулярками, но пока руки не доходят.

Slipeer Aug 31 2016 at 09:38

ИМХО классическая регулярка читабельней и нагляднее.

Rastishka Aug 31 2016 at 10:55

Привычнее — да.
Читабельнее и нагляднее — вряд ли.

Halt Aug 31 2016 at 10:26

Во-первых, регулярные выражения можно разрывать комментариями. Во вторых, можно заводить метапеременные, которые использовать в выражениях.

UFO landed and left these words here

thewizardplusplus Aug 31 2016 at 18:56

Подскажите, пожалуйста, что это за метапеременные такие? Пытался гуглить "regex metavars", но безрезультатно.

Судя по названию, это позволяет использовать куски регулярок несколько раз, чего очень и очень не хватает. Но я так и не смог найти, как такое можно сделать — обратные ссылки и именованные группы матчат лишь тот конкретный текст, который они сматчили в первый раз.

Или вы имеете ввиду определение переменных с кусками регулярок в самом языке, из которого они вызываются, а потом конструирование из них финального выражения через подстановку?

grossws Sep 1 2016 at 06:38

man 3 pcrepattern, раздел subpatterns as subroutines.

Регулярка типа (sens|respons)e and \1ibility даст совпадение в случае sense and sensibility и response and responsibility, но не sense and responsibility. Если же использовать (sens|respons)e and (?1)ibility, то заматчится и sense and responsibility.

fedorro Aug 31 2016 at 08:21

А если бы изначально синтаксис регулярок был на словах, а сейчас предложили бы использовать символы — возникли бы ассоциации с Brainfuck?
Не обязательно в коде это пихать — можно препроцессор использовать и внешние файлы, да и подсветка есть.

UFO landed and left these words here

vintage Aug 31 2016 at 11:33

На самом деле люди мыслят образами. И правильно подобранные символы, позволяют быстрее считывать образ, чем чтение слов. Например, скобочки окружают некоторую область куда нагляднее, чем begin..end.

Pinsky Aug 31 2016 at 11:20

скорее кобол уже

UFO landed and left these words here

Gummilion Sep 5 2016 at 11:38

А я запомнил так, что на клавиатуре $ идет перед ^, а в регулярках наоборот: $ — конец, ^ — начало.

UFO landed and left these words here

punkkk Sep 6 2016 at 10:40

Для меня это как-то само собой разумеющееся. Хотя использовал регулярки не сотни раз.
Никогда не задумывался на счет этих символов. Может циркумфлекс ассоциируется так, что он не полностью занимает пространство символьное, а доллар на всю строку, и вроде даже больше других символов.

grossws Sep 6 2016 at 11:21

У меня caret (который вы назвали circumflex) ассоциируется с CR (\r).

punkkk Sep 6 2016 at 12:00

Хех, мне когда то говорили, что это циркумфлекс… Жизнь не станет прежней.

grossws Sep 6 2016 at 13:59

Я был уверен, что circumflex — диакритический знак [1], [2], а не standalone. В современном unicode u+5e называется circumflex accent (ранее я его видел под именем ascii caret) [3], а caret — это u+2038 [4].

Извините за непреднамеренное разрушение мира ,)

punkkk Sep 6 2016 at 14:05

Да, я уже на вики глянул, там говорится, что циркумфлекс как раз для языковых особенностей, карет используется в ЯП, регулярках и прочем привычном применении.

Да ничего, всегда полезно узнать, где ошибался. :)

franzose Aug 31 2016 at 06:23

Сначала подумал, было, написать про «Владимирский астрал, эзотерика», но потом решил, что не буду.

wolfandman Aug 31 2016 at 06:29

А почему нет? Мне нравится идея. Не думаю, что сам бы использовал, т.к. к регуляркам привык, но для новичков — вполне бы сгодилось.

EvilsInterrupt Aug 31 2016 at 08:52

Ну видя код, который не работает и видя в нем регулярку. Насколько вы застреваете чтобы убедиться, что регулярка корректна?

AndreyNagih Aug 31 2016 at 06:36

Картинку xkcd про единый стандарт уже постили?

Bomon Aug 31 2016 at 06:50

Как средство обучения rx было бы, как мне кажется, вполне удобоваримо. Хотя для тех кто синтаксис уже освоил, вероятно будет неудобно.

UFO landed and left these words here

Bomon Sep 17 2016 at 10:11

Относительно последнего утверждения, позволю себе с Вами не согласиться. RX — это инструмент, если он был создан — значит на то была причина, кто-то этим пользуется и получает то, что ожидает. Мне, к примеру, очень нравиться использовать данный инструмент и постижение его окупилось многократно в дальнейшем.

UFO landed and left these words here

bromzh Aug 31 2016 at 07:17

Сайт не отвечает, видимо его постиг хабраэффект.

Для разъяснения и тестирования регекспов есть, например, отличный ресурс: https://regex101.com/
А вводить новый непонятный синтаксис регекспов — не слишком хорошая идея.

Sirion Aug 31 2016 at 07:32

Главная проблема регекспов в том, что они write-only. Описанный в статье подход эту проблему решает. Хотя любители однострочников на перле негодуют, да.

Не знаю, буду ли использовать, но запомню, что существует.

impwx Aug 31 2016 at 07:37

Проблема трудночитаемости регулярок решается так же, как проблема трудночитаемости обычного кода — выравниванием и комментариями. Во многих языках поддерживается, но, к сожалению — не во всех.

Fedcomp Aug 31 2016 at 08:00

Проблема чтения машинных кодов решается в выравнивании кода и расставлении комментариев. Но мы же не используем машинные коды правда?

impwx Aug 31 2016 at 08:24

Синтаксис регулярных выражений — это уже мнемоническая надстройка над внутренним представлением, как ассемблер над машинными кодами. Предлагаемый в статье вариант не создает новый уровень абстракции, а просто заменяет одну строку на другую, более длинную — как если бы вместо mov ax, 0 пришлось писать set first register to value zero.

asoukhoruchko Aug 31 2016 at 10:38

Разница в том, что эту строку вполне сможет понять человек без предварительной подготовки (по крайней мере, после пары примеров).
А регулярки читаются не сильно хорошо.

impwx Aug 31 2016 at 11:08

Сложность понимания синтаксиса регулярок, имхо, преувеличена. На первый взгляд они выглядят пугающе, но по факту возможные элементы можно пересчитать по пальцам — группы, квантификаторы, альтернативы, штук пять спецсимволов и всякие редкие вещи типа опережающих проверок. Всё это можно запомнить за вечер, а с подсветкой синтаксиса становится еще проще. Так что всё упирается в сложность самого выражение — проверку email-адреса по RFC одинаково невозможно постичь в любой форме записи.

Остается вопрос того, стоит ли доверять человеку без подготовки править код, руководствуясь наивным пониманием синтаксиса. Зачастую это чревато возникновением сложноуловимых багов — например, неопытный программист на C или JS может написать if(a = true) и долго удивляться, почему сравнение не работает, как надо.

nitso Aug 31 2016 at 07:58

Пример в начале статьи совсем плох.
Во-первых он уменьшается примерно раза в два, ликвидировав неиспользуемые группировки и объединив перечисления. Во-вторых, экранирование в перечислениях не нужно. И получается вполне читабельно:

^[0-9a-z._%+-]+@[0-9a-z.-]+\.[a-z]{2,}$

И, наконец, Прекратите проверять Email с помощью регулярных выражений!

После небольшой тренировки небольшие однострочные регулярки воспринимаются достаточно быстро. А вот словесный многострочный аналог требует больше времени для чтения.

Сложные выражения в SLR займут экран, воспринимать будет даже сложнее, чем открытый в отладчике (упомянутый выше regex101, например) оригинал.

А есть специальные сервисы для визуализации regex

https://www.debuggex.com/r/xfu903DPxHkmoOpz

В целом: за реализацию, конечно, жирный плюс, но, будет ли востребовано, покажет время. У меня сомнения.

igordata Aug 31 2016 at 08:16

Проверка имейла регуляркой по большому счёту может быть сведена до /.+@.+/, но это же просто пример. Можете написать автору и предложить свой пример, заодно потестируете новую тулзу.

punkkk Sep 2 2016 at 10:19

Вы немного не уловили… Сократить регулярку != урезать. nitso сократил, а вы урезали. Хотя проверять email регулярными выражениями достаточно непрактично.

igordata Sep 3 2016 at 08:29

Учитывая существование национальных доменов, я не могу сказать что проверка мыла на латинский алфавит имеет хоть малейший смысл…

vintage Aug 31 2016 at 08:31

Лучше всё же, использовать грамматики, а не "очеловечивать" регулярки. Например, для вашего парсера урлов можно запилить такую грамматику на grammar.tree:

URL is
    PROTOCOL
    string =://
    DOMAIN
    optional
        string =:
        PORT
    PATH
    optional QUERY

PROTOCOL is list-of LETTER

DOMAIN is
    list-of
        list-of LETTER
        string =.
    LETTER
    list-of LETTER

PORT list-of DIGIT

PATH is
    string =/
    optional list-of symbol except =?

QUERY is
    string =?
    optional list-of symbol except =#

LETTER is symbol =abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
DIGIT is symbol =0123456789

k12th Aug 31 2016 at 09:57

А можно ссылочку? А то гугл выдает только хип-хоп дуэт.

Evengard Aug 31 2016 at 10:27

https://habrahabr.ru/post/248147/ кажется это оно. Там есть раздел про этот grammar.tree

Собственно ощущение что это и есть придумка господина vintage.

vintage Aug 31 2016 at 11:35

Да-да, это не готовое решение, а скорее идея, как можно было бы сделать лучше.

UFO landed and left these words here

vintage Sep 1 2016 at 07:12

А какой символ порекомендуете для маркера начала сырых данных?

UFO landed and left these words here

vintage Sep 1 2016 at 09:13

И я не раз повторял, что "=" — не разделитель "ключа" и "значения". Я согласен, что символ равенства вводит в заблуждение и было бы правильнее использовать какой-либо другой символ, например "|", но он в разных раскладках набирается разными способами, что несколько фрустирует.

vintage Sep 1 2016 at 09:20

Хотя, я тут подумал, из символов, набираемых одинаково в любой раскладке ("-", "_", "=", "+", "\") лучше подойдёт символ обратной косой черты. Он достаточно редкий в обычных данныхи используется в основном для похожей задачи — экранирования символов.

miraage Aug 31 2016 at 09:01

Чего люди не придумают, лишь бы не учить регулярные выражения.
А учить там — с гулькин нос, по факту.

UFO landed and left these words here

saluev Aug 31 2016 at 17:04

Шпаргалка — это понятно. Вопрос в том, насколько хорошо вы представляете, какие задачи решаются регулярными выражениями, а какие — нет.

asoukhoruchko Aug 31 2016 at 10:50

По факту получили Builder для регулярок, что неплохо (и даже можно подумать про портировать на другие языки).
Отдельный язык для такой задачи кмк перебор. Т.е. пока не ясно, как это использовать для самостоятельных задач.

ifgem Aug 31 2016 at 11:01

У Rebol/Red есть невероятно удобный и читабельный PEG диалект(parse).
Первый пример из статьи.

test: "superb@ya.ru"
digit: charset [#"0" - #"9"] ; еще один диалект.
letter: charset [#"a" - #"z" #"A" - #"Z"]
symbol: charset "._%+-"

rule: [
    some [digit | letter | symbol]
    "@"
    2 [letter | "."] any [letter | "."]
]

parse test rule

pengyou Aug 31 2016 at 11:30

Уважения заслуживают такие люди, как автор этого языка, которые делают Своё.

akastargazer Aug 31 2016 at 12:14

Зачем делать Своё, когда есть серьёзные и, главное, надёжные корпорации, которые сделают Своё лучше и быстрее? Если уже не сделали. Они же нам выдадут это бесплатно, в рамках рыночного планетарного прогрессорства.

Pinsky Aug 31 2016 at 13:12

Just For Fun

vintage Aug 31 2016 at 13:46

Затем, чтобы эти серьёзные и (главное!) надежные корпорации, взяли тебя на работу и ты делал Своё лучше и быстрее. :-D

UFO landed and left these words here

punkkk Aug 31 2016 at 12:29

Непонятен профит, это как обратный alias по сути, не очень комфортно. Регулярные выражения познаются не так сложно и не менее трудно читаются, дело легкой привычки.

Одно begin with, вместо циркумфлекса уже настораживает.

saluev Aug 31 2016 at 17:07

Меня вот больше напрягает literally "@" вместо просто "@". Но зато действительно сложные регулярки, со всякими несъедающими группами, отрицаниями и переменными, может стать легче читать (а главное — редактировать).

nitso Sep 1 2016 at 08:43

Чуть выше уже оставлял ссылку: https://www.debuggex.com/r/xfu903DPxHkmoOpz
Очень помогает отлаживать сложные выражения.

nitso Sep 1 2016 at 08:56

Ошибся веткой

dmitryredkin Sep 1 2016 at 09:02

Да, но он не транслирует обратно. С ним конечно легче найти ошибку, но если бы можно было редапктриовать саму схему — вот тогда был бы сервис.

dmitryredkin Sep 1 2016 at 12:56

Кроме того, заметил, что он показывает не все. Например, вопросик aka «non-gready capture» пропускается совсем.

dmitryredkin Aug 31 2016 at 13:01

Как уже было замечено выше, на самом деле нужен не компилятор regExp, а декомпилятор регулярок (как в сервисах визуализации в комментарии выше). И вот если бы оно умело работать в обе стороны — вот это было бы дело!
Ну реально: Вот вы бы отказались от такого сервиса?

nitso Sep 1 2016 at 08:57

Попутал ветку и ответил в предыдущем комментарии.

kompi Aug 31 2016 at 21:21

Если хочется красоты, то можно использовать альтернативу — https://en.wikipedia.org/wiki/Parsing_expression_grammar. Использовал PEG в lua — довольно-таки удобно.

L0m Aug 31 2016 at 21:21

Прямо regex с человеческим лицом. Ожидаемо.
Вопрос насколько будет жизнеспособным, а это со временем увидим.

Athari Aug 31 2016 at 22:07

Классический сухой регекс:
/^(?:[0-9]|[a-z]|[\._%\+-])+(?:@)(?:[0-9]|[a-z]|[\.-])+(?:\.)[a-z]{2,}$/i

Это мусор, который генерирует библиотека что ли? Потому что в .NET я ручками написал бы так:

(?inx)
  ^
  [ 0-9 a-z \._%\+- ] +
  @
  [ 0-9 a-z \.- ] +
  \.
  [ a-z ] {2,}
  $

Ну и что более читаемо: это или ваша портянка?

viatro Sep 1 2016 at 06:08

Странно, что до сих пор никто не напомнил про эту статью:
Хватит писать регулярные выражения. Используйте вербальные выражения