CoolCmd Mar 17 at 17:39

Почему JavaScript-функция RegExp.escape() экранирует латинские буквы, пробелы и ухо луны

Medium

4 min

14K

JavaScript * Website development *

Recovery Mode

+13

Comments 17

Alexdrbnd Mar 17 at 18:06

Вот так живешь, пишешь код, а потом бац - оказывается не правильно писал ))

parakhod_1 Mar 17 at 18:30

Долго пытался понять что означает слово "экранировать" в данном контексте. Ближе к концу статьи только допёрло, я медленный.

Ну и да, в регексах действительно и пробелы и прочее подозрительное лучше всегда записывать в безопасном виде. Напишете лишний раз \s, и избавите себя от пары часов ловли необъяснимого бага в самый неподходящий момент.

CoolCmd Mar 17 at 18:41

Напишете лишний раз \s

Только нужно не забывать, что в \s входит куча разных символов, включая разделители строк.

parakhod_1 Mar 17 at 18:53

В данном примере я условно, конечно.
Хотя даже тут, на практике, в 99.97% случаев в реальных проектах вы знаете что у вас туда прилетит либо только пробел либо только tab (либо или то или другое), и вас это обычно полностью устраивает.

Кстати ещё не надо забывать что регексы водятся не только в жабоскрипте, но и во всех современных языках программирования (и не только в языках), и синтакс у них иногда может в мелочах отличаться. И надо всегда стараться писать максимально совместимо, потому что бывает такое что люди копипастят регекс из фронтенда в эликсирный или жабный бэкенд, а потом опять же тратят не один час на ловлю совершенно необязательной проблемы.

Тут конечно не лениться писать тесты помогает, но тоже не всегда.

Dhwtj Mar 17 at 19:31

Архитектурная ошибка: regex - это язык (команды + данные в одной строке, ровно как SQL). Как только тебе нужно вручную подставлять данные в язык - ты получаешь injection-проблему. Escape - это пластырь. Правильный ответ - не смешивать

CoolCmd Mar 17 at 21:22

Это не самая большая проблема. Важнее падение читаемости сложных регулярок, таких как проверка адреса электронной почты, которая мне напоминает Brainfuck.

nin-jin Mar 18 at 07:29

Поэтому нужно не регулярки развивать, а добавить удобное апи для описания регулярных парсеров, как тут. Побочный эффект такого апи - возможность не только компоновать, парсить и валидировать, но и генерировать строки, гарантированно соответствующие синтаксису.

amcured Mar 18 at 08:15

Наверное, имеет смысл сказать, что такой подход (которому лет 30) неплохо гуглится по запросу «parser combinators».

amcured Mar 18 at 04:54

А как — не смешивая — разрешить пользователю искать с использованием регулярок? Так-то понятно, что лучше быть здоровым и богатым…

Alexandroppolus Mar 17 at 20:32

это нужно для корректного сцепления двух регулярных выражений

Для этого надо ещё перенумеровать обратные ссылки во втором регексе, экранированием тут не отделаться. Для конкатенация правильно было бы отдельный метод.

CoolCmd Mar 17 at 20:58

Можно пример? Экранированная строка (правая) не влияет на разбор итоговой регулярки, в ней нет backreferences.

Alexandroppolus Mar 17 at 21:31

При сложении регексов (\d) и (.)\1 должно получиться (\d)(.)\2 , бэкреф теперь на вторые скобки.

CoolCmd Mar 17 at 21:56

В статье рассматривается другой случай, когда часть регулярки нужно экранировать и искать просто как текст. В вашем случае экранировка не нужна.

Чтобы не мучится с номерами групп, можно использовать ссылки на именованные группы.

nin-jin Mar 18 at 07:39

Это не спасает, ибо при конфликте имён будет падение. Поэтому при конкатенации регулярок в любом случае нужно переименовывать группы. С позиционными группами тут даже немного проще.

Taraflex Mar 21 at 23:27

Экранирование через '\$&' ломает u флаг

https://github.com/sindresorhus/escape-string-regexp/commit/732905da074f0220487ad6a27590f89bd0819374

CoolCmd Mar 22 at 16:18

Это нормальное поведение Unicode-режима, нельзя что угодно пихать после \.

Функция в моей статье не экранирует -, поэтому её результат нельзя использовать в [наборе символов]. Нужно добавить в статью либо экранировку -, либо предупреждение, не знаю что лучше...

Taraflex Mar 22 at 16:32

- имхо экранировать обязательно, ибо подавляющее число сценариев использования, когда нужен escape, есть использование регулярки как части большего регулярного выражения. А поскольку мы не всегда можем знать будет ли экранированный кусок использоваться с u или без , то лучше всегда исходить из расчета что u будет включен.