PatientZero13 ноя 2024 в 07:38

Разбор регулярного выражения, проверяющего простоту чисел

Простой

16 мин

7.3K

Программирование * Регулярные выражения * Алгоритмы *

Обзор

Перевод

+63

Комментарии 15

Tomatos 13 ноя 2024 в 08:05

Спасибо за статью. Она наконец-то сподвигла меня сесть разобраться с группами в регулярках.

Но я не смог распарсить ваше утверждение "регулярное выражение ^aa(.+)cc(dd)\1$ не соответствует строке aaHELLOccddHELLO, но соответствует строке aaHELLOccddGOODBYE"

Специально пошёл проверить на regex101 именно с этим примером мои результаты не совпали с вашим утверждением. Это у вас ошибка или я ничего не понял?

Deosis 13 ноя 2024 в 08:09

В оригинале:

This means, that the regular expression ^aa(.+)cc(dd)\1$ does match the sting aaHELLOccddHELLO, but does not match the sting aaHELLOccddGOODBYE

То есть превод вводит в заблуждение.

PatientZero 13 ноя 2024 в 08:56

Спасибо, исправлю.

zzzzzzerg 13 ноя 2024 в 08:10

Вы с переводом разговариваете.

devlev 13 ноя 2024 в 08:44

Но перевод то не сам себя создал, его же кто-то создал. Обычно когда в переводе находят ошибки, то делают сноски или добавляют комментарии от автора в которых указано, что тут опечатка или автор оригинала вводит в заблуждение.

Tomatos 13 ноя 2024 в 09:46

Спасибо. Что-то я упустил этот момент.

zzzzzzerg 13 ноя 2024 в 08:11

В оригинале " This means, that the regular expression ^aa(.+)cc(dd)\1$ does match the sting aaHELLOccddHELLO, but does not match the sting aaHELLOccddGOODBYE "

aborouhin 13 ноя 2024 в 08:16

чтобы сделать жадный квантификатор нежадным, перед ним нужно поставить вопросительный знак (?)

Не перед ним, а после него. И в следующем абзаце такая же ошибка.

PatientZero 13 ноя 2024 в 10:03

Да, спасибо, это у автора какая-то путаница. Исправляю.

diafour 13 ноя 2024 в 20:10

В какой-то момент, изучая регексы, особенно в языках, где ими очень просто пользоваться (perl, да), начинаешь фантазировать, что можно все задачи со строками решить только регекспами, вплоть до парсинга html!

Но со временем эти фантазии улетучиваются и сначала в регулярках перестаешь применять неочевидные pcre-шные операции, за расшифровкой которых лезешь в man, а потом и вовсе применяешь регуляки для не сложных валидаций, где хватает базового набора, перечисленного в статье.

slonopotamus 13 ноя 2024 в 20:59

По-хорошему, при попытке парсинга чего бы то ни было надо натыкаться на товарища Хомского и это даёт довольно простой и быстрый ответ что чем можно распарсить. Окей, не в случае простых чисел :)

oldnomad 14 ноя 2024 в 01:44

Вариант на Perl можно записать чуть проще, используя оператор !~:

sub is_prime {
    return ('1' x $_[0]) !~ m/^.?$|^(..+?)\1+$/;
}

XXXXPro 14 ноя 2024 в 16:28

У меня только один вопрос: неужели такое и правда может работать быстрее, чем пройти циклом от 2 до sqrt(N) и просто проверить остаток от деления? Или это для тех редких случаев, когда по каким-то причинам исходные данные представлены в виде строки с унарной записью числа?

qw1 14 ноя 2024 в 17:42

Это даже не на порядки медленнее, а невообразимо медленнее. Смысл такого упражнения - "смотри, как я могу!"

KivApple 16 ноя 2024 в 13:47

Нет, это будет работать медленнее. А на больших числах ещё и жрать неприлично много памяти.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий