nikolaikopernik18 мар 2009 в 21:49

Построение regexp'a по входным строкам S1..SN

3 мин

2.2K

Алгоритмы *

+38

Комментарии 43

shai_xylyd 18 мар 2009 в 21:55

AztEK 18 мар 2009 в 21:57

Вы просто читаете мысли :-)

kay 19 мар 2009 в 08:52

/http:\/\/(?:[a-z]+.)?habrahabr.ru\/blogs?\/(?:[a-z_0-9]+\/)?\d+\//

check here

kay 19 мар 2009 в 08:54

пардон, /http:\/\/(?:[a-z]+\.)?habrahabr\.ru\/blogs?\/(?:[a-z_0-9]+\/)?\d+\//

jerom 19 мар 2009 в 08:58

Так не указано, но явно подразумевается, что результирующий regexp должен дать true на строках «похожих» на основной набор и false на строках, совсем не похожих.

.* не соответствует второму требованию.

xonix 19 мар 2009 в 01:25

не понятно только, где это могло понадобиться?

torkve 19 мар 2009 в 09:11

При реализации или настройке спамфильтров, например.

maxshopen 19 мар 2009 в 01:56

А для чего такие сложности?
Судя по тому, что в итоговый шаблон вы в конец и начало ставите маркеры начала и конца строки — значит вы этой регулярке будете подсовывать по одному слову или конкретные строки сопоставимые заданным (уж не тексты ли вы туда предлагаете вводить).

В таком случае, я бы просто сделал список альтернатив ^(S1|S2|...|SN)$ и всё.
Итогом предложенной вами минимизации в общем случае, вероятно, будет более медленное регулярное выражение, если речь идет о PCRE, не говоря уже о накладных расходах на её создание.

Критикуйте и пользуйтесь.

Вы забыли привести пример реализации, чтобы было чем пользоваться. Пока что одни непонятки, может продемонстрируете что-то более конкретное?

romik 19 мар 2009 в 06:46

Поддерживаю! Более-менее разумный компилятор регулярных выражений должен проделывать эту работу намного лучше. Хотя, чем чёрт не шутит.
В общем, хотелось бы увидеть тест от автора топика, где он сравнивает скорость обработки своих регэкспов с тривиальным ^(S1|S2|...|SN)$

nikolaikopernik 19 мар 2009 в 07:04

N прядка 1000 — 5000. К томуже как регексп затем будет пользоваться для отыскания строк, схожих по структуре с S1..SN. Тривиальное объединение с «или» никуда не годиться.

maxshopen 19 мар 2009 в 07:35

Ну это как бы не серьезно… Вы пример покажите, еще лучше с тестами, тогда будет видно, что годится, что не годится. Потому что глядя на то, как вы меняете некоторые части на .* — ваша правота вызывает сомнение. Но вроде как и убедится не на чем — ни тестовых данных ни строк, ни даже структуры вы не показываете, зато делаете какие-то выводы. Тем более альтернативы у вас все равно останутся для различающихся подстрок.

Причем возможно вы и правы, например в случае S_n строк имеющих общий префикс, скажем P и разные остатки S_Ri, приведение регулярки к виду ^(P(?:S_R1|S_R2|...|S_RN))$ безусловно даст выигрыш, но это явно не общий случай.

P.S. А вы на каком языке пишете? Интересно потому что регулярка с 1000-1500 вариатив произвольной длины — это само по себе жесть. Почему бы не воспользоваться более приземленными функциямипоиска подстрок в цикле? И какой тип RE?

nikolaikopernik 19 мар 2009 в 07:35

>>Вы забыли привести пример реализации, чтобы было чем пользоваться.
пользоваться можно не только реализацией, но и алгоритмом ;)

Chulup 19 мар 2009 в 02:42

И как ваш алгоритм отреагирует на «asd873gr@» и «yui21qw%»? А человек вполне нормально построит регэксп, исходя из вашего задания.

nikolaikopernik 19 мар 2009 в 07:20

отреагирует ".*"

romik 19 мар 2009 в 06:52

Пример приведите какой-нибудь. А то непонятно, как вы собираетесь по построенному дереву собирать регэксп. И как потом объединяете SX и S3 тоже совершенно непонятно.

nikolaikopernik 19 мар 2009 в 08:01

Используем симметричный обход дерева:
1. в каждом узле есть некоторая строка.
2. Для корня получаем регексп — сперва получаем регексп из левого поддерева (пусть UL)
3. Дополняем его строкой в корне (пусть UL||U)
4. Дополняем его regexp'om из правого поддерева (UL || U || UR)
5. Регекспы из левого и правого поддеревьев строятся рекурсией.

Объединение SX и S3: для первого пункта берете S1=SX, S2=S3 и повторяете первый пункт в точности.

kolesnikov_evgeny 19 мар 2009 в 06:59

Офф топ.
если у программиста есть проблема и он думает — «Я решу ее при помощи регулярных выражений», то с этого момента у программиста уже две проблемы.

maxshopen 19 мар 2009 в 08:31

Автор, может перенесете этот топик в блог Алгоритмы?
Было бы интересно привлечь к обсуждению вопроса больше специалистов. Ну и вообще самое место ему там, вроде.

nikolaikopernik 19 мар 2009 в 08:42

о, конечно! Сам искал подобный блог.

maxshopen 19 мар 2009 в 09:40

Спасибо. Только зачем вы поменяли содержимое топика(весьма сильно надо сказать) и не написали, что это апдейт? Если вы рассчитываете на обсуждение в комментариях — то не надо запутывать людей. Некоторые комментарии начинают выглядеть глупо для вновь читающих, после того, как топик изменен, они же не знают каким он был, и чего это тут народ про примера хочет, хотя он в топике есть же…

Off: Очень жаль, что на Хабре у топика не пишется дата модификации

nikolaikopernik 19 мар 2009 в 09:44

учту

Cancel 19 мар 2009 в 09:00

Честно говоря, не вижу смысла в таком решении. И саму задачу не понимаю. Формулировка в виде «На входе алгоритма есть набор строк S1..SN. Требуется, по данным строкам построить такое минимальное регулярное выражение R, чтобы R(Si)=true, i [1,N] (N порядка нескольких тысяч)» сразу даёт решение «.*». Если бы было добавлено условие «R(X)=false для любого X не из множества {S1,…,SN}», то задача была бы более разумной.

maxshopen 19 мар 2009 в 09:05

:)
Ну это наверно подразумевалось, ведь .* совпадет с любой строкой, даже пустой, т.е. в таком варианте регулярка вообще не нужна, ибо ее результат всегда true. Просто автор забыл дописать еще одно формальное условие

0re1 12 авг 2009 в 23:40

Если бы было добавлено условие «R(X)=false для любого X не из множества {S1,…,SN}» задача сводилась бы к проверки на принадлежность X к данному множеству, что мне кажется ненамного более разумным.

goldeneye 19 мар 2009 в 09:02

Изначально стояла задача искусственного интеллекта, которая уже давно решена стандартными способами. Это классификаторы вроде нейронных сетей.

Но ваше решение мне тоже нравится! :)

goldeneye 19 мар 2009 в 09:06

Покажите, пожалуйста, что программа выведет на таком входе:

S1=http://habrahabr.ru/blogs/edu_2_0/40236/
S2=http://habrahabr.ru/blogs/microsites/40089/
S3=http://habrahabr.ru/blogs/google_chrome/38748/
S4=http://habrahabr.ru/blogs/show/37839/
S5=http://nikolaikopernik.habrahabr.ru/blog/54889/
S6=http://habrahabr.ru/blogs/telecom/39902/
S7=http://gmail.com

nikolaikopernik 19 мар 2009 в 09:08

— REGEXP = ^http://.*$
SIZE: 6
TIME: 0.0070 s

goldeneye 19 мар 2009 в 09:13

Эх. Всё, конечно, правильно, но в моем случае хотелось бы получать что то вроде
REGEXP = ^http://(.*habrahabr.ru/blog.*|gmail.com)/$

nikolaikopernik 19 мар 2009 в 09:18

согласен, сам подумываю над оптимизацией алгоритма. Для этого в некоторых случаях при постоении дерева если нет общих подстрок возвращаем не ".*", а "(S1L | S2L)". Я там написал, что возможна оптимизация.

okakiy 19 мар 2009 в 09:21

Хм. Задача таки непонятна. Вас устраивает что в данный регексп будет проходить такая строка?
banahabrahabr.ru/blogogohrenoten/

nikolaikopernik 19 мар 2009 в 09:25

меня устраивает. Сила его в том, что не будет проходить подобные строки:
F=http://habrahabr.ru/forum/google_chrome/38748/ false
F=http://habrahabr.ru/shop/item/37839 false

да, алгоритм специфический — тут главное — основная идея. На этапе вставок ".*" вы можете поэкспериментировать с регулярными выражениями.

okakiy 19 мар 2009 в 09:32

Если я правильно понял задачу, то она похожа на нахождение наибольшей общей подпоследовательности.

nikolaikopernik 19 мар 2009 в 09:35

:) читайте пункт 1 (2 точка сверху) — мой алгорим как раз использует алгоритм нахождения наибольшей общей подстроки.

bolk 19 мар 2009 в 09:20

Плохо в этом алгоритме то, что он находит не только заданные строки Si, но и многие другие. Чем это много лучше .* мне лично неясно.

goldeneye 19 мар 2009 в 09:28

Это стандартная проблема всех классификаторов — недоученность и переученность. Этот алгоритм кренит в сторону недоучивания.

PoCTo 19 мар 2009 в 09:33

Очень весело узнавать полное условие задачи («Это очень грубое выражение, но оно подходит для моей задачи» в предпоследнем пункте) только после того, как прочтешь решение :)

nikolaikopernik 19 мар 2009 в 09:39

мы за веселые топики на хабре! )

mraleph 19 мар 2009 в 10:03

если строки это исключительно URLи, то на мой взгляд стоит учитывать их заранее известную структуру при построении регулярного выражения.

Вообще странно, что вы ничего не нашли похожего… Можно было попробовать, например, начинать информационные раскопки с алгоритма Ахо-Корасик (он правда для поиска множества подстрок в строке, но как раз строит автомат)

genk 19 мар 2009 в 10:52

Я просто сейчас под влиянием курса по обучающимся системам…
Возможно, стоит отказаться от регярок в сторону SVM или LDA?
Перевести все строки в какое-нибудь n-мерное пространство и попробывать найти linear classifier?

nikolaikopernik 19 мар 2009 в 10:59

возможно. Попробуйте подумать о возможном алгоритме. Это действительно интересно.

Kirax 19 мар 2009 в 13:24

Сам недавно столкнулся с такой задачей, пришел к похожему алгоритму. С той разницей что я искал первую попавшуюся общую подстроку достаточной длины, то есть последовательно, а не делением на две части.

зы. Думаю что всё-таки .*? надо вставлять, или у вас установлен флаг «не жадности»? (не знаю как оно в яве)

nikolaikopernik 19 мар 2009 в 13:59

А разве есть разница «жадного» и «ленивого» флагов при наличии символов начала и конца строки?

x_spam 19 мар 2009 в 16:26

решать задачу от обратного в данном случае прощще,
нужно искать плохие строки их меньше и регулярное выражение у них будет короче.

Автору респект, он начал так мной и не начатый проект под кодовым названием «Regexp from Heap»

Зарегистрируйтесь на Хабре, чтобы оставить комментарий