deft31 Jun 22 2021 at 07:14

Найти подстроку в строке

6 min

32K

Programming*Algorithms*Data Engineering*SoftwareDesign

From sandbox

+18

Comments 12

AlexanderplUs Jun 22 2021 at 07:37

Хорошо бы ещё сравнить с другими альтернативными алгоритмами. А то не понятно чем хорош именно этот алгоритм и чем не устраивает его описание в Википедии (весьма подробное)

mOlind Jun 22 2021 at 07:41

Очень не хватает в начале статьи описания соли алгоритма. В чем его основное преимущество? Мол, вместо линейного сравнения первого символа подстроки с каждым символом строки мы сравниваем последний символ подстроки с соответствующим символом строки и движемся вперед большими прыжками. Размер прыжка вычисляем по таблице, которую готовим вначале. Минус - надо готовить таблицу прыжков. Плюс - прыгаем на большие расстояния. Резюме: Для длинных текстов получается значительное ускорение поиска." А потом уже можно переходить к практической части. Ну и "напишем цикл", это как-то совсем для школьников. Вы же алгоритм объясняете, а не программировать учите.

MentalBlood Jun 22 2021 at 07:47

Код это хорошо, расписывание по шагам это прекрасно.

Но раз уж статья про алгоритм, в ней просто обязательно должно быть про асимптотику. Особенно если рассказывается также про оптимизации.

quwarm Jun 22 2021 at 09:31

1. В коде у вас встречается знак «—». Это знак тире. Ожидалось: «-» (дефис, который играет роль минуса). В частности здесь:

p — ;

2. Также обратите внимание на лишние пробелы. В частности здесь:

return — 1;

3. Не хватает:
— Асимптотика (по времени и памяти; для случаев с использованием таблицы смещений, таблицы суффиксов);
— Достоинства и недостатки алгоритма и его эвристик (когда эффективна та или иная эвристика по отдельности, а когда эффективны обе и почему);
— Анализ влияния используемого алфавита, числа символов в строке, числа символов в подстроке на время выполнения (также сравнение с линейным поиском в этом же смысле) — это, скорее всего, на пятерку с плюсом.
4. Название статьи нужно сделать конкретнее. Например, «Алгоритм поиска строки Бойера — Мура».

ZyXI Jun 22 2021 at 11:34

В коде у вас встречается знак «—». Это знак тире. Ожидалось: «-» (дефис, который играет роль минуса). В частности здесь:

U+002D в Unicode официально называется «дефисоминус» («hyphen-minus»), можно использовать это название вместо длинного «дефиса, играющего роль минуса».

Shreedeer Jun 22 2021 at 11:13

Хорошая статья. Есть ошибка или неточность,
Тут сказано:

int last = pattern.length — 1;

А дальше в шагах:

t += last — offset[text[t + last]]
t += last — offset[text[0 + 7]]

Но last равен length — 1, то есть 6. Я так понял, надо прибавлять всё таки длину, тогда нужно было писать t + last + 1

crazy_llama Jun 22 2021 at 17:16

Еще для нахождения строки m в строке n можно воспользоваться суффиксным деревом. Само дерево строится за O(n), а поиск осуществляется только за O(m).

technic93 Jun 22 2021 at 23:10

Поправьте форматирование кода, плиз.

voloch Jun 28 2021 at 14:11

int[] createOffsetTable(string pattern) {   
	int[] offset = new int[128]; // количество символов зависит от 
  // алфавита с которым мы работаем   
  for (int i = 0; i < prefix.length; i++){
  	offset[i] = -1; // заполняем базовыми значениями   
  }   
  for (int i = 0; i < pattern.length; i++){
  	offset[pattern[i]] = i;   
  }   
  return offset;
}

а что здесь есть prefix и откуда он появился?

deft31 Jun 28 2021 at 14:21

была опечатка, поправил. спасибо.

MagnetonBora Jun 28 2021 at 14:18

Чтобы пишется вместе.

deft31 Jun 28 2021 at 14:18

Пасиб, поправил