Комментарии 14
Такие пятиминутные фильтры обычно слово "оскорблять" банят.))
Какая у вашего фильтра защита от ложноположительных срабатываний?
"Застрахуй команду корабля со скипидаром"
В русской терминологии "фильтр нижних частот" звучит не очень однозначно, но обозначает, что через него будут проходить только нижние частоты. По-английски это звучит более однозначно - "low-pass filter".
А теперь перечитаем название статьи.
В первом случае у вас получился нечеткий поиск по пятиграммам. Низкая эффективность была в основном из-за размера сканирующего окна. В случае триграмм результат был бы лучше. Кроме того, во всех случаях у вас будет большое количество ложноположительных срабатываний, потребуется довольно большой словарь исключений.
Ps: В ссылке на расстояние Левенштейна пропущено двоеточие.
А ещё некоторые пишут с ошибками используя обсценную лексику. Потому что даже матерные слова написать без ошибок не умеют.
В этом случае Ваш фильтр мало поможет.
Кроме того есть любители использовать весь юникод (привет иероглифы и прочие символы разных языков, похожие очертаниями на буквы кириллицы/латиницы).
Πㄗ|/|ß∑ㅜ、я ɓⓐㅐαH
Фильтр нецензурной лексики за 5 минут