Только наличие работающих мозгов и уважения к тем, кто будет читать написанный текст, может этому помешать. А так… всеобщий доступ в интернет показал насколько безграмотны в принципе люди. Далеко ходить не надо, в каждой второй статье на хабре/гиктаймз по десятку ошибок в статьях. Вроде бы умные (в своих сферах) люди пишут, а с грамматикой проблемы невероятные.
Иногда. Стоит ли обсуждать, что эту тему в свое время уже проходили в чатах и на форумах? И это было абсолютное поражение. Замена кириллических символов на латинские, написание каждой буквы через пробел, замена некоторых букв знаками @#$%, замена букв схожими по начертанию числами, использование слов-суррогатов, использование изображений (ненужное — заштрихуйте)…
Вот именно что проходили, а значит эти особенности учтены и словарик матов расширен. Найти лазейку будет весьма трудно, а закрыть её достаточно просто.
Перечитайте мой комментарий еще пару раз. Невозможно создать такую систему, где человек не сможет ругаться матом, если захочет. За исключением единственной системы — с белым списком доступных слов. Но тогда мы выкидываем большинство названий и сокращений, которые по определению не смогут в словарь входить. Прощайте и комментарии с орфографическими ошибками и опечатками. Эта система нежизнеспособна.
Белым списком тоже можно ругаться.
Легкость сравнима с ругательством при наличии черных списокв
# допускаю что это создает лишние проблемы, но тем не менее цель может быть
Достигнута. ЬА вот мягкий знак придется запретить, да.
Абсолютной системы не будет, но можно сделать так чтобы для ругани надо было очень постараться — тогда таких комментариев будет очень мало, ибо упорных матершинников в мире мало — большинству просто надоест подбирать способы обхода фильтра.
Замены символов, написание через пробел, слова с числами —
это всё задачка для студента как это свести к единому виду.
Слова суррогаты просто будут добавляться в словарь по мере появления.
И пусть. В конце концов, и их добавят в словарь матов.
Вобщем-то не беда если пару отщепенцев прорвутся — их уже будет легко закрыть вручную.
Цель этих фильтров — предотвратить массовые явления, уменьшить объём работы живым модераторам.
Вспоминаю, как в одной игре от Mail.ru добавили фильтр нецензурных выражений. В итоге, внутриигровой элемент «корабль», стали писать как «кор», потому что за слово «корабля», получали бан на час. Интересно, здесь так же?
Я помню на каком-то новостном форуме не мог оставить комментарий, в котором было сочетание «не бывает», потому что находило там мат(подсказка, если убрать пробел — 2 и 3 буквы)
Какой-то студент алгоритм разрабатывал. Лет 15 назад в IRC видел такой антимат, и совсем недавно тоже но через 1-2 дня его научили не реагировать на такие недоразумения. Дело только в тщательности обучения, а это возможно только когда исполнитель заинтересован. Конечно, гораздо проще взять алгоритмы и словарик 20-летней давности а дальше хоть трава не расти — ТЗ соблюдено, алгоритм формально работает… но в качестве мало кто заинтересован.
«Беларусь или Белоруссия» — старый спор, наподобие «на/в Украине». Если хотите вникать, то можете начать с обсуждения вопроса на русскоязычной Википедии: 1, 2, 3, 4, 5, 6, 7, 8…
Если вокруг «существования» какого-либо слова возникает более-менее резонансный спор значит это слово существует, потому что люди так говорят. А «ревнители чистоты языка» могут говорить что угодно и призывать вернуться к «херам» и «ятям», язык развивается и этого не изменить.
«ВКонтакте» реализовал автоудаление сообщений по ключевым словам