Как стать автором
Обновить

Невизуальные методы защиты сайта от спама. Часть 2. Истинное лицо символов

Время на прочтение 2 мин
Количество просмотров 5.6K
Всего голосов 15: ↑12 и ↓3 +9
Комментарии 19

Комментарии 19

люблю и пользуюсь вашим сервисом. Но вы спрятали кнопку онлайн проверки ip адресов и емейлов на спам. Точнее кнопка такая есть, но ее найти нужно)). 1000 емейлов за раз, в ручном режиме администраторы своих форумов сайтов могут бесплатно найти у себя ботов.
Ссылка на форма поиска по списку адресов есть на каждой странице с историей спам-активности IP/Email адреса,
https://cleantalk.org/blacklists?lang=ru

Ссылка «Пакетный поиск спамботов». Если речь идет о проверке существующих акаунтов/комментариев в админке сайта/форума, то подскажите пожалуйста CMS вашего сайта, подумаем как улучшить видимость кнопки.

В любом случаи, спасибо большое за обратную связь.
Про кнопку на сайте, вот она, да https://cleantalk.org/spambots-check
очень выручает какой нибудь рабочий сайт избавить от ботов.
Хорошо, вытащим ее куда-нибудь выше, либо добавим в Панель управления.

На эту тему есть развернутая статья, в которой проведено визуальное сравнение юникодных символов http://research.sidstamm.com/papers/unicode-spam.pdf
По результатам сравнения исследователи нагенерили таблиц с коэффициентом похожести UC-Simlist (конкретные таблицы легко гуглятся).

Спасибо за ссылку.
Было бы интересно услышать, как бороться со спам-посетителями. На своём сайте веду статистику посещений. И там немало «левых» $_SERVER['HTTP_REFERER']: там указаны сайты (на самом деле эти сайты рекламируются!), с которых ко мне просто не может быть переходов. Как бы вот с этим побороться? Они же портят не только записываемое в мой журнал, но и статистику Google Analitycs.
Подскажите, из чего видно, что сайты именно рекламируются таким образом?
С такими заголовками идут спам-посты?
Спаму нужна аудитория, а какая аудитория у журналов web-серверов…
Это похоже на реферальный спам. Если IP этих ботов вам известны, можно заблокировать их через htaccess, только при большом htaccess сайт может медленнее работать.

Если используете какую либо из этих CMS: WordPress, Joomla, Drupal, Bitrix, SMF, MediaWiki, IPS Community Suite, можно попробовать использовать CleanTalk SpamFireWall.

Если какие либо IP адреса не будут учтены в SFW, их можно добавить в BlackList вручную.

Либо можно поискать в гугле другие варианты решений.
Рекламируются автосалоны, Интернет-магазины, мебель, школы иностранных языков, онлайн-кинотеатры, средства для повышения потенции, юридические услуги, интим-услуги, онлайн-аптеки и прочая, прочая. Несть им числа. Какое отношение они имеют к моему сайту? Да никакого! Мой сайт вообще о программировании. Если он упомянут на Хабре, то с Хабра приходят посетители с соответствующим $_SERVER['HTTP_REFERER']. Я могу зайти по этой ссылке и найти на этой странице ссылку на свой сайт. А вся перечисленная выше шелуха ссылок на меня не содержит. Какой им смысл так рекламироваться – не понимаю.

IP-адреса этих спам-посетителей, естественно, фиксируются. Но они постоянно меняются: сегодня ты закрыл два десятка, а на следующей неделе они лезут уже с других. Какого-то надёжного способа определения добросовестности посетителя нет. Единственное, что приходит в голову – составить список добропорядочных $_SERVER['HTTP_REFERER'] и использовать его в качестве фильтра.
Проверьте IP посетителей с реферальным спамом здесь,
https://cleantalk.org/blacklists
Если они в есть в нашей базе (в том числе если база выдает пометку SpamFireWall, https://cleantalk.org/blacklists?record=210.101.131.232), то любой из наших плагинов с включенной опцией SpamFireWall отсеет реферальный спам.

+ вы можете в Панели управления сервисом добавлять сети IP адресов для ручной фильтрации, т.е. при желании можете пустить через SpamFireWall весь трафик вашего сайта.
Этот список (https://cleantalk.org/blacklists) слишком мал. Мой в разы больше. Полагаю, что надо распарсить страницу, на которую ссылка из $_SERVER['HTTP_REFERER'] и выявить, есть ли там ссылка на мой сайт. Если нет, то путь идут в баню.
В списке выше более 3 млн. спам активных (по большей части прокси сервера) IP адресов. У вас база больше?
Плохое решение. Из первого примера диапазоны U+1F130 и U+1F150 у меня отображаются просто квадратиками.
Про отображение символов в FF статья: http://forum.mozilla-russia.org/viewtopic.php?id=64761 Возможно, Вам поможет.
У меня хром. И если вдруг я попаду на сайт на котором будет вместо нормального текста квадратики — то это сигнал к тому, что на этом сайте делать нечего.
Вот наше решение и нацелено на то, чтоб сайты от спамерских квадратиков избавлять.
Скорее всего некорректная настройка веб-сервера, т.к. наши модули оперируют теми адресами, что выдает веб-сервер на стороне клиента.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий