Исследователи из Microsoft работают над амбициозным новым проектом Strider Search Defender, целью которого является автоматическое отслеживание и нейтрализация спамеров на поисковых системах.
Новый экспериментальный проект создан путем интеграции двух прежних проектов аналогичной направленности — Strider HoneyMonkey и Strider URL Tracer. В нем реализованы принципиально новые методы нейтрализации спамеров.
Поисковый спам — это относительно новая угроза, которая стала особенно опасной в последние годы, поскольку его количество сейчас превышает все допустимые нормы. Например, по статистике сервиса Automattic Kismet, около 93% всех комментариев в блогах созданы спамерами. Новый проект Microsoft позволит бороться с этой напастью. Спамеров будут вычислять с помощью анализа контекста и отслеживания URL.
На сайтах с высоким рейтингом спамеры создают так называемые дорвеи — страницы, оптимизированные специально под поисковые системы по определенным ключевым словам. Эти дорвеи раскручиваются через фальшивые комментарии в блогах и через спамерские блоги. Цель спамеров — как можно выше поднять дорвеи в поисковых результатах. Дорвеи или перенаправляют пользователя на другой сайт, или содержат рекламные ссылки с оплатой за клики. Алгоритм действий спамера изображен на схеме.
Новая система Strider Search Defender старается обнаружить спамеров раньше, чем поисковый робот. Она анализирует трафик на сайтах и автоматически вычисляет дорвеи. Программа работает следующим образом. Для начала ей «скармливают» список известных дорвеев. После этого специальный модуль Spam Hunter осуществляет соответствующие запросы к поисковым системам, вычисляя форумы и блоги, в которых содержатся ссылки на эти дорвеи. Данные форумы и блоги используются как приманки для получения новых спамерских постингов, необходимых программе для анализа. Программа собирает другие ссылки, опубликованные в этих форумах и блогах, и отправляет их на проверку.
Обнаруженные «подозрительные» ссылки передаются в программу Strider URL Tracer, которая эмулирует поведение обычного браузера. Она заходит по этим ссылкам и регистрирует случаи редиректа. После такого автоматического сканирования исследователи могут определить, какие сайты ассоциированы с большим количеством дорвеев.
Во время тестирования программа Spam Hunter собрала более 17 тыс. адресов блогов на платформе BlogSpot и отправила их на проверку в URL Tracer. В результате был составлен список 25 крупнейших спамеров BlogSpot (большая страница). Здесь указаны сайты, на которые наиболее часто осуществляется редирект с дорвеев. Именно их — заказчиков спама — нужно блокировать в поисковых системах. Выяснилось также, что 45% сайтов на платформе BlogSpot осуществляют редирект на один из шести ресурсов: s-e-arch.com, speedsearcher.net, abcsearcher.com, eash.info, paysefeed.net или veryfastsearch.com.
По словам исследователей, новая система уже была использована для автоматического удаления спамерского контента из поискового индекса MSN Search.
Новый экспериментальный проект создан путем интеграции двух прежних проектов аналогичной направленности — Strider HoneyMonkey и Strider URL Tracer. В нем реализованы принципиально новые методы нейтрализации спамеров.
Поисковый спам — это относительно новая угроза, которая стала особенно опасной в последние годы, поскольку его количество сейчас превышает все допустимые нормы. Например, по статистике сервиса Automattic Kismet, около 93% всех комментариев в блогах созданы спамерами. Новый проект Microsoft позволит бороться с этой напастью. Спамеров будут вычислять с помощью анализа контекста и отслеживания URL.
На сайтах с высоким рейтингом спамеры создают так называемые дорвеи — страницы, оптимизированные специально под поисковые системы по определенным ключевым словам. Эти дорвеи раскручиваются через фальшивые комментарии в блогах и через спамерские блоги. Цель спамеров — как можно выше поднять дорвеи в поисковых результатах. Дорвеи или перенаправляют пользователя на другой сайт, или содержат рекламные ссылки с оплатой за клики. Алгоритм действий спамера изображен на схеме.
Новая система Strider Search Defender старается обнаружить спамеров раньше, чем поисковый робот. Она анализирует трафик на сайтах и автоматически вычисляет дорвеи. Программа работает следующим образом. Для начала ей «скармливают» список известных дорвеев. После этого специальный модуль Spam Hunter осуществляет соответствующие запросы к поисковым системам, вычисляя форумы и блоги, в которых содержатся ссылки на эти дорвеи. Данные форумы и блоги используются как приманки для получения новых спамерских постингов, необходимых программе для анализа. Программа собирает другие ссылки, опубликованные в этих форумах и блогах, и отправляет их на проверку.
Обнаруженные «подозрительные» ссылки передаются в программу Strider URL Tracer, которая эмулирует поведение обычного браузера. Она заходит по этим ссылкам и регистрирует случаи редиректа. После такого автоматического сканирования исследователи могут определить, какие сайты ассоциированы с большим количеством дорвеев.
Во время тестирования программа Spam Hunter собрала более 17 тыс. адресов блогов на платформе BlogSpot и отправила их на проверку в URL Tracer. В результате был составлен список 25 крупнейших спамеров BlogSpot (большая страница). Здесь указаны сайты, на которые наиболее часто осуществляется редирект с дорвеев. Именно их — заказчиков спама — нужно блокировать в поисковых системах. Выяснилось также, что 45% сайтов на платформе BlogSpot осуществляют редирект на один из шести ресурсов: s-e-arch.com, speedsearcher.net, abcsearcher.com, eash.info, paysefeed.net или veryfastsearch.com.
По словам исследователей, новая система уже была использована для автоматического удаления спамерского контента из поискового индекса MSN Search.