dsosnin Aug 20 2013 at 00:02

Как спам-ловушки помогают бороться со спамом?

3 min

18K

Comments 14

Shajtan Aug 20 2013 at 00:51

Я у себя сделал о как: всё, что валится на адреса типа admin@, sail@ и т.п. — идёт на вход байесовского фильтра для обучения спаму. Правда, сейчас у него база уже вполне себе обученная, и пропускает крайне редко — а вот на первых порах очень даже помогало.

Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы. Или это нерентабельно, и нужная база накапливается силами провайдера почты или хозяев RBL-листа?

bolk Aug 20 2013 at 09:25

Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы.

Не взлетит такой проект. Спамеры будут туда слать всякую пургу, чтобы «отравить» фильтр.

track Aug 20 2013 at 09:32

Ну вот есть Akismet, и в него упорно шлют мусор, чтобы его «отравить». Но судя по тому, что этот мусор успешно помещается в spam, как-то это не работает, видимо. Возможно дело в размерах системы.

bolk Aug 20 2013 at 14:21

У него довольно много ложных срабатываний и не срабатываний на спам. Я его использовал.

track Aug 20 2013 at 14:28

Возможно у вас масштабы иные, но у меня на примерно 300 спам-сообщений в блоге в неделю в среднем не прорывается через Акисмет ни одно, а ложные срабатывания случаются крайне редко, и в совсем клинических случаях, в виде fake email в качестве обратного адреса.

Shajtan Aug 20 2013 at 11:32

Пофантазируем: есть приёмник, в который приходит письмо. Это письмо — спам, по крайней мере, так должна функционировать система. И на основе этого письма должно произойти некое действие — обучение фильтра, добавление строки в таблицу RBL, и т.п. Однако, давайте не будем верить письму — давайте сначала прогоним его через байеса. Известно ведь, что обученный байес довольно точно выдаёт решение — спам или нет, используя при этом оценку вероятности от 0 до 1 (причём одни реализации выдают вероятность того, что письмо — спам, другие же оперируют с вероятностью «чистого» письма, хотя понятно, что эти числа связаны). Допустим, наш фильтр считает вероятность того, что письмо — спам. Нормальный результат при этом будет плясать в районе 0.8 — 0.999. А теперь посмотрим, чем мы будет «травить» фильтр? Ведь в нашем случае травить придётся нормальной корреспонденцией, на которую байес выдаст число от 0 до 0.4. Так в чём проблема — просто отбрасываем такие письма и не кормим ими фильтр.

bolk Aug 20 2013 at 14:21

Если ваш фильтр уже успешно фильтрует спам, зачем его обучать? Если не успешно, то с чего он удаляет то, что считает не спамом? Мы же его обучаем!

Shajtan Aug 22 2013 at 00:12

Хм, ещё раз. Задача сервиса — составить базу для антиспам-фильтра и список адресов, с которых рассылается спам. Задача байесова префильтра — отсечь явно ложные письма, которыми могут намеренно портить базу. Истинный спам — будет определён, будет дополнена база байеса и список адресов релеев.

bolk Aug 22 2013 at 08:43

Так злоумышленники могут и не кормить «явно ложными» письмами. Будут давать что-то на грани, постепенно качество вашей базы упадёт до нуля.

switlle Aug 20 2013 at 09:31

А вот что мне ещё интересно. Но сколько такая система централизованного обучения фильтров могла бы быть подвержена атаке на ложные срабатывания. Т.е. что мешало бы спамерам заставить своих жертв спамить эту систему нормальными письмами. В результате система обучится на нормальных письмах и перестанет функционировать. И все выпилят её со своих серверов

J_o_k_e_R Aug 20 2013 at 10:00

sail@

Чем Вам моряки не угодили?

(«Продажи» — sale)

Shajtan Aug 20 2013 at 11:18

Ой. И ведь чувствовал, когда коммент писал, что что-то не то…
Впрочем, подобные ошибки у меня не редкость, и по эпичности моряки выше не сравняться с тем, что я творил в школе на уроках английского. Колумб у меня отправлялся в плавание на овцах (sheep — ship), жена называла мужа оленем (deer — dear), а уж добил я как-то англичанку рассказом о том, что мне, в принципе, мягкие карандаши нравятся больше, чем жёсткие (очень уж рисовать любил тогда). И всё бы ничего — но вместо «пенсил» я почему-то (Фрейд охренел бы на месте) говорил «пенис». Собственно, я только через пару-тройку лет понял, почему англичанка тогда, во время моего очень серьёзного рассказа, мелко тряслась и похрюкивала.

luckyredhot Aug 20 2013 at 12:19

Видимо, моряконенавистник ;-)

casperrr Aug 20 2013 at 10:11

admin, abuse, postmaster — самые распространенные и обреченные на сбор спама адреса.