Pull to refresh

Comments 14

Я у себя сделал о как: всё, что валится на адреса типа admin@, sail@ и т.п. — идёт на вход байесовского фильтра для обучения спаму. Правда, сейчас у него база уже вполне себе обученная, и пропускает крайне редко — а вот на первых порах очень даже помогало.

Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы. Или это нерентабельно, и нужная база накапливается силами провайдера почты или хозяев RBL-листа?
Интересно вот что: существуют-ли проекты по агрегации спама для централизованного обучения фильтров? Скажем, я заворачиваю в этот проект свои письма на admin@ — и благодаря этому обучаются RBL-фильтры, байесы и тому подобные механизмы.
Не взлетит такой проект. Спамеры будут туда слать всякую пургу, чтобы «отравить» фильтр.
Ну вот есть Akismet, и в него упорно шлют мусор, чтобы его «отравить». Но судя по тому, что этот мусор успешно помещается в spam, как-то это не работает, видимо. Возможно дело в размерах системы.
У него довольно много ложных срабатываний и не срабатываний на спам. Я его использовал.
Возможно у вас масштабы иные, но у меня на примерно 300 спам-сообщений в блоге в неделю в среднем не прорывается через Акисмет ни одно, а ложные срабатывания случаются крайне редко, и в совсем клинических случаях, в виде fake email в качестве обратного адреса.
Пофантазируем: есть приёмник, в который приходит письмо. Это письмо — спам, по крайней мере, так должна функционировать система. И на основе этого письма должно произойти некое действие — обучение фильтра, добавление строки в таблицу RBL, и т.п. Однако, давайте не будем верить письму — давайте сначала прогоним его через байеса. Известно ведь, что обученный байес довольно точно выдаёт решение — спам или нет, используя при этом оценку вероятности от 0 до 1 (причём одни реализации выдают вероятность того, что письмо — спам, другие же оперируют с вероятностью «чистого» письма, хотя понятно, что эти числа связаны). Допустим, наш фильтр считает вероятность того, что письмо — спам. Нормальный результат при этом будет плясать в районе 0.8 — 0.999. А теперь посмотрим, чем мы будет «травить» фильтр? Ведь в нашем случае травить придётся нормальной корреспонденцией, на которую байес выдаст число от 0 до 0.4. Так в чём проблема — просто отбрасываем такие письма и не кормим ими фильтр.
Если ваш фильтр уже успешно фильтрует спам, зачем его обучать? Если не успешно, то с чего он удаляет то, что считает не спамом? Мы же его обучаем!
Хм, ещё раз. Задача сервиса — составить базу для антиспам-фильтра и список адресов, с которых рассылается спам. Задача байесова префильтра — отсечь явно ложные письма, которыми могут намеренно портить базу. Истинный спам — будет определён, будет дополнена база байеса и список адресов релеев.
Так злоумышленники могут и не кормить «явно ложными» письмами. Будут давать что-то на грани, постепенно качество вашей базы упадёт до нуля.
А вот что мне ещё интересно. Но сколько такая система централизованного обучения фильтров могла бы быть подвержена атаке на ложные срабатывания. Т.е. что мешало бы спамерам заставить своих жертв спамить эту систему нормальными письмами. В результате система обучится на нормальных письмах и перестанет функционировать. И все выпилят её со своих серверов
sail@


Чем Вам моряки не угодили?

(«Продажи» — sale)
Ой. И ведь чувствовал, когда коммент писал, что что-то не то…
Впрочем, подобные ошибки у меня не редкость, и по эпичности моряки выше не сравняться с тем, что я творил в школе на уроках английского. Колумб у меня отправлялся в плавание на овцах (sheep — ship), жена называла мужа оленем (deer — dear), а уж добил я как-то англичанку рассказом о том, что мне, в принципе, мягкие карандаши нравятся больше, чем жёсткие (очень уж рисовать любил тогда). И всё бы ничего — но вместо «пенсил» я почему-то (Фрейд охренел бы на месте) говорил «пенис». Собственно, я только через пару-тройку лет понял, почему англичанка тогда, во время моего очень серьёзного рассказа, мелко тряслась и похрюкивала.
admin, abuse, postmaster — самые распространенные и обреченные на сбор спама адреса.
Sign up to leave a comment.