cebka Jul 27 2011 at 11:07

Система фильтрации спама Rspamd

4 min

27K

Spamming and anti-spamming

From sandbox

+47

Comments 33

slimlv Jul 27 2011 at 12:58

xml зачем?

cebka Jul 27 2011 at 13:06

Дело в том, что rspamd разрабатывался с расчетом на автоматическое управление через веб-морду. Поэтому вещи, которые легко и часто меняются, настраиваются через xml, который с одной стороны более-менее удобно править руками, а с другой — легко распарсить и сгенерировать автоматически. Да, я знаю, что решение перевести конфигурацию с lex/yacc разбираемого формата, напоминающего конфиг bind, на xml было спорным. Однако, сейчас желающие могут настроить практически любые параметры из lua, оставив xml конфигурацию по умолчанию (настройки lua перекрывают настройки xml).

se_pavel Jul 27 2011 at 13:40

Как обучить систему? Ручками скормить ей набор спам писем?

cebka Jul 27 2011 at 13:55

Да, либо создать собственную статистику «с нуля», либо скачать мои статфайлы и, взяв их за основу, дообучить собственным набором. Доработать систему автообучения у меня в ближайших планах — существующая система, взятая из SA, как показала практика, скорее зло, чем полезная фича. В планах создать более гибкую систему, чем обучение на основе баллов, которые набрало письмо. Скорее всего, это будет lua скрипт, в задачи которого войдет мониторинг различных параметров письма: баллов, символов, степени «доверия» к ip адресу отправителя, «полезность» письма для статистики (бесполезно обучать статистику слишком большими или слишком маленькими текстовыми данными).

se_pavel Jul 27 2011 at 14:01

а система автообучения зависит от конкретного пользователя — вот эти емайлы он пометил как хорошие, а эти убрал в спам?

cebka Jul 27 2011 at 14:12

Нет, сейчас возможность per-user статистики (если я правильно Вас понял) не реализована. Сейчас есть только возможность загружать пользовательские настройки — число баллов, пороги срабатывания действий по письмам, «белые» и «черные» списки. Подробно об этом написано тут. Но если Вы всерьез решили использовать rspamd и единственное, чего Вам не хватает, — это per-user статистика, то я могу эту возможность реализовать в следующей версии, так как в текущую архитектуру статистики это вписывается без проблем.

CentALT Jul 27 2011 at 14:24

Нельзя ли требования к версии glib2 уменьшить до 2.12, то на CentOS 5.x не заводится, а это достаточно большая доля серверов.

cebka Jul 27 2011 at 14:39

В glib2.14 и glib2.16 были добавлены такие фичи, как обертка вокруг PCRE (GRegex), которая довольно часто используется в rspamd, библиотека хеширования (GCheckSum) и некоторые другие возможности. Встроить их в rspamd для совместимости не позволяет лицензия (LGPL несовместима с BSD). Но я подумаю, что можно сделать, — все эти зависимости достаточно легко реализовать с нуля.

cebka Jul 27 2011 at 14:50

Даже проще сделать так: если glib версии меньше, чем 2.16, то компилировать нехватающие возможности отдельно и линковаться с ними динамически, не нарушая лицензионных требований.

CentALT Jul 27 2011 at 15:09

Буду премного благодарен, и да… уберите генерацию spec файла в cmake :)
был несказанно удивлен когда написав свой spec принялся делать rpmbuild и увидел, что cmake-ом Вы генерируете свой :)

cebka Jul 27 2011 at 17:29

Генерация собственных спеков никогда особо не использовалась, так как я решил, что намного лучше сконцентрироваться на стабильности, документировании и популяризации проекта, чем создание пакетов, которые никто не использует.

cebka Jul 29 2011 at 16:45

Я допилил сборку со старым glib и проверил ее на CentOS 5.5. Можете попробовать собрать tip репозитория, и если все будет нормально, то я сделаю новую версию.

mt_ Jul 27 2011 at 14:35

Если на обучение подать набор спама с целого ряда аккаунтов, как это скажется на качестве фильтрации?

cebka Jul 27 2011 at 14:42

Ответить на этот вопрос довольно сложно — иногда даже человек с трудом может понять, спам это или же легитимная рассылка. Я сам обучаю систему спамом с разнообразных источников, предварительно удостоверившись в том, что это действительно спам, и результат мне кажется достаточно неплохим. Но нужно иметь в виду, что для стабильной работы статистики не стоит делать перекос в сторону спама — количество хама должно быть соизмеримым, чтобы статистика работала в обе стороны.

mt_ Jul 27 2011 at 15:00

Извините, я неточно сформулировал вопрос.
Предположим я пишу сервис, связанный с электронной почтой.
Могу я «прикрутить» к сервису ваш демон. Это возможно?
Если да, то тогда вот какой вопрос. Обслуживая сразу большое количество аккаунтов, качество фильтрации спама повысится, или снизится? Если сравнивать с качеством фильтрации одного аккаунта.

cebka Jul 27 2011 at 15:14

Прикрутить можно как угодно. Если это веб сервис, то, наверное, проще использовать rspamd в виде HTTP сервера, который выдает результат в виде json объекта (это настраивается в секции ), если почтовый — то проще использовать описанные в документации способы.
Если обучать статистику спамом с разных аккаунтов, то ее качество, безусловно, повысится, т.к. это даст больше разнообразных спам токенов, которые будут в дальнейшем оцениваться. Главное — обучать реальным спамом, а не тем, что считают «спамом» пользователи — практика показывает, что зачастую это диаметральные противоположности.

Jekel Jul 27 2011 at 15:17

А если сравнивать с SA который запущен через amavisd?

cebka Jul 27 2011 at 17:28

Гм, я, конечно, не тестировал amavisd, но мне кажется, что он не решает основную проблему SA — отсутствия оптимизации и использование регулярных выражений в совсем неподходящих местах. Например, в SA для разбора Received заголовков в письме последовательно применяется примерно 20 регулярных выражений, соответствующих различным MTA.

walker Jul 27 2011 at 17:59

а как это сделано в rspamd?

cebka Jul 27 2011 at 18:19

Вначале письмо разбирается gmime, в котором парсинг построен на базе конечных автоматов. Далее конечным автоматом в rspamd разбираются Received заголовки, из которых извлекаются полезные для фильтров данные. Но дело даже не в конкретном случае, а в общем подходе — в SA очень мало думают об оптимизации.

mche Jul 28 2011 at 06:35

В доке по интеграции с экзимом написано что нужно накатывать патч…
Доделайте в портах фряхи это дело как опцию конфигурации порта

mche Jul 28 2011 at 07:23

пропатчил екзим но так и не удалось заставить работать под фрей, порт сыроват.

cebka Jul 28 2011 at 13:30

А в чем заключается проблема? У нас на всем кластере ставится rspamd из этого порта.

mche Jul 29 2011 at 14:33

экзим 4.76
первый вариант интеграции Using spam.c patch — экзим не мог разобрать ответы от rspamd
второй вариант Using local scan — отваливался по таймауту local_scan() function timed out — message temporarily rejected (size 14277)
третий вариант Using dlfunc — некомпилится со свежей версией.

при этом rspamd не умеет создавайть сам файлы статистики, пришлось ручками.

cebka Jul 29 2011 at 14:43

По поводу последнего вопроса — rspamd создает файлы статистики автоматически при обучении. При классификации их нет особого смысла создавать.

По поводу интеграции с exim, я думаю, лучше продолжить общение по электронной почте. Пожалуйста, опишите, какие в точности ошибки возникли при компиляции и дамп общения exim'а и rspamd при неверной работе. Заранее спасибо!

Я просто везде использую postfix, и у меня нет особо возможности проверять функционал rspamd с exim'ом.

mche Jul 29 2011 at 15:17

логи выслал хабропочтой.
А вобще есть люди в теме кому удалось настроить работу экзима? Интересен вид интеграции. Как по мне, то наиболее удачный тот который
spamd_address = 127.0.0.1 11333
acl_smtp_data = acl_check_spam

cebka Jul 28 2011 at 13:33

Это не опция порта rspamd, это опция порта exim'а. Можно попросить мейнтейнера включить патч для работы с rspamd в OPTIONS.

cebka Jul 28 2011 at 13:36

Это не опция конфигурации порта rspamd, это должна быть опция конфигурации порта exim'а. Можно попробовать попросить мейнейнера включить патч rspamd в порт exim'а в виде опции.

vase Jul 29 2011 at 08:28

попробуем… у меня минимум 1000 спам писем в день, среди 5000-10000 тысяч валидных из разных рассылок.
сейчас сделаю билд для exherbo. не поделитесь линком на патч для exim?

vase Jul 29 2011 at 08:33

патч уже нашел

se_pavel Aug 8 2011 at 13:48

а можно ли систему доработать для определения спама в комментариях на сайте

cebka Sep 29 2011 at 13:09

Это и так присутствует. В настройке воркера можно сказать

<mime>no</mime>

и использовать http и json для общения (хотя для этого лучше использовать последнюю версию из hg, так как недавно я исправлял в этом месте некоторые проблемы).

Angel2S2 Dec 2 2014 at 16:05

А есть ли возможность подружить rspamd с amavisd? Если да, то как?