Спам – это ОК! Массовые рассылки как стимул развития цивилизации / Habr

Я застал те времена, когда спама еще практически не было — каждое рекламное письмо в моём электронном почтовом ящике казалось чем-то диковинным, и значительная их часть прочитывалась из чистого любопытства. Однако вскоре объём подобного мусора стал расти в геометрической прогрессии, появились трояны, рассылавшие свои копии по списку контактов на зараженной машине, потом жулики освоили фишинг… От спама страдали и продолжают страдать миллионы людей во всем мире. Но если бы спама не существовало, его, пожалуй, следовало бы придумать. И вот почему.

Те, кто помнит эпопею с пресловутым «Центром американского английского», заполонившим в начале нулевых почтовые ящики россиян своей назойливой рекламой, наверняка припомнят и то, что начались подобные массовые рассылки не вдруг. В девяностых почтовая реклама выглядела довольно примитивной: таким способом продвигались в основном чудо-средства для роста волос и увеличения других важных частей тела, целебные биологические добавки и финансовые пирамиды. В заголовках некоторых писем можно было даже увидеть список всех получателей. Отдельные сообщения были и вовсе адресными: реклама товаров и услуг отправлялась потенциально заинтересованной аудитории по сферам деятельности — этому способствовали многочисленные тематические интернет-каталоги фирм и их сайтов. Одним из переломных моментов в эволюции спам-индустрии можно считать появление краулеров, программ, автоматически собиравших адреса электронной почты на веб-страницах и объединявших их в базы. Одновременно с ними возникли и масс-мейлеры для рассылки спама, а базы адресов сделались ходовым товаром.

Помните этот феерический спам, ставший в конечном итоге нарицательным?

Достаточно было один-единственный раз «засветить» свой e-mail на каком-нибудь форуме, и последствия не заставляли себя ждать: уже через пару дней из почтового ящика приходилось выгребать тонны рекламного хлама. Борьба с этим явлением велась весьма примитивными методами: если где-то в публичном пространстве нужно было оставить адрес e-mail, его размещали в виде картинки, цифры заменяли текстом, а символ «@» — словом «собака», чтобы сбить с толку автоматические программы-сборщики. Зачастую люди просто заводили отдельный ящик «для спама», а «личным» адресом делились только в самом крайнем случае. Помогало, но ненадолго — спам каким-то чудом просачивался даже в те почтовые аккаунты, адреса которых вы хранили в строжайшем секрете.

Следующим эволюционным шагом на нелегком пути борьбы с массовыми рассылками стало появление настраиваемых почтовых фильтров. Поначалу правила фильтрации составлялись вручную: нужно было отобрать характерные заголовки и фрагменты текста рекламных сообщений, затем внести их в соответствующее окно программы, указав, что почтовый клиент должен сделать с таким письмом, и напоследок активировать каждое правило в отдельности. Прекрасно помню, как настраивал Outlook Express на автоматическое удаление писем от всяких «специалистов по продвижению» — занятие весьма медитативное и утомительное. Чуть позже стали распространяться готовые наборы антиспам-фильтров, которые можно было включить или отключить простым щелчком мыши. Но эффективность такой защиты все равно оставляла желать лучшего: во-первых, спамеры находили все новые и новые методы обхода алгоритмов фильтрации по шаблону — путем замены в тексте кириллических символов латиницей, добавлением в слова случайных пробелов или преобразованием текста сообщения в картинку. А во-вторых, из-за некорректной работы фильтров в спам нередко попадала важная и нужная корреспонденция, так что списки отправленных в соответствующую папку сообщений все равно приходилось просматривать — чего и добивались организаторы массовых рассылок.

«Черные списки», использовавшиеся в корпоративных почтовых системах в разгар «нулевых» — это отдельная песня с нецензурным припевом. Помню одно крупное питерское издательство, с которым я сотрудничал в те времена: их серверы были настроены на прием писем только с собственного домена и одной-единственной российской публичной службы e-mail, все остальное безжалостно выжигалось напалмом. Никакого спама, но зато и никаких полезных сообщений от авторов, клиентов и партнеров, если их угораздило зарегистрировать свой почтовый ящик где-то в другом месте — удобство превыше всего! Да и «публичные блэклисты», записи в которые порой вносились на основании того, что робот в процессе рассылки случайным образом подставил чей-то адрес из спамерской базы в качестве отправителя, приносили больше проблем, чем практической пользы. В общем, эффективность подобных антирекламных мер вызывала сомнения с самого начала. Хорошо, что такие списки в конечном итоге сгинули в небытие.

С распространением фишинга почтовые фильтры научились проверять содержащиеся письмах ссылки по базам потенциально опасных и вредоносных сайтов. Здесь разработчики столкнулись с той же сложностью, что и производители антивирусов, использующих сигнатурный анализ. Пока вредоносная или фишинговая ссылка не попала в базу, фильтр не считает ее опасной, а с момента появления такой ссылки до момента добавления ее в списки проходит определенное время. Злоумышленники быстро освоили и оптовую регистрацию доменов, и автоматическую генерацию вредоносных URL. Иными словами, в этой «войне брони и снаряда» преимущество обычно оставалось на стороне последнего.

Немного изменило ситуацию к лучшему появление эвристических алгоритмов и «самообучающихся фильтров» — это был следующий эволюционный шаг в борьбе со спамом. Эвристические алгоритмы анализируют текст письма на наличие определенных слов и выражений, характерных для рекламных писем, причем учитывают не только сам факт наличия этих слов, но также оценивают их взаимное расположение и контекст. Многие спам-сообщения используют специфическую HTML-разметку или скрытые теги. Эвристический анализ выявляет аномалии в разметке, такие как невидимые ссылки, скрытые блоки текста, изображения и иные трюки, применяемые спамерами для обхода фильтров. Проверяется также наличие ссылок в теле письма. Важна и обратная связь от пользователя: если фильтр считает полезное сообщение спамом, или наоборот, пропускает рекламу, пользователь может пометить его вручную для корректировки алгоритма и повышения точности фильтрации.

Нужно ли говорить, что организаторы массовых рассылок внимательно изучают принципы работы таких фильтров и активно ищут методы их обхода? Эвристика, вне всяких сомнений, в разы эффективнее фильтров на основе шаблонов, но все равно работает не идеально. Я регулярно замечаю, что алгоритмы нет-нет, да отправляют в спам полезные рассылки от различных сервисов, а рекламу и фишинговые сообщения, наоборот, пропускают.

Наконец, относительно недавно на поле борьбы с массовыми рассылками — как рекламными, так и вредоносными — вышел искусственный интеллект, подкрепленный технологиями машинного обучения. В отличие от набора статических правил и традиционных эвристических алгоритмов, ML-подходы способны постоянно обучаться, самостоятельно обнаруживать новые паттерны спама и даже предугадывать, что является рекламой, а что — нет. Эти алгоритмы первоначально обучаются на огромных массивах данных, содержащих примеры как спам-сообщений, так и нормальной почты. Модель анализирует, какие признаки характерны для каждого типа писем, и самостоятельно строит правила, позволяющие идентифицировать спам даже в новых формах. Для этого применяют различные методы классификации, такие как логистическая регрессия, деревья решений, метод опорных векторов (SVM).

Более сложные и продвинутые системы могут использовать рекуррентные нейронные сети (RNN) или трансформеры. Эти архитектуры способны анализировать текст сообщений и понимать их контекст, что особенно полезно для выявления спама с необычными паттернами. Анализ содержания писем обычно выполняется на основе алгоритмов математической лингвистики и обработки текстов на естественном языке (NLP), вроде модели Word2Vec. ИИ-системы также способны выявлять аномалии в типичных коммуникационных паттернах: они уже сейчас умеют строить профили «нормального» поведения пользователя, чтобы затем выделять подозрительные сообщения, выбивающиеся из этой «нормы». А комбинирование и объединение нескольких алгоритмов увеличивает общую точность и качество фильтрации почтового трафика. Например, один алгоритм оценивает текст письма, другой — структуру, третий — поведение отправителя, а итоговое решение принимается на основе результата их совокупной работы. Против такого «Терминатора» с искусственным интеллектом у спамеров не так уж много шансов. Хотя организаторы массовых рассылок сами охотно берут на вооружение возможности нейросетей, так что и против этого «лома» рано или поздно найдется какой-нибудь хитрый приём.

Если с некоторой долей условности разместить все эти методы борьбы со спамом на временной шкале, то мы увидим, что прогресс технологий, эволюционировавших от простых настраиваемых вручную фильтров до применения нейросетей, в последние годы заметно ускорился.

Эволюция технологий борьбы со спамом

И знаете что? Интернет благодаря этому в целом стал намного безопаснее. Так, в фильме с участием Яндекс 360 о кибербезопасности «Цифровая тень: как крадут наши деньги?» прозвучала интересная статистика: 99% россиян в возрасте от 20 до 55 лет пользуются электронной почтой, и это на 10% больше аудитории популярных мессенджеров. Ранее компания делилась следующими данными: с начала 2024 года она заблокировала с помощью Спамообороны свыше 16 млрд. потенциально опасных писем, то есть, около 25% всего почтового трафика отказывается спамом. Что вызывает удивление в этих цифрах? Во-первых, несмотря на наступившую эпоху мобильных устройств и приложений вроде «Телеграма» и «Вотсапа», электронная почта по-прежнему остается основным инструментом коммуникации в интернете. А во-вторых, четверть от всего объема пересылаемых в сети писем — это очень, очень много.

Эти данные косвенно подтверждаются независимыми исследованиями, опубликованными на платформе IEEEXplore: количество отправляемых ежедневно сообщений электронной почты непрерывно растет: в 2024 году оно достигло 361,6 миллиардов писем, а к 2026 году должно превысить 392 миллиарда.

Количество ежедневно отправляемых и получаемых сообщений электронной почты, 2017-2026, по данным IEEE Xplore

При этом по данным агентства 99firms.com, среди мировых источников спама со значительным отрывом лидирует Россия.

Распределение стран по объему рассылаемого спама, 99firms.com

И если люди среднего возраста, буквально выросшие с компьютером в обнимку, еще способны скептически отнестись к письмам от адвокатов покойного нигерийского принца, и с опаской смотрят на вложенные в сообщения «фотографии» с расширениями .lnk и .js, то их пожилые родители попадают в группу риска просто в силу возраста. Порой очень трудно объяснить семидесятилетней маме, почему не стоит доверчиво переходить по ссылке в письме якобы от «Администратора вашего почтового ящика» с сообщением о том, что настало время сменить пароль, особенно если этот администратор — ее сын, использующий собственный почтовый сервер, и ему в случае необходимости можно просто позвонить. То же касается и детей, падких на обещания халявы, и безоглядно подписывающихся на любые сомнительные сервисы и рассылки в поисках читов для игр и готовых решений домашки по математике. В подобных случаях механизмы фильтрации почты и «умные ассистенты» на основе ИИ придутся очень кстати. Там, где естественный интеллект начинает буксовать, должен работать искусственный.

Есть и еще один важный аспект. До недавнего времени приемы борьбы с рекламными и вредоносными рассылками были реактивными: то есть, спамеры придумали новый метод обхода фильтров или начали использовать не встречавшийся ранее приём социальной инженерии — разработчики приложений ответили очередным правилом фильтрации и обновлением баз. А вот ИИ и ML-инструменты не просто реагируют на угрозы, появившиеся примерно позавчера, а адаптируются к эволюции спама. Благодаря способности самообучения такие фильтры поддерживают высокую эффективность даже при изменении тактики со стороны организаторов рассылок. Новые виды рекламных и мошеннических писем будут отфильтровываться быстрее, а число ложноположительных срабатываний должно, наоборот, пропорционально уменьшиться. Вряд ли это поможет полностью победить само это явление, но жизнь спамерам подпортит точно.

Так, по данным исследования IEEEXplore, использование ML-алгоритмов позволило повысить точность обнаружения спама до 95-99%. Системы на основе машинного обучения адаптируются к новым типам спама гораздо быстрее, чем инструменты на основе шаблонов или заранее запрограммированные фильтры. Другое исследование той же компании показывает, что такие алгоритмы, как байесовская фильтрация и методы глубокого обучения, способны значительно сократить количество ложноположительных срабатываний (например, при использовании подходов на основе обработки естественного языка). Основанные на ИИ антиспам-системы умеют прогнозировать поведение спамеров, что делает такие фильтры менее уязвимыми для методов обхода, которые часто используются организаторами массовых рассылок.

Но как бы ни совершенствовались методы защиты от спама, фишинга и распространения вредоносных программ, «спор брони и снаряда» не прекращается. С ростом изощренности спам-атак, особенно тех, что направлены на обман вероятностных и байесовских алгоритмов, требуются все более гибкие и умные технологии фильтрации. Этот процесс напоминает своеобразную гонку вооружений: каждое новое улучшение в технологиях антиспама стимулирует спамеров на разработку более продвинутых способов обхода, что, в свою очередь, ускоряет развитие и совершенствование защитных систем. В итоге повышается устойчивость всей инфраструктуры электронной почты и снижаются риски для конечных пользователей. Новые инструменты на основе искусственного интеллекта и машинного обучения помогают защищать их не только от уже существующих, но также от еще неизвестных угроз. Вот почему лично я считаю спам двигателем прогресса: он, безусловно, вреден, но благодаря ему цифровой мир в конечном итоге становится чуточку безопаснее.