Сегодня трудно представить себе жизнь без интернета. Каждый день люди открывают браузер для того, чтобы почитать новости, узнать прогноз погоды, послушать музыку, посмотреть кино и пообщаться с друзьями. Серфинг в Интернете может быть как целенаправленным поиском нужной информации, так и беспорядочным «блужданием» по ссылкам и сайтам.
Количество веб-сайтов во всемирной паутине ежедневно растет: как сообщает портал Siteefy, во всемирной паутине насчитывается более 1,1 млрд веб-сайтов, и их число продолжает ежедневно расти. По данным Mediascope, 86% россиян пользуются интернетом, проводя в нём в среднем около 4,5 часов в день, причём 51% этого времени приходится на социальные сети. При этом в корпоративной среде повседневной рутиной стал активный обмен информацией с помощью веб-приложений, корпоративных мессенджеров, использование бизнес-приложений для рабочих активностей. Зачастую «личные» привычки пользователей переносятся и в корпоративную среду, и беспорядочный серфинг или общение в социальных сетях влияют на рабочую деятельность и продуктивность сотрудников, а так же на безопасность корпоративных информационных систем.
Для обеспечения защиты от вредоносных ресурсов и контроля продуктивности рабочего времени существует механизм категоризации веб-ресурсов, использующийся в решениях кибербезопасности класса SWG (Secure Web Gateway). Эти решения обеспечивают управление доступом к веб-ресурсам, фильтрацию контента по категориям, блокировку угроз, контроль загрузки и передачи данных. Они учитывают роли сотрудников, их график работы и задачи, не мешая бизнес-процессам и не создавая избыточной нагрузки на администраторов.
Категоризация веб-ресурсов – это один из базовых механизмов, который может профилировать доступ. Рассмотрим на примере отечественной SWG-системы Solar WebProxy подходы к формированию базы категоризации и оценке того, как же достигается качественная фильтрация и определение категорий для ресурсов в сети Интернет.
В современном высокопроизводительном SWG решении Solar webProxy используется модуль webCAT, обеспечивающий непрерывное обновление категорий сайтов, в том числе получение актуальной информации по скомпрометированным и вредоносным ресурсам.
Однако, действительно ли база категорированных ресурсов должна содержать все имеющиеся в интернете ресурсы для обеспечения безопасности и контроля доступа? Попробуем разобраться вместе с Ольгой Шарапатовой, старшим аналитиком Solar webProxy ГК «Солар».
Развитие сайта
Сотни тысяч сайтов появляются каждый день, однако не все из них остаются в сети надолго. Каждый сайт на этапе создания имеет идею, разрабатывается, наполняется контентом, продвигается и поддерживается, а в конечном итоге может быть закрыт.
На любом из этапов ра��вития сайта может произойти сбой - например, владелец может забыть оплатить хостинг, и тогда сайт будет выставлен на продажу. В таком случае судьба сайта в руках его нового владельца, купившего доменное имя.
Так же сайт может быть взломан – это грозит потерей персональных данных, внедрением вредоносного кода, манипуляциями с контентом и репутационными рисками.
По окончании жизненного цикла сайт сначала становится недоступным, затем удаляется, а после доменное имя выставляется на продажу и может быть выкуплено новым владельцем.
Объем базы — какой же должен быть?
Распространено мнение, что чем большее количество ресурсов содержится в базе, тем лучше, ведь это обеспечивает максимальное покрытие и, как следствие, защищенность. Да, но есть нюансы...
1. Мертвые домены.
После окончания жизненного цикла ресурса, он становится полностью недоступным. Пользователи не смогут перейти на него из-за ошибки доступа. Объем "мертвых сайтов" в сети Интернет огромный, и хранить данные о них попросту бессмысленно — это увеличивает базу, требуя больше инфраструктурных мощностей клиента, не создавая при этом реальной ценности для решения бизнес-задачи.
2. Ресурсы без контента.
Регистрируемые ресурсы изначально не имеют контента, и порой такая ситуация может сохраняться довольно долго. Ресурс без контента не имеет бизнес-ценности для пользователей, а значит, его присутствие в базе не имеет практического смысла.
Отдельно стоит отметить технические домены, контента на которых так же может быть критически мало. Однако для них наличие и корректное определение категорий является критически важным, так как без этого может быть нарушена работа важных интернет-ресурсов. В случаях, когда доступ к ресурсу определенной категории должен быть предоставлен, технические ресурсы, связанные с ним, так же должны быть доступны.
3. Наличие у основного домена поддоменов.
Каждый сайт имеет доменное имя второго уровня, и у этого доменного имени может быть множество поддоменов:

Для примера можно взять ветки форумов, когда каждая тема располагается на отдельном поддомене или любой коммерческий сайт с представительством в разных городах. Например, домен t2.ru имеет следующие поддомены: msk.t2.ru, spb.t2.ru. Формально — это разные доменные имена, но фактически имеют одинаковую тематику. Присваивая категории каждому такому поддомену, мы «плодим» дублирующие категории и «раздуваем» базу бессмысленными записями. Эффективнее наследовать категории родительского домена, но только в случае, если их категории действительно совпадают.
Что же определяет качество базы категорированных ресурсов?
Отличительным свойством контента в интернете в широком смысле – является его изменчивость. Контент на веб-сайтах разнообразен и разнороден, а иногда он и вовсе пустой – сайт может быть недавно созданным и ненаполненным контентом, либо он может быть запаркован для дальнейшей продажи. Для пользователей, регуляторов, вендоров и всех тех, кто каким-либо образом пользуется категоризацией веб-ресурсов наполнение таких сайтов может меняться непредсказуемо. Невозможно предугадать, какая информация появится на веб-ресурсе, который на текущий момент, например, в стадии разработки. По этой причине важно регулярно проверять сайты на предмет корректно присвоенной категории.
Критически важный критерий качества базы категорированных ресурсов — актуальность категорий. Веб-ресурсы могут устаревать, видоизменяться, становиться уязвимыми или менять владельца и тематическую направленность. Например, новостной портал может превратиться в рекламную площадку, а интернет-магазин — подвергнуться хакерской атаке и начать распространять вредоносный контент.
Как видно из перечисленных пунктов, формально большая база не несет реального покрытия угроз. Для обеспечения защиты и контроля доступа в Интернет
важно регулярно и своевременно производить «ревизию» и верификацию категорий, содержащихся в базе данных категоризатора, одновременно и уточняя категории, и защищая пользователей от внезапных угроз из-за изменившегося контента или вредоносной активности.
Так же следует учитывать необходимость более частых обновлений базы категоризации, в процессе которой база будет очищаться от «мусора»: «мертвых доменов», ресурсов без контента или однотипных поддоменов.
При этом бессмыленно большой объем базы может затруднять и замедлять процессы актуализации и обновлений категорий, а это несет риски для корректной работы политик контентной фильтрации.
База категорированных ресурсов должна быть оптимальной, а не максимальной по объему, а простая оценка качества категоризации по формальному объему категорированных ресурсов не соответствует реальным потребностям клиентов.
Оптимальность и актуальность — залог успеха
При выборе решения для контентной фильтрации часто в фокусе оказывается один из ярких показателей - размер базы данных. Многие компании в маркетинговых материалах делают акцент на «миллиардах категорированных ресурсов», чтобы продемонстрировать масштаб. Однако важно понимать: большой объём данных — это демонстрация охвата, но не гарантия качества. Ключевым фактором для надёжной защиты является не количество ресурсов в базе, а их оптимальная, актуальная и точная категоризация.
Фокус исключит��льно на «большой цифре» может привести к обратному эффекту. На деле клиенты рискуют получить медленную систему, иллюзию защищённости, лишние расходы на инфраструктуру и, как следствие, — ухудшение качества аналитики и реагирования на угрозы.
Таким образом, определяющими факторами для эффективной контентной фильтрации являются не абстрактные миллиарды, а:
покрытие пользовательского трафика
актуальность категорий
скорость производимых обновлений.
Чем выше плотность полезных данных в базе, тем быстрее, точнее и эффективнее работает защита.