Привет, Хабр! Недавно мы рассказывали, что запустили подкаст «Под защитой», в рамках которого разбираем разные аспекты, связанные с информационной безопасностью. Знаем, что кому-то проще слушать подкасты дома или в пути, а кому-то — комфортнее читать текст. Такт что подготовили для вас ещё и версию одного из выпусков в формате статьи.
Поговорили о том, какую роль в защите данных играют инновации — что вообще стоит за этим понятием и чем оно отличается от «улучшений», какие барьеры мешают технологическому развитию, и почему главными драйверами перемен становятся именно технологические компании.
Меня зовут Сергей Рябов, я руководитель научно-исследовательской разработки ГК InfoWatch, и вот что мы обсуждали на подкасте.
Термины и понятия
Давайте сразу определимся с ключевыми понятиями, которые мы будем использовать. Например, «информационная безопасность». Я смотрю на него с точки зрения наших продуктов — они защищают клиентов от утечек данных, как непреднамеренных, так и преднамеренных. Куда чаще данные утекают по вине людей, нежели из-за использования вредоносного софта.
Поэтому лично для меня информационная безопасность — это возможность сделать так, чтобы информация, которая не должна покидать периметр компании, в нём и оставалась. И на самом-то деле это не такая уж и простая задача, потому что такой информации очень много и она очень разная — растут и сами компании, и потоки создаваемой ими информации. Вместе с этим в компаниях часто меняются бизнес-процессы, которые люди не всегда соблюдают.
Эти и подобные им факторы нужно учитывать и отслеживать. И тут есть нюанс.
Самый простой способ защититься — закрыться ото всего. Ну, вы помните классика — «Не выходи из комнаты, не совершай ошибку». Вот только дело в том, что бизнес так или иначе работает с людьми, это всегда взаимодействие с внешним миром, и такое закрытие для него будет равноценно остановке работы.
Поэтому задача нашей компании состоит в том, чтобы обеспечить защиту данных компании, не влияя на её бизнес-процессы (и сами процессы мы тоже защищаем).
Второе понятие, с которым тоже следует определиться на старте, это «инновации».
В моём понимании инновация — это то, что помогает решать существующие задачи принципиально новым способом, либо же решать задачи, которые ранее вообще не стояли перед компанией и об их существовании вообще никто не подозревал.
К примеру, вот чем мы довольно плотно занимаемся в последнее время. Представьте себе большую компанию. В таких организациях в сутки происходит около миллиона событий, так или иначе связанных с созданием, изменением, удалением документов, их пересылкой и прочее. И это всё очень разные документы как по форме, так и по содержанию.
Когда в компании устанавливают DLP-систему, её тщательно настраивают — для этого надо в каждом случае понимать, какая информация ходит внутри компании, какие существуют типы этой информации, какую нужно обязательно защищать, а какую — нет. Делать всё это руками очень долго и дорого. По сути, скорее всего, даже нереально, для этого пришлось бы просматривать миллионы событий в день.
Что обычно принято делать в таких случаях? Брать какие-то выборочные события, рандомно или не очень, и оценивать, плохие это события или хорошие. Другой способ — сходить к владельцам бизнес-процессов и спросить у них, к��кие именно данные нужно защищать. Проблема в том, что владельцы бизнес-процессов — ни разу не безопасники, это вообще не их профильная деятельность. Поэтому в лучшем случае на свой запрос вы получите стандартную отписку, в худшем — не менее стандартный игнор.
Поэтому офицеры безопасности и пытаются делать всё сами, копаясь в процессах. А это очень тяжело и весьма трудоёмко.
Что со всем этим делать
Мы решили это исправить.
Есть такая штука, называется кластеризация данных. Сама по себе это не новинка, механизм известный, но у него есть ряд проблем. Например, чтобы кластеризовать миллион документов, потребуется около 14 терабайт оперативной памяти, если делать это «в лоб». Конечно, есть методы оптимизации, но требуемые ресурсы они снизят не так заметно.
Мы придумали, как это починить, и сделали потоковую кластеризацию — разделили операции на те, что делаются в потоке над одним документом, и те, которые можно сделать позже, над гораздо меньшим объёмом информации. В итоге мы можем кластеризовать миллионы документов на вполне себе стандартном сервере с 32 гигабайтами оперативной памяти и на обычном процессоре.
Чем это помогло? Во-первых, теперь офицер безопасности может видеть «разблюдовку» своего трафика и понимать, какие на самом деле тематики данных ходят внутри его компании. Для этого уже не надо смотреть миллионы документов — достаточно сотни-другой, это уже куда более посильная задача.
Во-вторых, настраивается классификатор, с помощью которого можно определить, какие важные тематики нужно защищать прямо сейчас. Далее с этим списком тематик офицер может прийти с вопросом к владельцам бизнес-процессов, причем не в формате «подскажите мне», а «я принёс вам список, оцените его». На такой вопрос куда проще ответить человеку, не погруженному в безопасность.
В-третьих, раз мы можем делать теперь эту операцию достаточно быстро — значит, мы можем делать её периодически. Соответственно, можно отслеживать появление новых тематик, уход из информационного поля старых, возможно, какую-то реакцию внутри компании. Например, вышел у вас в компании какой-то нормативно-правовой документ, указ или инструкция, и можно посмотреть, появились ли новые обсуждения, которые с ним связаны.
Кроме того, эта технология позволяет быстро искать похожие документы. Она группирует между собой очень близкие документы (а в компаниях обычно таких много). Скажем, какой-то типовой договор — можно найти как конкретный документ, так и список всех похожих документов, без перелопачивания миллионов объектов, а просто с помощью запроса к БД. Нужен лишь исходный образец документа для такого поиска — и наша система быстро найдет все его «клоны».
Инновации VS Улучшения
Подобные технологии можно использовать как пример разницы между «инновацией» и «улучшением».
Улучшение — не приносит новых свойств и не меняет подход. Например, у нас есть технология анализа изображений, которую можно до бесконечности улучшать, совершенствуя её каждый день, скажем, по одному проценту — убирать ошибки и упрощать процессы. И попиксельное сравнение и анализ будут всё более отточенными.
Инновация — это изменение самого подхода. Сейчас появились разные мультимодальные LLM и прочее, они при анализе смотрят уже не на пиксели изображения, а на саму его суть и смысл — понимают, что именно нарисовано.
Такое зачастую бывает при анализе тех же сканов паспорта. Стандартный алгоритм различает некие ключевые точки изображения, но может выдавать ложноположительные срабатывания. Просто потому, что он не понимает, на что смотрит.
Новый подход, так как видит именно суть, понимает, что это паспорт. И, само собой, то же относится к любым другим объектам на изображении.
Поэтому это будет считаться инновацией — качественно новый подход, абсолютно меняющий свойства анализа.
Инновации в DLP-системах
Однажды я поставил себе цель — сделать внедрение и эксплуатацию DLP дешевле . Инновации здесь позволяют удешевить процесс — нам не нужен специально обученный лингвист, чтобы выделять документы и категоризировать их, не нужен человек, обладающий профильными познаниями в машинном обучении, чтобы настраивать и обучать систему.
Всё это можно делегировать напрямую офицеру безопасности — он самостоятельно настроит под себя всё, что ему нужно. Более того, такой подход снимает вопрос необходимости получения доступов : многие наши клиенты — это закрытые компании, в которых доступ к данным не могут получить даже наши эксперты, поэтому приходится иногда работать фактически вслепую.
Это, к слову, одна из основных сложностей с DLP. Каждый клиент, вне зависимости от размера компании, сам для себя решает, какие данные он нам даёт — это его право, он сам оценивает, что давать, а что нет. Соответственно, оценивать ему приходится и риски, включая ту информацию, которая может остаться незащищённой и утечь.
Что мы делаем в таких случаях и как обучаем DLP, если заказчик не даёт данные? Начинаем работать на синтетике, затем берём, например, вики или определённые наборы рабочих документов, и с их помощью делаем MVP. Затем отдаём этот MVP заказчику и он работает уже без нашего участия. Если проще — в такой ситуации мы делаем удобный интерфейс, который с помощью реальных данных заказчика начинает обрабатывать информацию и приносить компании пользу.
Мы продолжаем общаться с заказчиком и понимаем, насколько быстро и точно всё работает. Это очень важный аспект, потому что всегда можно сделать инновацию ради инновации, которая не будет нормально работать и окажется для отрасли довольно бесполезной. Например, зачем вам система, которая будет собирать небольшой отчёт пару дней, с учётом, что нужен этот отчёт сегодня?
Поэтому лично для меня одно из свойств инновации — это ещё и толерантность к ошибкам. Допустим, мы сделали фичу, которая не работает или работает медленно. Ошибка ли это? В целом — да. Но эта ошибка дала нам знания о том, что именно и почему тормозит процесс, как всё поправить, где и что нужно оптимизировать. И вот, через несколько итераций допиливания, мы доводим фичу до промышленного образца, который можно успешно использовать в реальной жизни.
Отдельно замечу, что на стороне клиента реальная инновация время от времени может выглядеть простым улучшением. Есть ситуации, когда мы на самом деле создаём под капотом что-то инновационное, но для клиента это просто «Ага, теперь этот процесс выполняется на два часа быстрее». И это тоже нормально — клиент не знает всю подноготную и не поднимает капот, мы не грузим людей этой сложной математикой и прочим, мы просто делаем так, чтобы их данные были полностью защищены, а система была правильно настроена.
Потому что должным образом настроить DLP сложно, здесь главное не перекрутить гайки и при этом соблюсти баланс. С одной стороны, система не должна пропускать утечки, ни одной. С другой — она не должна срабатывать на каждый чих, потому что если на дашборде у офицера безопасности будет появляться по тысяче красных событий со сработавшими политиками, в одиночку он с ними не справится.
Во второй части статьи обсудим, отличаются ли инновации в зависимости от отрасли, в которой они внедряются, как воспринимают эти инновации компании и их клиенты. Поговорим о железе, людях и о том, почему инновации невозможно использовать, если они не интегрированы в продукты.
