codezombie Mar 24 2015 at 01:39

Антифрод. Функциональные и нефункциональные требования (часть 2)

6 min

29K

System Analysis and Design*Payment systems*

В первой части эксперимента было описано, почему проблема мошеннических платежей (fraud) стоит остро перед всеми участниками рынка online-платежей, какие сложности на пути создания собственной системы мониторинга мошеннических платежей (antifraud-системы) предстоит преодолеть, и почему для большинства мерчантов такие системы – дорогое удовольствие, за которое они не всегда готовы платить.

Еще одно, усложняющее разработку подобных систем, обстоятельство — то, что antifraud-система является business-critical системой и ее простой будет вести либо к остановке бизнес-процесса (приема оплаты), либо при некорректной работе системы к увеличению рисков финансовых и репутационных потерь для компании (интернет-магазина, банка).

Поэтому практики и подходы, перечисленные в статье применимы не только на стороне мерчанта, но на стороне других участников интернет-эквайринга – агрегаторов, платежных систем, банков. Более того, перечисленные в статье подходы зачастую являются закрытыми от сообщества best practices в соответствующих организациях.

В этой части будут описаны требования к antifraud-системе, чье влияние на программную архитектуру является существенным.

Нефункциональные требования

Атрибуты качества

Про выбор атрибутов качества

Не буду растягивать описание объяснением, почему я включил те иные атрибуты качества, так как такое объяснение носит очевидный характер, если принять во внимание тип проектируемой системы – business critical.

Кроме того, я намеренно не буду указывать конкретных цифр по времени доступности antifraud-системы и другим атрибутам качества, так как статья не ставит перед собой целью обсуждение отдельно взятой системы. Вместо этого описывается набор подходов и принципов, лежащих в основе подобных систем.

Атрибуты качества:

распределенность;
отказоустойчивость;
высокая масштабируемость;
надежность.

Законодательные ограничения

Законодательные ограничения, являются одним из важных факторов, определяющих программную архитектуру антифрод-системы.
Так, согласно требованиям стандарта PCI DSS, нельзя хранить полный номер карты (PAN)* или код безопасности (CVV). Разрешено хранить первые шесть и последние четыре цифры карты. Также ничто не запрещает генерировать внутренний уникальный идентификатор для карт клиентов. Имя держателя и срок экспирации карты разрешено передать только по защищенным каналам.

* О хранении номера PAN

На самом деле на высоком уровне (где-то на 80-ом :) сертификации стандарта PCI DSS разрешается хранить PAN в зашифрованном виде.

Кроме требования стандарта PCI DSS необходимо выполнять положения закона «О персональных данных» (152-ФЗ).
Обсуждение всего многообразия технико-бюрократических процедур (с вытекающими юридическими тонкостями), необходимых просто для хранения, обработки фамилии, имени клиента, скорее всего, займет 10 листов инструкций и 1,5 месяца работы на реализацию этих инструкций (шутка, но отчасти). Поэтому лучший способ ~~не создавать себе лишней работы~~ соблюдать положения 152-ФЗ – не попадать под его действие.

В проектируемой антифрод-системе все программные модули будут работать с деперсонифицированными данными.

Подытожив, ограничения, носящие юридический характер, добавим к системе следующие требования:

не хранить PAN и CVV карты в любом виде;
другие платежные данные хранить только в защищенном виде;
передать информацию между мерчантом (программным клиентом) и антифрод-системой только по защищенным каналам связи;
работать только с деперсонифицированными данными.

Функциональные требования

Требование к API

Для начала рассмотрим требования к системе с точки зрения внешнего мира, т.е. программных клиентов (мерчантов). Программные клиенты взаимодействует с антифрод-системой в соответствии со следующими требованиями к API:

Функциональные:

Предоставить клиенту API для отправки данных о платеже;
Вернуть клиенту результат предсказания является ли платеж мошенническим;
Предоставить клиенту API для корректировки результатов проведения платежа.

Нефункциональные:

Предоставить общедоступный протокол взаимодействия с клиентом;
Вести взаимодействие с клиентом только по защищенным каналам связи.

Бизнес-требования

С точки зрения внутренней логики антифрод-системы выделим всего одно существенное бизнес-требование: предсказать по данным о платеже будет ли транзакция успешной.
В процессе реализации этого требования попытаемся доказать, что платеж не пройдет. Рассмотрим основные причины отказа в проведении транзакции: платежные данные сформированы некорректно или транзакция является мошеннической. Ниже разберем методы проверки каждой из перечисленных причин.

Проверка корректности введения платежных данных

Не стоит надеяться, что мерчант надлежащим образом проверит платежные данные. Вне зависимости от того была ли это ошибка пользовательского ввода или злонамеренные действия, выявление ошибок в платежных реквизитах на ранних этапах поможет сэкономить как такты CPU, так и предотвратить зашумление обучаемой модели (о ней речь еще пойдет позже).

Необходимо проверить содержит ли имя держателя карты хотя бы 2 буквы (тире и цифры в имени приемлемы), является ли карта действующей (у карты есть срок действия), проходит ли номер карты проверку алгоритмом Луна.

Алгоритм Луна

Алгоритм Луна (Luhn algorithm) — алгоритм вычисления контрольной цифры номера пластиковой карт. Предназначен для выявления ошибок, вызванных непреднамеренным искажением данных. Позволяет лишь с некоторой степенью достоверности судить об отсутствии ошибок в номере карты.

Проверка является ли транзакция мошеннической

Для выявления признака, что платеж является мошенническим, существует большое количество эвристик. Некоторые компании могут похвастаться цифрой под 200 эвристик. Хотя у меня сразу возникают подозрения, что некоторые из этих эвристик либо ничем не подкреплены, либо являются следствием какой-то другой эвристики, либо это вовсе костыль, позволяющий лучше подгонять результат под обучающую выборку и не дающий никакого эффекта на реальных данных. Большое количество эвристик дает лишь: переобученную модель, неправильное распознавание является ли транзакция мошеннической и уменьшение производительности приложения.

Поэтому перечислю лишь основные и, в общем случае, наиболее эффективные эвристики:

одна карта – много IP, и обратный случай: один IP – много карт;
одна карта – много покупок/неудачных попыток;
один клиент – много карт (особенно эмитированных различными банками);
один клиент – много индексов, email'ов;
имя клиента не совпадает с именем владельца эккаунта на сайте мерчанта (если есть);
страна клиента не совпадает со страной владельца эккаунта на сайте мерчанта (если есть);
оплата происходит ночь (по локальному времени клиента).

Но «много» это сколько? За какой период времени (5 секунд или 2 недели)? Как обойти проблему, что вес фильтра x₁ в не равен весу фильтра x₂, а величины их весов должны динамически меняться в процессе работы приложения?

Часто основным подходом является наивное присвоение фиксированного значения для какого-то из фильтров и последующая обработка этих условий в конструкциях типа (это псевдокод, а не 1С):

if (количество_карт_с_одного_ip > 4) {
	статус_платежа = отклонен;
	return;
}
else {
	if (количество_покупок_с_карты_за_1_час > 5) {
		статус_платежа = отклонен;
		return;
	}
	else {
		// continuation magic…
	}
}

// проведение платежа…

Даже не хочу начинать перечислять недостатки такого подхода и конечную стоимость такого кода, которая сложится из потерь от ложных срабатываний на отклонение «порядочных» платежей и пропуск фрода при небольшой смене стратегии мошенниками.

Поэтому единственно верным решением будет разработать систему, в которой эвристические фильтры способны к самообучению как на накопленной истории платежей, так и на новых платежах. Тут на наш выбор будет сразу несколько алгоритмов машинного обучения: логистическая регрессия, метод опорных векторов, нейронные сети.

Глобальные фильтры

Глобальными фильтрами я называю списки, при наличии плательщика в которых, проводить все остальные проверки – валидность платежных данных, проверка на фрод – бессмысленно. К таким спискам я отношу блэклисты банковских карт, IP, стран, мерчантов.

Глобальные фильтры могут быть как статическими, так и динамическими, могут быть связанны как с бизнес-правилами (мерчант не принимает платежи из Арктики), так и с детектированием аномальной активности (IP адрес).

Заключение 2-ой части

В первых двух частях мы рассмотрели основные аспекты преимущественно нетехнического характера, которые необходимо учесть при проектировании и разработке системы распознания мошеннических платежей.

Мы собираемся создать отказоустойчивый высокомасштабируемый надежный antifraud-сервис, который «снаружи» будет открыт для программных клиентов через REST API (https), а «внутри» – содержать логику, основанную на методах машинного обучения. Для придания еще большей интриги скажу, что сервис будет работать на одной из публичных облачных платформ.

В следующей части мы, наконец, ~~займемся делом~~ рассмотрим программную архитектуру antifraud-сервиса, его модульную структуру и ключевые детали реализации такого сервиса.

Hubs: