Comments 6
Дмитрий, вы используете модели из категории supervised learning, но из описания в 3 и 4 частях не очень понятно, откуда эти модели берут обучающие данные с уже имеющейся разметкой «фрод/не фрод»? Я правильно понимаю, что в таблице TransactionsInfo как раз собраны исторические данные о платежах, уже размеченные соответствующим образом? Если это так, то откуда именно эта разметка берётся?
+1
Все верно: в таблице TransactionsInfo собрана история платежей + результаты по ним (получатель платежа в конце-концов всегда узнает, чем закончился проходящий через него платеж).
0
Спасибо. У меня ещё много вопросов :)
- Можно чуть подробнее о том, как эта статистика собирается на работающей системе?
- Кто классифицирует исторические данные и проставляет метки для обучающей выборки? Для начального цикла обучения модели (до начала предполагаемой эксплуатации системы) клиент должен сначала предоставить свою выборку, я так понимаю?
- За какой период берётся обучающая выборка, какого объёма?
- Как обращаетесь с большой несбалансированностью обучающей/тестовой выборки (фродовых платежей обычно на порядок-два меньше, чем «хороших»), в каких пропорциях разделяете?
- Как часто предполагается запускать процесс переобучения модели на новых данных?
0
Вопросов действительно много (легче еще одну статью написать), поэтому ответы будут короткие:
— описание того, как информация и рез-ты транзакции попадают в лог транзакций есть в 3-ей части;
— эксперт (я). Не обязательно, если у клиента не слишком специфический фрод;
— время — год, объем — как можно больше (big data!), дальше время/объем балансируем в зав-ти от точности модели и конечной стоимости ее владения;
— это не проблема для используемых алгоритмов машинного обучения;
— уровень точности предсказания и объем новых данных — основные триггеры для переобучения (т.е. время переобучения недетерминировано).
— описание того, как информация и рез-ты транзакции попадают в лог транзакций есть в 3-ей части;
— эксперт (я). Не обязательно, если у клиента не слишком специфический фрод;
— время — год, объем — как можно больше (big data!), дальше время/объем балансируем в зав-ти от точности модели и конечной стоимости ее владения;
— это не проблема для используемых алгоритмов машинного обучения;
— уровень точности предсказания и объем новых данных — основные триггеры для переобучения (т.е. время переобучения недетерминировано).
0
Спасибо, понятно. Ещё пара вопросов:
- Какие именно виды фрода попадают в обучающую выборку при разметке? И уточню первый вопрос из предыдущего комментария: допустим, мерчант регулярно предоставляет для обучения системы выборку транзакций с разметкой «фрод/не фрод» (ну или эксперт сам делает эту разметку, неважно); собственно вопрос в том, откуда именно берутся данные по каждой транзакции, фродовая она была или нет?
- Упомянутое правило «0.35 — 0.85» — эмпирическое, или основано на каком-то отдельном статистическом исследовании фрода?
0
«Быстро, дешево» еще легко напишите…
0
Sign up to leave a comment.
Антифрод (часть 4): аналитическая система распознания мошеннических платежей