Pull to refresh

Comments 6

Дмитрий, вы используете модели из категории supervised learning, но из описания в 3 и 4 частях не очень понятно, откуда эти модели берут обучающие данные с уже имеющейся разметкой «фрод/не фрод»? Я правильно понимаю, что в таблице TransactionsInfo как раз собраны исторические данные о платежах, уже размеченные соответствующим образом? Если это так, то откуда именно эта разметка берётся?
Все верно: в таблице TransactionsInfo собрана история платежей + результаты по ним (получатель платежа в конце-концов всегда узнает, чем закончился проходящий через него платеж).
Спасибо. У меня ещё много вопросов :)
  • Можно чуть подробнее о том, как эта статистика собирается на работающей системе?
  • Кто классифицирует исторические данные и проставляет метки для обучающей выборки? Для начального цикла обучения модели (до начала предполагаемой эксплуатации системы) клиент должен сначала предоставить свою выборку, я так понимаю?
  • За какой период берётся обучающая выборка, какого объёма?
  • Как обращаетесь с большой несбалансированностью обучающей/тестовой выборки (фродовых платежей обычно на порядок-два меньше, чем «хороших»), в каких пропорциях разделяете?
  • Как часто предполагается запускать процесс переобучения модели на новых данных?
Вопросов действительно много (легче еще одну статью написать), поэтому ответы будут короткие:
— описание того, как информация и рез-ты транзакции попадают в лог транзакций есть в 3-ей части;
— эксперт (я). Не обязательно, если у клиента не слишком специфический фрод;
— время — год, объем — как можно больше (big data!), дальше время/объем балансируем в зав-ти от точности модели и конечной стоимости ее владения;
— это не проблема для используемых алгоритмов машинного обучения;
— уровень точности предсказания и объем новых данных — основные триггеры для переобучения (т.е. время переобучения недетерминировано).
Спасибо, понятно. Ещё пара вопросов:
  1. Какие именно виды фрода попадают в обучающую выборку при разметке? И уточню первый вопрос из предыдущего комментария: допустим, мерчант регулярно предоставляет для обучения системы выборку транзакций с разметкой «фрод/не фрод» (ну или эксперт сам делает эту разметку, неважно); собственно вопрос в том, откуда именно берутся данные по каждой транзакции, фродовая она была или нет?
  2. Упомянутое правило «0.35 — 0.85» — эмпирическое, или основано на каком-то отдельном статистическом исследовании фрода?
«Быстро, дешево» еще легко напишите…
Sign up to leave a comment.

Articles