
Финансовые системы каждый день генерируют потоки данных: транзакции, котировки, события в мобильных приложениях, отчёты партнёров. Данные легко превратить в витрины и отчёты. Сложнее — превратить их в прогноз, который помогает принять решение в моменте.
Предиктивная аналитика отвечает на вопрос «что, скорее всего, произойдёт дальше». В финтехе это обычно сводится к вероятности события или прогнозу числа: риск дефолта, вероятность мошенничества, ожидаемый спрос на продукт. Дальше модель уже превращают в действие: лимит, скоринговый порог, приоритет проверки.
В статье расскажем, какие типы моделей чаще используют в финтехе, где они применяются, как обычно устроен конвейер данных и моделей, и какие ограничения чаще всего ломают качество в эксплуатации.
Какие модели используют в финтехе
Выбор модели зависит от задачи и данных. Для бинарных решений подходит классификация. Для последовательностей во времени — модели временных рядов. Для поиска странного поведения — аномалии. Ниже — коротко про каждый класс.
Классификация
Классификаторы отвечают на вопросы «да/нет» или «к какому классу относится объект». В банке это может быть:
решение по выдаче кредита,
проверка транзакции на мошенничество,
определение сегмента нового клиента.
Классификатор обучают на исторических данных: доход, стаж, кредитная история, соотношение долга к доходу. Качество упирается в признаки и в то, как собраны данные. В скоринге и антифроде важно заранее выбрать метрики (https://journal-vniispk.ru/1994-9960/article/view/280191) и пороги, потому что цена ошибки у разных типов промаха разная.
Временные ряды
Модели временных рядов работают с последовательностями значений во времени. В финтехе ими прогнозируют динамику котировок, ставок и курсов. Иногда важнее не точная цифра, а диапазон или вероятность события, например резкого отклонения.
В практических моделях учитывают тренды, сезонность, циклы и внешние факторы, например цены на сырьё или макроэкономические релизы. Это помогает снизить ошибку, когда ряд меняется из‑за внешних причин, а не из‑за собственной динамики.
Обнаружение аномалий
Аномалии — это отклонения от «нормального» поведения. «Норму» задаёт профиль клиента или профиль группы. В антифроде это выглядит так: по счёту обычно проходят небольшие операции, и вдруг появляется крупное списание или серия нетипичных транзакций. Система поднимает флаг.
Модели можно регулярно дообучать на новых данных. Так система быстрее реагирует на новые схемы мошенничества. Но без мониторинга и контроля качества этот контур легко начинает ошибаться.
Кластеризация
Кластеризация группирует объекты без заранее заданных меток. Так находят скрытые структуры в данных, которые сложно описать правилами.
Пример — сегментация клиентов по истории транзакций, остаткам и использованию продуктов. Это помогает выбирать стратегии работы с группами и точнее оценивать риск, потому что внутри кластера поведение обычно более однородное.
Регрессия
Регрессия прогнозирует число, а не класс. В финансах её используют, чтобы оценить спрос на кредиты при разных ставках и спрогнозировать доходность портфеля с учётом волатильности.
Регрессия учитывает сразу несколько факторов. Так проще проверить, какие признаки реально влияют на результат и в какую сторону.
Зачем финтеху предиктивная аналитика
В финтехе решения принимают быстро, а цена ошибки высокая. Рынок меняется, схемы мошенничества эволюционируют, регуляторные требования ужесточаются. Предиктивные модели помогают там, где ручных правил и статической сегментации уже не хватает.
рынок меняется быстрее, чем обновляются ручные правила;
сегментации недостаточно, когда нужен прогноз поведения и риск‑профиля;
для моделей важны единые расчёты признаков и трассируемость данных;
мошеннические схемы появляются регулярно, поэтому важно обнаружение в реальном времени.
Где применяют предиктивную аналитику
Торговля акциями и управление портфелем. Модели анализируют котировки и новости и ищут повторяющиеся закономерности. В портфельных задачах учитывают доходность, риск и взаимосвязь активов. Это помогает пересчитывать веса инструментов, когда условия рынка меняются.
Бюджетирование и учёт. Статичные бюджеты плохо работают, когда показатели быстро меняются. Предиктивные модели помогают регулярно обновлять прогноз доходов и расходов и видеть отклонения от плана раньше, чем они станут проблемой.
Маркетинг и продажи. По истории операций и поведению в сервисах модели прогнозируют интерес к продуктам и оценивают LTV — пожизненную ценность клиента. Это помогает планировать коммуникации и сравнивать сценарии: кому и когда делать предложение, чтобы не увеличивать риск и не тратить бюджет впустую.
Кредитный скоринг. Скоринг особенно сложен для клиентов с короткой или нулевой кредитной историей. Тогда используют дополнительные сигналы, например поведение в цифровых каналах и косвенные признаки платёжеспособности. При этом важно заранее проверить, что набор признаков соответствует требованиям по персональным данным и недискриминации.
Обнаружение мошенничества. Антифрод‑системы оценивают транзакции в реальном времени: сумма, место, время, устройство, контекст клиента. Если операция выбивается из профиля, она попадает в подозрительные. Модели регулярно дообучают на новых данных, чтобы не отставать от новых схем.
Как устроен конвейер данных и моделей
Чтобы получать прогнозы быстро и стабильно, в финтехе строят конвейер: сбор данных, расчёт признаков, обучение модели, сервис предсказаний, мониторинг и переобучение.
Откуда берутся данные
Данные приходят из разных источников: транзакции, котировки, события в приложениях, отчёты партнёров. Потоковые события часто проходят через брокеры сообщений, например Kafka. Исторические данные хранят в объектных хранилищах и аналитических базах, например S3‑совместимых хранилищах, ClickHouse или BigQuery.
Ошибка в одном признаке может изменить кредитное решение или сработку антифрода. Поэтому контроль качества данных важен так же, как и качество модели.
Обработка и признаки
После подготовки данные превращают в признаки, или фичи. Это числовые характеристики поведения: частота покупок, средний чек, доля онлайн‑операций.
Для пакетной обработки часто используют Spark. Для потоковой аналитики — Flink или Kafka Streams.
Feature store — хранилище признаков. Оно помогает держать один и тот же расчёт фичей для обучения и для эксплуатации. Так меньше ошибок при развёртывании новых моделей.
Алгоритмы и обучение
Базовые задачи часто решают градиентным бустингом и моделями из scikit‑learn, например XGBoost и CatBoost. Для последовательностей, текста и новостных потоков используют нейросети на PyTorch или TensorFlow. AutoML ускоряет подбор моделей и гиперпараметров. Это снижает время на перебор вариантов, но не отменяет валидацию и контроль утечек.
Эксплуатация и поддержка моделей
Модели обычно запускают как микросервисы на FastAPI или BentoML и управляют ими через Kubernetes.
Процессы MLOps включают реестр моделей, например MLflow или DVC, мониторинг качества предсказаний и переобучение, когда меняются данные или поведение клиентов.
Прозрачность и доверие
В кредитных и антифрод‑решениях часто требуется обосновывать результат и уметь его воспроизвести. В разных юрисдикциях правила отличаются, но общий вектор один: меньше «чёрных ящиков», больше трассируемости.
SHAP и LIME помогают оценить вклад признаков в конкретный прогноз. В эксплуатации обычно журналируют входные данные, версию модели и результат, чтобы поддержать аудит и разбор инцидентов.
Примеры использования
Предиктивные модели уже применяют в кредитном риске, антифроде и прогнозировании спроса. Ниже — несколько прим��ров, которые можно проверить по открытым источникам.
Сбербанк
Есть академическая работа Forecasting of bank sales with Sberbank as a case study (https://journal-vniispk.ru/1994-9960/article/view/280191). Авторы сравнили линейную регрессию и ARIMA с моделями машинного обучения, например Random Forest и XGBRegressor, и получили более высокую точность у ML‑подходов.
Этот пример полезен как иллюстрация: даже в «классической» задаче прогнозирования временных рядов современные модели могут выиграть, если правильно собрать признаки и валидацию.
Mastercard
В мировой платёжной индустрии Mastercard описывает применение генеративного ИИ и графовых методов для детекции мошенничества. В пресс‑релизе от 22 мая 2024 года компания заявляет, что подход:
повышает скорость обнаружения компрометированных карт в 2 раза;
ускоряет идентификацию мерчантов с высоким риском на 300 %.
Это хороший пример для финтех‑инженерии: модель должна работать в потоке и выдерживать высокую нагрузку, а качество надо контролировать не только по recall, но и по уровню ложных срабатываний.
JPMorgan Chase
JPMorgan использует инструмент Cash Flow Intelligence для задач корпоративного казначейства. В публикации говорится, что он может сократить объём ручной работы по анализу денежных потоков примерно на 90 %.
Пример показывает, что предиктивные модели дают эффект не только в клиентских сценариях, но и во внутренних процессах, где много рутинного анализа.
Ограничения и риски предиктивной аналитики в финтехе
Предиктивная аналитика ломается по трём причинам: плохие данные, смена поведения и отсутствие контроля в эксплуатации. Плюс есть юридические и этические ограничения. Ниже — основные точки риска.
Качество и доступность данных
Модели учатся на истории. Ошибки и пропуски сразу бьют по качеству. Устаревшие данные о клиенте искажают скоринг. Неполные события увеличивают долю ложных срабатываний антифрод‑систем. Даже небольшие искажения могут сместить модель, когда поток транзакций большой.
Доверие и объяснимость
В кредитных решениях часто требуется объяснение результата и понятные причины отказа. Требования зависят от страны. В США ECOA и Regulation B описывают необходимость раскрывать основные причины adverse action. В Великобритании UK GDPR ограничивает решения «только автоматизированной обработкой» для случаев с существенным эффектом, включая кредитные решения.
Нейросети и сложные ансамбли часто ведут себя как «чёрный ящик». SHAP и LIME помогают объяснять отдельные прогнозы, но они не превращают модель в полностью прозрачную формулу.
Дрейф данных и дрейф концепта
Рынок и поведение клиентов меняются. Модель, которая не переобучается и не мониторится, начинает ошибаться. Это и есть дрейф данных и дрейф концепта.
Пример: скоринг на данных 2021 года может не учитывать схемы онлайн‑платежей, которые стали массовыми позже. Тогда растёт доля дефолтов или доля ложных отказов.
Этические и регуляторные риски
Если исторические данные содержат перекосы, модель может их закреплять. Это особенно заметно в скоринге: качество может отличаться на разных группах клиентов.
Регуляторные рамки тоже важны. В ЕС ограничения на решения, основанные только на автоматизированной обработке, описаны в GDPR, статья 22. В России в 2025 году опубликован Кодекс этики в сфере разработки и применения ИИ на финансовом рынке, подготовленный по итогам консультаций с участниками рынка при участии Банка России.
Куда движется предиктивная аналитика в финтехе
Сдвиг идёт в сторону более быстрой разработки, более потоковой обработки и более строгого контроля приватности. Ниже — направления, которые чаще всего обсуждают:
AutoML и ускорение прототипирования. AutoML автоматизирует подбор моделей и гиперпараметров. Это может сократить время от идеи до первого прототипа и упростить сравнение подходов.
Потоковая аналитика. Когда растёт доля онлайн‑операций и событий в приложениях, важно обрабатывать данные почти мгновенно. Kafka и Flink часто используют как основу потока. В связке с моделями это помогает быстрее реагировать на аномалии и пересчитывать лимиты.
Федеративное и приватное обучение. Федеративный подход позволяет обучать модель на данных разных организаций или контуров без передачи самих данных. Это упрощает работу с приватностью, но усложняет обучение и отладку.
Генеративные модели. Их используют для анализа неструктурированных данных, например текста, и для моделирования сценариев. Но для риск‑решений обычно всё равно требуется строгая валидация, потому что ошибки и галлюцинации ��десь дорого стоят.
Заключение
Предиктивная аналитика в финтехе — практический инструмент. Он помогает принимать решения на основе вероятностей, а не только на основе правил и отчётов.
Но качество упирается в данные, дрейф, объяснимость и контроль в эксплуатации. Без мониторинга и переобучения даже сильная модель начинает деградировать.
Если выстроить конвейер данных, трассируемость и модельный контроль, предиктивные модели становятся устойчивой частью финансовых процессов.
