Pull to refresh

Языковые модели против мошенников: как LLM помогают бороться с отмыванием денег и финансовым мошенничеством

Level of difficultyEasy
Reading time4 min
Views829

«Покажи мне данные — и я скажу, где прячется обман»
— современный LLM

С ростом цифровизации банковских услуг злоумышленники становятся всё изощрённее: от схем отмывания денег через фиктивные юрлица — до автоматизированных атак через фишинг, подмену номеров, скимминг и социальная инженерия. Бизнес теряет миллиарды, клиенты — доверие. В этих условиях защитные технологии — уже не просто брандмауэр, а целый арсенал аналитических систем.

Две ключевые линии обороны в банках:

  • Antifraud (AF): защита от мошенничества (например, кража банковской карты или аккаунта);

  • Anti-Money Laundering (AML): отслеживание подозрительной активности с точки зрения закона (например, обнал, сплитинг, финансирование терроризма).

И в AF, и в AML накапливается большой объём разрозненной информации: история операций, изменения поведения, связи, типы устройств, нетипичные паттерны.

Именно здесь на сцену выходят большие языковые модели.

Текущие методы AML/AF: как всё устроено сейчас

Большинство банков используют комбинацию следующих компонентов:

  • Правила (Rule-based):
    Статические условия: если сумма > 1 млн и страна — офшор → флаг.

  • Модели машинного обучения:
    Часто применяются градиентный бустинг, случайный лес, логистическая регрессия. Используются фичи: частота переводов, средняя сумма, время суток и т. п.

  • Графовые методы:
    Построение сети связей между клиентами, контрагентами, устройствами.

  • Статистическая аномалия:
    Если клиент совершил 100 операций по 1000 ₽ и вдруг — одна на 10 млн ₽.

Недостатки:

  • Правила требуют постоянной ручной настройки;

  • ML-модели могут «глохнуть» на новых сценариях;

  • AF-модели боятся высокого false positive (чтобы не раздражать клиентов);

  • Контекст часто теряется (почему именно это подозрительно).

Где и как могут помочь LLM?

Большие языковые модели умеют анализировать сложные поведенческие паттерны и объяснять их. Основные преимущества:

  • Понимают поведение клиента как «рассказ», а не просто числовые фичи;

  • Легко находят несоответствия между текущими действиями и историей;

  • Умеют связывать разрозненные данные: устройство, география, история;

  • Генерируют объяснения — за что именно они сочли операцию подозрительной.

В AF сценариях они могут использоваться как:

  • Последний уровень фильтра перед блокировкой;

  • Генератор объяснений для оператора antifraud-группы;

  • Инструмент для анализа сложных кейсов мошенничества в офлайн-режиме.

В AML они особенно сильны:

  • В описании и выявлении сложных схем;

  • В генерации подозрительных паттернов;

  • В анализе связей между компаниями, клиентами, устройствами.

Как это может выглядеть на практике

Рассмотрим процесс в 2-х вариантах.

Офлайн обработка

  1. Еженедельно собираются финансовые и нефинансовые операции клиента: переводы, логины, IP, устройства.

  2. Формируются входные данные для LLM: JSON или «естественное описание».

  3. LLM анализирует поведение и делает вывод: есть ли подозрение.

  4. Результат поступает в AF или AML-отдел с обоснованием.

Пример входа:

Клиент 802923: мужчина, 41 год. Проживает в Тюмени. На протяжении 2 лет совершал операции только через Android из Тюмени. 2 мая 2025: вход в личный кабинет с iOS из Краснодара, перевод на 4.3 млн ₽ на новый счёт, ранее не использовавшийся.

Пример вывода:

Подозрительная активность: несоответствие геолокации, новое устройство, аномально крупная сумма. Вероятна компрометация аккаунта или отмывание средств.

Гибридный режим обработки

  • LLM не используется как блокирующий механизм, а как «советник» для скоринга;

  • Можно использовать малую версию LLM для увеличения скорости;

  • При срабатывании фрод-модели → LLM объясняет, почему операция может быть опасной (для операторов/аналитиков).

Пример кейса:

Клиент X за 3 минуты:

  • вошёл с нового устройства;

  • активировал карту;

  • перевёл 1.2 млн ₽ на частное лицо;

  • отключил SMS-оповещения.

LLM может «пересказать» последовательность событий как потенциальную атаку социальной инженерии и помочь оператору принять решение быстрее.

Сколько это стоит?

Типовой расчёт:

  • GPT-4-turbo: $10/млн input токенов, $30/млн output;

  • один клиент = 1.5K токенов input + 0.5K output ≈ 2K токенов;

  • стоимость ≈ $0.02/клиент;

  • 1 млн клиентов в неделю = ~$20 000.

Если использовать open-source LLM (LLaMA, Mixtral, Phi) на локальных GPU:

  • 5–10x дешевле, но требует значительных первоначальных затрат;

  • требуется инженерная команда и DevOps.

В гибридных сценариях можно использовать сэмплинг, кластеризацию, и другие подходы, чтобы снизить стоимость в онлайне.

Преимущества подхода

  • Глубокий контекстный анализ;

  • Способность находить «связанные» события;

  • Возможность объяснять решения на естественном языке;

  • Меньше ложных срабатываний;

  • Универсальность: работает и для AF, и для AML.

Риски

  • Онлайн-применение требует оптимизации скорости (LLM не всегда быстры);

  • Возможны «галлюцинации» — важно использовать контролируемый промпт и валидацию;

  • Требуется хорошая подготовка и форматирование входа.

Заключение

Сегодняшние языковые модели уже умеют не просто «болтать», а по-настоящему анализировать цепочки, искать смысл, интерпретировать поведение. Они становятся цифровыми аналитиками второго уровня: помощниками сотрудникам СБ, защитниками клиентов и, возможно, самой умной частью антифрод-системы.

В связке с ML, правилами и логикой — они способны поднять уровень защиты на совершенно новую высоту. Особенно в банках, где каждый процент точности — это миллионы на кону.

Tags:
Hubs:
+1
Comments3

Articles