daniilmaibe May 11 at 19:57

Языковые модели против мошенников: как LLM помогают бороться с отмыванием денег и финансовым мошенничеством

Easy

4 min

1.3K

Artificial IntelligenceMachine learning * Finance in IT

Opinion

«Покажи мне данные — и я скажу, где прячется обман»
— современный LLM

С ростом цифровизации банковских услуг злоумышленники становятся всё изощрённее: от схем отмывания денег через фиктивные юрлица — до автоматизированных атак через фишинг, подмену номеров, скимминг и социальная инженерия. Бизнес теряет миллиарды, клиенты — доверие. В этих условиях защитные технологии — уже не просто брандмауэр, а целый арсенал аналитических систем.

Две ключевые линии обороны в банках:

Antifraud (AF): защита от мошенничества (например, кража банковской карты или аккаунта);
Anti-Money Laundering (AML): отслеживание подозрительной активности с точки зрения закона (например, обнал, сплитинг, финансирование терроризма).

И в AF, и в AML накапливается большой объём разрозненной информации: история операций, изменения поведения, связи, типы устройств, нетипичные паттерны.

Именно здесь на сцену выходят большие языковые модели.

Текущие методы AML/AF: как всё устроено сейчас

Большинство банков используют комбинацию следующих компонентов:

Правила (Rule-based):
Статические условия: если сумма > 1 млн и страна — офшор → флаг.
Модели машинного обучения:
Часто применяются градиентный бустинг, случайный лес, логистическая регрессия. Используются фичи: частота переводов, средняя сумма, время суток и т. п.
Графовые методы:
Построение сети связей между клиентами, контрагентами, устройствами.
Статистическая аномалия:
Если клиент совершил 100 операций по 1000 ₽ и вдруг — одна на 10 млн ₽.

Недостатки:

Правила требуют постоянной ручной настройки;
ML-модели могут «глохнуть» на новых сценариях;
AF-модели боятся высокого false positive (чтобы не раздражать клиентов);
Контекст часто теряется (почему именно это подозрительно).

Где и как могут помочь LLM?

Большие языковые модели умеют анализировать сложные поведенческие паттерны и объяснять их. Основные преимущества:

Понимают поведение клиента как «рассказ», а не просто числовые фичи;
Легко находят несоответствия между текущими действиями и историей;
Умеют связывать разрозненные данные: устройство, география, история;
Генерируют объяснения — за что именно они сочли операцию подозрительной.

В AF сценариях они могут использоваться как:

Последний уровень фильтра перед блокировкой;
Генератор объяснений для оператора antifraud-группы;
Инструмент для анализа сложных кейсов мошенничества в офлайн-режиме.

В AML они особенно сильны:

В описании и выявлении сложных схем;
В генерации подозрительных паттернов;
В анализе связей между компаниями, клиентами, устройствами.

Как это может выглядеть на практике

Рассмотрим процесс в 2-х вариантах.

Офлайн обработка

Еженедельно собираются финансовые и нефинансовые операции клиента: переводы, логины, IP, устройства.
Формируются входные данные для LLM: JSON или «естественное описание».
LLM анализирует поведение и делает вывод: есть ли подозрение.
Результат поступает в AF или AML-отдел с обоснованием.

Пример входа:

Клиент 802923: мужчина, 41 год. Проживает в Тюмени. На протяжении 2 лет совершал операции только через Android из Тюмени. 2 мая 2025: вход в личный кабинет с iOS из Краснодара, перевод на 4.3 млн ₽ на новый счёт, ранее не использовавшийся.

Пример вывода:

Подозрительная активность: несоответствие геолокации, новое устройство, аномально крупная сумма. Вероятна компрометация аккаунта или отмывание средств.

Гибридный режим обработки

LLM не используется как блокирующий механизм, а как «советник» для скоринга;
Можно использовать малую версию LLM для увеличения скорости;
При срабатывании фрод-модели → LLM объясняет, почему операция может быть опасной (для операторов/аналитиков).

Пример кейса:

Клиент X за 3 минуты:
вошёл с нового устройства;
активировал карту;
перевёл 1.2 млн ₽ на частное лицо;
отключил SMS-оповещения.

LLM может «пересказать» последовательность событий как потенциальную атаку социальной инженерии и помочь оператору принять решение быстрее.

Сколько это стоит?

Типовой расчёт:

GPT-4-turbo: $10/млн input токенов, $30/млн output;
один клиент = 1.5K токенов input + 0.5K output ≈ 2K токенов;
стоимость ≈ $0.02/клиент;
1 млн клиентов в неделю = ~$20 000.

Если использовать open-source LLM (LLaMA, Mixtral, Phi) на локальных GPU:

5–10x дешевле, но требует значительных первоначальных затрат;
требуется инженерная команда и DevOps.

В гибридных сценариях можно использовать сэмплинг, кластеризацию, и другие подходы, чтобы снизить стоимость в онлайне.

Преимущества подхода

Глубокий контекстный анализ;
Способность находить «связанные» события;
Возможность объяснять решения на естественном языке;
Меньше ложных срабатываний;
Универсальность: работает и для AF, и для AML.

Риски

Онлайн-применение требует оптимизации скорости (LLM не всегда быстры);
Возможны «галлюцинации» — важно использовать контролируемый промпт и валидацию;
Требуется хорошая подготовка и форматирование входа.

Заключение

Сегодняшние языковые модели уже умеют не просто «болтать», а по-настоящему анализировать цепочки, искать смысл, интерпретировать поведение. Они становятся цифровыми аналитиками второго уровня: помощниками сотрудникам СБ, защитниками клиентов и, возможно, самой умной частью антифрод-системы.

В связке с ML, правилами и логикой — они способны поднять уровень защиты на совершенно новую высоту. Особенно в банках, где каждый процент точности — это миллионы на кону.

Hubs: