«Покажи мне данные — и я скажу, где прячется обман»
— современный LLM
С ростом цифровизации банковских услуг злоумышленники становятся всё изощрённее: от схем отмывания денег через фиктивные юрлица — до автоматизированных атак через фишинг, подмену номеров, скимминг и социальная инженерия. Бизнес теряет миллиарды, клиенты — доверие. В этих условиях защитные технологии — уже не просто брандмауэр, а целый арсенал аналитических систем.
Две ключевые линии обороны в банках:
Antifraud (AF): защита от мошенничества (например, кража банковской карты или аккаунта);
Anti-Money Laundering (AML): отслеживание подозрительной активности с точки зрения закона (например, обнал, сплитинг, финансирование терроризма).
И в AF, и в AML накапливается большой объём разрозненной информации: история операций, изменения поведения, связи, типы устройств, нетипичные паттерны.
Именно здесь на сцену выходят большие языковые модели.
Текущие методы AML/AF: как всё устроено сейчас
Большинство банков используют комбинацию следующих компонентов:
Правила (Rule-based):
Статические условия: если сумма > 1 млн и страна — офшор → флаг.Модели машинного обучения:
Часто применяются градиентный бустинг, случайный лес, логистическая регрессия. Используются фичи: частота переводов, средняя сумма, время суток и т. п.Графовые методы:
Построение сети связей между клиентами, контрагентами, устройствами.Статистическая аномалия:
Если клиент совершил 100 операций по 1000 ₽ и вдруг — одна на 10 млн ₽.
Недостатки:
Правила требуют постоянной ручной настройки;
ML-модели могут «глохнуть» на новых сценариях;
AF-модели боятся высокого false positive (чтобы не раздражать клиентов);
Контекст часто теряется (почему именно это подозрительно).
Где и как могут помочь LLM?
Большие языковые модели умеют анализировать сложные поведенческие паттерны и объяснять их. Основные преимущества:
Понимают поведение клиента как «рассказ», а не просто числовые фичи;
Легко находят несоответствия между текущими действиями и историей;
Умеют связывать разрозненные данные: устройство, география, история;
Генерируют объяснения — за что именно они сочли операцию подозрительной.
В AF сценариях они могут использоваться как:
Последний уровень фильтра перед блокировкой;
Генератор объяснений для оператора antifraud-группы;
Инструмент для анализа сложных кейсов мошенничества в офлайн-режиме.
В AML они особенно сильны:
В описании и выявлении сложных схем;
В генерации подозрительных паттернов;
В анализе связей между компаниями, клиентами, устройствами.
Как это может выглядеть на практике
Рассмотрим процесс в 2-х вариантах.
Офлайн обработка
Еженедельно собираются финансовые и нефинансовые операции клиента: переводы, логины, IP, устройства.
Формируются входные данные для LLM: JSON или «естественное описание».
LLM анализирует поведение и делает вывод: есть ли подозрение.
Результат поступает в AF или AML-отдел с обоснованием.
Пример входа:
Клиент 802923: мужчина, 41 год. Проживает в Тюмени. На протяжении 2 лет совершал операции только через Android из Тюмени. 2 мая 2025: вход в личный кабинет с iOS из Краснодара, перевод на 4.3 млн ₽ на новый счёт, ранее не использовавшийся.
Пример вывода:
Подозрительная активность: несоответствие геолокации, новое устройство, аномально крупная сумма. Вероятна компрометация аккаунта или отмывание средств.
Гибридный режим обработки
LLM не используется как блокирующий механизм, а как «советник» для скоринга;
Можно использовать малую версию LLM для увеличения скорости;
При срабатывании фрод-модели → LLM объясняет, почему операция может быть опасной (для операторов/аналитиков).
Пример кейса:
Клиент X за 3 минуты:
вошёл с нового устройства;
активировал карту;
перевёл 1.2 млн ₽ на частное лицо;
отключил SMS-оповещения.
LLM может «пересказать» последовательность событий как потенциальную атаку социальной инженерии и помочь оператору принять решение быстрее.
Сколько это стоит?
Типовой расчёт:
GPT-4-turbo: $10/млн input токенов, $30/млн output;
один клиент = 1.5K токенов input + 0.5K output ≈ 2K токенов;
стоимость ≈ $0.02/клиент;
1 млн клиентов в неделю = ~$20 000.
Если использовать open-source LLM (LLaMA, Mixtral, Phi) на локальных GPU:
5–10x дешевле, но требует значительных первоначальных затрат;
требуется инженерная команда и DevOps.
В гибридных сценариях можно использовать сэмплинг, кластеризацию, и другие подходы, чтобы снизить стоимость в онлайне.
Преимущества подхода
Глубокий контекстный анализ;
Способность находить «связанные» события;
Возможность объяснять решения на естественном языке;
Меньше ложных срабатываний;
Универсальность: работает и для AF, и для AML.
Риски
Онлайн-применение требует оптимизации скорости (LLM не всегда быстры);
Возможны «галлюцинации» — важно использовать контролируемый промпт и валидацию;
Требуется хорошая подготовка и форматирование входа.
Заключение
Сегодняшние языковые модели уже умеют не просто «болтать», а по-настоящему анализировать цепочки, искать смысл, интерпретировать поведение. Они становятся цифровыми аналитиками второго уровня: помощниками сотрудникам СБ, защитниками клиентов и, возможно, самой умной частью антифрод-системы.
В связке с ML, правилами и логикой — они способны поднять уровень защиты на совершенно новую высоту. Особенно в банках, где каждый процент точности — это миллионы на кону.