tashanov Aug 24 2017 at 18:14

Ловись, рыбка: как использовать «озеро данных» в банке. Опыт ВТБ

3 min

7.6K

ВТБ corporate blogIT Infrastructure*

+16

Comments 24

alid Aug 24 2017 at 21:53

Все чудесно, но вы настолько достали своими индивидуальными предложениями, что мы были вынуждены сменить зарплатный банк.

ultrashot Aug 25 2017 at 15:39

Причём телефонисты очень настойчивые — отказы принимают после объявления своих паспортных данных по телефону, чего, разумеется, делать не стал. Ругался много раз, и тоже решил менять банк, если услышу про чудесные кредиты ещё хоть раз («Мы понизили ставку на 0.5%! Теперь вам стало интересно?»)

algotrader2013 Aug 24 2017 at 22:39

Осталось больше вопросов, чем ответов:
1) Модели, работающие в проде, и на новых клиентах, обращаются к тому же datalake, где проверяются гипотезы, или под них отдельная инфраструктура?
2) Как делятся ресурсы (что происходит, если 3 отдела одновременно запустили тяжелые джобы на кластере)?
3) Может ли, образно говоря, помощник младшего аналитика, используя DataResearchPlatform, получить конфиденциальную информацию, которая может помочь конкурентам?

Grzhimek Aug 28 2017 at 11:27

Хм… пока не планировали публиковать руководство по созданию DataLake… Но вопросы правильные!
1. Пока исходим из того, что контур разработки моделей и применения моделей разные. Здесь много причин, но в первую очередь из-за совершенно разного профиля нагрузки и разных SLA для инфраструктуры «продуктивного контура исполнения моделей» и «контура разработки моделей». Ведь модели применяются к потоку новых данных (тут и не нужен DataLake, в общем случае), а разработка ведется на исторических массивах плюс на новых источниках, использование которых может дать (или не дать) эффект. А вот тут уже DataLake нужен в полный рост.
Вполне вероятно, что на горизонте 2-3 лет мы придем к тому, что модели будут поточно обучаться на вновь поступающих данных и историческом массиве в около реальном времени и применение их в этой же среде становится уже логичным продолжением процесса. По крайней мере Digital и стремление быстрее реагировать на потребности клиента логично двигает нас к этому.
2. Используется YARN. С его помощью настраивается распределение ресурсов кластера Hadoop для конкретных процессов (групп процессов).
Мы изначально ориентировались на многопользовательскую среду, помимо YARN-а, выбирали лучшие технологии для оптимальной многопользовательской обработки данных. По результатам нагрузочных тестов наш кластер ориентирован на работу 30 конкурентных пользователей с профилем «разработчик моделей».
3. При создании DataLake предусмотрена и модель защиты данных от несанкционированного доступа. Конфиденциальные данные доступны через систему ролевого доступа, которая в том числе поддерживает RLS (row level security), ведется аудит действий пользователя, выполнена интеграция с Active Directory.
На старте мы потратили очень много времени на отладку системы доступа, которая базируется на kerberos.
Вообще вопрос безопасности – вопрос отдельного большого поста… 

kolabaister Aug 24 2017 at 22:48

А о каких данных идет речь?

Grzhimek Aug 28 2017 at 11:52

Преимущественно о данных, описывающих взаимодействие клиента и Банка. Для начала мы уложили в Hadoop данные из нашего Хранилища, чтобы аналитики могли экспериментировать со своими моделями на реальных и обновляемых данных. Плюс добавили данные с сайта, с телефонии, в ближайшей перспективе — с банкоматов (логи), и Интернет- банка и т.д.

kxl Aug 24 2017 at 23:26

При следующем звонке вашего менеджера, с предложением потребкредита, я его пошлю на х… Вот такой вот data mining…

kxl Aug 24 2017 at 23:33

да, лучше бы заняться развитием клиент-банка для регионов, в плане упрощения коммунальных и прочих платежей, так нет же — рыбачат…

slutsker Aug 25 2017 at 05:16

Значит такие приоритеты у бизнеса банка — заработать на кредитах, а не на комиссии с коммунальных платежей

MAXHO Aug 25 2017 at 07:34

Пока в стране есть идиоты которые готовы платить 300% годовых(я не про ВТБ, но все же это вполне реально в случае микро кредитов), то банку грех не рыбачить… За такую норму прибыли нормальный капиталист по словам К.Маркса пойдет на любое преступление даже под страхом висилицы.

kxl Aug 25 2017 at 10:42

ВТБ под 19.5% предлагает… и сейчас мы снизили ставку на 0.5%, надо брать. Допустим, впаривают 1.5 ляма… За 10 лет отдашь 3.4 ляма, если строго по графику, за 15 лет — 4.5. Такая вот рыбалка.

sic Aug 25 2017 at 04:06

Я правильно понимаю, что если оставить воду, то вся машинерия нужна для того, чтобы предсказывать, какое из наименее выгодных для клента предложение можно предоставить, так, чтобы оно все равно было лучше, чем у потенциальных конкурентов?

Grzhimek Aug 28 2017 at 11:20

Вся эта «машинерия» нужна, чтобы найти баланс между интересами Банка и интересами клиента. Вряд ли самая продвинутая математика заставит человека принять невыгодное предложение, поэтому вопрос подбора варианта с максимальной вероятностью удовлетворения интересов обоих участников и есть цель всего упражнения.

slutsker Aug 25 2017 at 05:13

Было бы очень интересно увидеть примеры выявленных таким образом неочевидных закономерностей.
P.S. тем кто хочет пожурить банк за звонки, предложения по кредиту и т.д., думаю что стоит рассмотреть вариант написать в банк или на какой-нибудь банки.ру

kxl Aug 25 2017 at 10:44

Думаю, это информация для внутреннего пользования…

Grzhimek Aug 28 2017 at 11:28

Спасибо, обязательно опубликуем интересные факты.

antonydevanchi Aug 25 2017 at 07:20

А где хоть чут-чут технических подробностей? Это Хабр или где?

kxl Aug 25 2017 at 10:58

Два года назад была статья от Тинькофф habrahabr.ru/company/tinkoff/blog/259173 там есть что-то техническое. Здесь же упомянуты Oracle BDA и SAS, думаю сколько же оно стоит… И стоит ли оно того?

Grzhimek Aug 28 2017 at 11:41

Чуть выше писал, что Oracle BDA = Оборудование Oracle + дистрибутив Cloudera + единая поддержка ПО и оборудования от Oracle. Можно все собрать самостоятельно и так же самостоятельно решать все вопросы поддержки и модернизации кластера. По стоимости отличия небольшие на самом деле, если смотреть на одинаковый класс оборудования.

Что касается SAS, то тут вопрос стратегии. Можно растить собственную разработку и использовать Python + R и другие open source инструменты. Долго наращивать компетенцию, но получить в итоге собственное уникальное решение. Можно использовать готовые аналитические модули и быстро получать эффект от внедрения за счет переиспользования чужого опыта, в том числе. Оптимум, как обычно, где-то между этими двумя крайностями. Мы ориентируемся на SAS, но при этом не забываем про Python и R. И такой подход в нашем случае себя полностью оправдывает.

Eldhenn Aug 25 2017 at 11:12

В итоге нынешняя версия DataResearchPlatform развернута на 12 узлах BDA объемом до 288 ТБ (в планах ее расширение до 18 узлов до конца года). Платформа работает на основе экосистемы Hadoop, технологий OpenSource и промышленных Enterprise-решений. Она базируется на программно-аппаратном решении Oracle BigData Appliance. Для работы с данными используются аналитические инструменты SAS HPDM, SAS EG, Python, R.

Вот вам чут-чут, чем вы недовольны?

Yo1 Aug 25 2017 at 12:27

вопрос: если развернут хадуп, какой смысл тратить огромные деньги на Oracle BigData Appliance? просто что бы пользователей с оракла не переобучать?

Grzhimek Aug 25 2017 at 22:30

Oracle BigDataAppliance это всего лишь маркетинговое название программно-аппаратного комплекса, состоящего из серверов и дистрибутива Cloudera Hadoop. Так что «если развернут хадуп» и означает «развернут OracleBigDataAppliance». А пользователи работает всеми теми инструментами, которые входят в поставку Cloudera, либо которые установлены отдельно — будь то Oracle, SAS, Python и т.д.

Filex Aug 25 2017 at 15:21

Сделайте кнопку «не интересует» в банк-клиенте на своих предложениях кредита. Захожу в БК и постоянно всплывает окно о «новом предложении которое может меня заинтересовать». Не интересно. Предложение каждый раз одно и то же.

cmdx Aug 25 2017 at 15:21

ВТБ24 молодцы!
Если говорят что "вам одобрен кредит, для получения нужен только паспорт", то на месте окажется что принесите еще 2НДФЛ и кроме указанных в предложении процентов давайте мы вам еще страховку добавим.
Все во благо клиента.