Pull to refresh

Comments 24

Все чудесно, но вы настолько достали своими индивидуальными предложениями, что мы были вынуждены сменить зарплатный банк.
Причём телефонисты очень настойчивые — отказы принимают после объявления своих паспортных данных по телефону, чего, разумеется, делать не стал. Ругался много раз, и тоже решил менять банк, если услышу про чудесные кредиты ещё хоть раз («Мы понизили ставку на 0.5%! Теперь вам стало интересно?»)
Осталось больше вопросов, чем ответов:
1) Модели, работающие в проде, и на новых клиентах, обращаются к тому же datalake, где проверяются гипотезы, или под них отдельная инфраструктура?
2) Как делятся ресурсы (что происходит, если 3 отдела одновременно запустили тяжелые джобы на кластере)?
3) Может ли, образно говоря, помощник младшего аналитика, используя DataResearchPlatform, получить конфиденциальную информацию, которая может помочь конкурентам?
Хм… пока не планировали публиковать руководство по созданию DataLake… Но вопросы правильные!
1. Пока исходим из того, что контур разработки моделей и применения моделей разные. Здесь много причин, но в первую очередь из-за совершенно разного профиля нагрузки и разных SLA для инфраструктуры «продуктивного контура исполнения моделей» и «контура разработки моделей». Ведь модели применяются к потоку новых данных (тут и не нужен DataLake, в общем случае), а разработка ведется на исторических массивах плюс на новых источниках, использование которых может дать (или не дать) эффект. А вот тут уже DataLake нужен в полный рост.
Вполне вероятно, что на горизонте 2-3 лет мы придем к тому, что модели будут поточно обучаться на вновь поступающих данных и историческом массиве в около реальном времени и применение их в этой же среде становится уже логичным продолжением процесса. По крайней мере Digital и стремление быстрее реагировать на потребности клиента логично двигает нас к этому.
2. Используется YARN. С его помощью настраивается распределение ресурсов кластера Hadoop для конкретных процессов (групп процессов).
Мы изначально ориентировались на многопользовательскую среду, помимо YARN-а, выбирали лучшие технологии для оптимальной многопользовательской обработки данных. По результатам нагрузочных тестов наш кластер ориентирован на работу 30 конкурентных пользователей с профилем «разработчик моделей».
3. При создании DataLake предусмотрена и модель защиты данных от несанкционированного доступа. Конфиденциальные данные доступны через систему ролевого доступа, которая в том числе поддерживает RLS (row level security), ведется аудит действий пользователя, выполнена интеграция с Active Directory.
На старте мы потратили очень много времени на отладку системы доступа, которая базируется на kerberos.
Вообще вопрос безопасности – вопрос отдельного большого поста… 
Преимущественно о данных, описывающих взаимодействие клиента и Банка. Для начала мы уложили в Hadoop данные из нашего Хранилища, чтобы аналитики могли экспериментировать со своими моделями на реальных и обновляемых данных. Плюс добавили данные с сайта, с телефонии, в ближайшей перспективе — с банкоматов (логи), и Интернет- банка и т.д.
При следующем звонке вашего менеджера, с предложением потребкредита, я его пошлю на х… Вот такой вот data mining…
да, лучше бы заняться развитием клиент-банка для регионов, в плане упрощения коммунальных и прочих платежей, так нет же — рыбачат…
Значит такие приоритеты у бизнеса банка — заработать на кредитах, а не на комиссии с коммунальных платежей
Пока в стране есть идиоты которые готовы платить 300% годовых(я не про ВТБ, но все же это вполне реально в случае микро кредитов), то банку грех не рыбачить… За такую норму прибыли нормальный капиталист по словам К.Маркса пойдет на любое преступление даже под страхом висилицы.
ВТБ под 19.5% предлагает… и сейчас мы снизили ставку на 0.5%, надо брать. Допустим, впаривают 1.5 ляма… За 10 лет отдашь 3.4 ляма, если строго по графику, за 15 лет — 4.5. Такая вот рыбалка.
Я правильно понимаю, что если оставить воду, то вся машинерия нужна для того, чтобы предсказывать, какое из наименее выгодных для клента предложение можно предоставить, так, чтобы оно все равно было лучше, чем у потенциальных конкурентов?
Вся эта «машинерия» нужна, чтобы найти баланс между интересами Банка и интересами клиента. Вряд ли самая продвинутая математика заставит человека принять невыгодное предложение, поэтому вопрос подбора варианта с максимальной вероятностью удовлетворения интересов обоих участников и есть цель всего упражнения.
Было бы очень интересно увидеть примеры выявленных таким образом неочевидных закономерностей.
P.S. тем кто хочет пожурить банк за звонки, предложения по кредиту и т.д., думаю что стоит рассмотреть вариант написать в банк или на какой-нибудь банки.ру
Думаю, это информация для внутреннего пользования…
Спасибо, обязательно опубликуем интересные факты.
А где хоть чут-чут технических подробностей? Это Хабр или где?
Два года назад была статья от Тинькофф habrahabr.ru/company/tinkoff/blog/259173 там есть что-то техническое. Здесь же упомянуты Oracle BDA и SAS, думаю сколько же оно стоит… И стоит ли оно того?
Чуть выше писал, что Oracle BDA = Оборудование Oracle + дистрибутив Cloudera + единая поддержка ПО и оборудования от Oracle. Можно все собрать самостоятельно и так же самостоятельно решать все вопросы поддержки и модернизации кластера. По стоимости отличия небольшие на самом деле, если смотреть на одинаковый класс оборудования.

Что касается SAS, то тут вопрос стратегии. Можно растить собственную разработку и использовать Python + R и другие open source инструменты. Долго наращивать компетенцию, но получить в итоге собственное уникальное решение. Можно использовать готовые аналитические модули и быстро получать эффект от внедрения за счет переиспользования чужого опыта, в том числе. Оптимум, как обычно, где-то между этими двумя крайностями. Мы ориентируемся на SAS, но при этом не забываем про Python и R. И такой подход в нашем случае себя полностью оправдывает.
В итоге нынешняя версия DataResearchPlatform развернута на 12 узлах BDA объемом до 288 ТБ (в планах ее расширение до 18 узлов до конца года). Платформа работает на основе экосистемы Hadoop, технологий OpenSource и промышленных Enterprise-решений. Она базируется на программно-аппаратном решении Oracle BigData Appliance. Для работы с данными используются аналитические инструменты SAS HPDM, SAS EG, Python, R.

Вот вам чут-чут, чем вы недовольны?
вопрос: если развернут хадуп, какой смысл тратить огромные деньги на Oracle BigData Appliance? просто что бы пользователей с оракла не переобучать?
Oracle BigDataAppliance это всего лишь маркетинговое название программно-аппаратного комплекса, состоящего из серверов и дистрибутива Cloudera Hadoop. Так что «если развернут хадуп» и означает «развернут OracleBigDataAppliance». А пользователи работает всеми теми инструментами, которые входят в поставку Cloudera, либо которые установлены отдельно — будь то Oracle, SAS, Python и т.д.
Сделайте кнопку «не интересует» в банк-клиенте на своих предложениях кредита. Захожу в БК и постоянно всплывает окно о «новом предложении которое может меня заинтересовать». Не интересно. Предложение каждый раз одно и то же.

ВТБ24 молодцы!
Если говорят что "вам одобрен кредит, для получения нужен только паспорт", то на месте окажется что принесите еще 2НДФЛ и кроме указанных в предложении процентов давайте мы вам еще страховку добавим.
Все во благо клиента.

Sign up to leave a comment.