DS, ML и люди, которые этим занимаются. Взгляд Сбербанка / Comments / Habr

Сбер corporate blog December 29 2016

DS, ML и люди, которые этим занимаются. Взгляд Сбербанка

Через банк проходят сотни миллионов транзакций ежедневно, поэтому на серверах накапливаются большие данные: сведения о самих клиентах, паттерны их покупок, требования в целом. По сути, банки превращаются в IT-компании так, как это произошло с телеком-операторами. Они предоставляют все больше цифровых сервисов и услуг, а собираемые ими данные и извлекаемая из них информация активно используются в создании новых сервисов. Применить эту информацию можно в множестве приложений, от классических задач оптимизации обработки транзакций и кибербезопасности с выявлением мошенничества, вплоть до создания персональных финансовых ассистентов и сверх-таргетированного маркетинга.

+32

Comments 19

token Dec 29 2016 at 22:06

Мы взяли рекуррентную нейронную сеть (RNN), основанную на стихах Пушкина, Лермонтова и немного на Jira-чате самих разработчиков, и обучили систему писать стихи.

А у меня кончился срок действия кредитки и теперь вместо того, чтобы платить обязательный платеж через сбербанк — онлайн, я должен стоять очередь в отделении… Каждому своё как говорится ))

achertok Dec 30 2016 at 01:13

Мы дата-сайнтисты и строим модели, которые постепенно помогают банку становиться более эффективным. В 7 из 8 кейсов было описано как (перечитайте), про последний кейс было прямым текстом сказано, что он развлекательный (потому и стоял последним) — дата-сайнтисты тоже люди. А если Вы думаете, что такой огромный банк, который ещё относительно недавно считался «банком для бабушек» одномоментно превратится в «банк мечты» с идеальным сервисом, то это рассуждение из какой-то другой вселенной. В случае больших организаций это всегда сложный, долгий и часто болезненный процесс. Тем не менее изменения происходят семимильными шагами, что для такой огромной организации — из разряда фантастики. Я как клиент тоже могу быть не вполне доволен каким-то сервисами банка, но я реалист по поводу того, что он может сейчас и оптимист по поводу того, что он сможет через несколько лет при текущих темпах развития. Наша задача — хорошо делать свою работу.

token Dec 30 2016 at 07:18

Простите, за немного резкий стиль высказывания, но я всего лишь в несколько язвительной форме (my bad), попытался высказать своё мнение о том, что может быть стоило бы направить свои усилия на решение действительно важных проблем. Мне к примеру не нужно создавать нейронных сетей, чтобы понять, что сбербанк может уменьшить размер очередей в отделениях, просто заменив часть своих банкоматов на те, что не позволяют делать ничего кроме получения налички.

Leo_Gan Jan 3 2017 at 22:27

Для людей с творческим началом, к которому, надеюсь, относятся и программисты всех мастей, очень важна творческая составляющая работы. В Google идут не только за зарплатами, но еще и за творческой работой. Сбербанк молодец, что позволяет программистам заниматься в том числе и тем, что им нравится. Всем от этого только польза.
Молодцы, что вкладываются не только в банкоматы, но еще и в творческих людей. :)

varagian Dec 29 2016 at 22:20

Спасибо за отличный обзор и интересную подборку задач. Хотелось бы услышать технические подробности. Без них достаточно трудно понять, что реально изображено и происходит в каждом из кейсов.

Case 1.

Сначала определяли некий триггер

Тут не понятен ряд вещей. Мы решаем задачу supervised learning и у нас есть размеченные данные (с порядком)? Откуда берётся и как учится триггер — руками? Или это какое-то абстрактное латентное пространство и его кто-то интерпретировал?

Reinforcement learning

Непонятно, как это технически соотносится с предыдущей моделью. Что будет делать модель по ±? Апдейтить веса, менять метку? AlphaGo использовал эмуляцию и 10^10+ игр для настройки весов RL модели (которая изначально проектировалась как виртуальная), как это сочетается с вашим физическим взаимодействием с пользователями?

Сase 2.

Задача решалась с помощью рекуррентных нейронных сетей. Такой выбор обоснован несколькими факторами.

Только их в статье нет, ничего из написанного не объясняет почему выбор пал именно на рекуррентные нейросети, подробности см. например в моей статье.

Case 4.

Дальнейший анализ осуществлялся с помощью randomforest и логистической регрессии с регуляризацией
Почему и как к этому пришли? Почему не SVM и тд?
Почему t-3 — откуда появилась константа 3?
Но если собственную информацию банка обогатить внешними данными, скажем, из соцсетей и использовать их для ранжирования, то можно дополнительно повысить точность.
Это гипотеза? Можно ли раскрыть как, что и насколько лучше? Целесообразно ли такое расширение модели?

Case 6

Здесь не очень понятно, это задача Graph -> Seq? Дан(ы) граф(ы) и что ищут — подмножество вершин и ребер?

Общий комментарий

Простые вводные примеры бы к такой отличной подборке (на каждый кейс) вообще не помешали бы.

Опечатки в личке.

ternaus Dec 30 2016 at 06:04

Такой неплохой пост, но так отвратительно офрмлен. Читать очень тяжело.

Если кто со СберБанка прочитает этот комментарий, вы не могли бы по пальцам настучать чем-нибудь тяжелым тому, кто оформлял этот пост?

Все эти ядовито зеленые полосы, фотографии в background, которые не движутся при прокрутке, и прочая фигня.

В общем, очень бы хотелось чтобы ваши посты выглядели больше как научная статья и меньше как маркетинговая мукулатура. Все-таки надо знать свою аудиторию.

Хабр не лохи, не надо пытаться развести читателей. Пишите по делу, и читатели оценят.

В общем учитесь у Яндекса и Mail.ru — у них очень достойные посты, которые очень хорошо оформлены.

VaLenOK007 Dec 30 2016 at 10:35

ну хорошее начало же было, по делу, зачем эти лохи и тд?

и правда, авторы, дополните чтиво подробностями и поправьте стиль, очень уж скачет повествование и аляпистости хватает. А так — хорошая тема, интересная) Будет продолжение?

ternaus Dec 30 2016 at 18:23

При трезвом просмотре, да, что-то я не то написал. Лексикон совсем не мой. Очень сильно перед всеми извиняюсь.

Безусловно хотелось зацепить, даже в какой-то степени обидеть автора, чтобы уж наверняка будущие посты о том, как машинное обучение внедряется на практике, что для меня очень интересная тема, читались бы в удовольствие.

В общем, посыл моего комментария выше именно такой, как мне хотелось, но выражения, конечно, надо было выбирать.

Еще раз прошу у всех прощения.

achertok Jan 9 2017 at 18:03

Это наш первый опыт подобного рода — не судите очень строго, к тому же, приходилось собирать статью в невероятно сжатые сроки. Спасибо за отзыв и комментарии, учтём. Продолжение обязательно будет.

Gor40 Dec 30 2016 at 10:35

/ Банк вплотную подошел к проблеме детектирования и последующего прогноза паттернов поведения владельцев карт. Анализируя активность кардхолдеров, мы эти паттерны научились определять.

Как давно вы это делаете? Насколько эффективно?

achertok Jan 9 2017 at 17:53

На уровне «ручных» правил достаточно давно, предиктор паттернов на основе транзакционных данных — относительно недавний проект (ориентировочно с лета 2016 года).

oleg_shishkin Dec 30 2016 at 10:35

Радуют умные слова — но как дело доходит до самых простых банковских операций — тащись в отделение

fpinger Dec 30 2016 at 10:35

Дедушка Мороз.
Поздравляю тебя с наступающим Новым Годом
И прошу построить модель обслуживания банкоматов.
Задача реальная.
Мой ближайший уже два дня пустой. Сейчас перед праздником и далее до числа девятого народ не сможет обналичить свои кровные, а карты не везде принимают.
Спасибо за понимание.

г. Находка.

oleg_shishkin Dec 30 2016 at 11:06

Сожалею — но Вы наверно просто не попадаете в поведенческие паттерны

fpinger Dec 30 2016 at 11:08

как и вся страна за дефаулт городом :)

safinaskar Jan 6 2017 at 01:18

Ваши стихи не имеют ритма. А ведь это самое простое, что может быть в написании стихов компьютером. Потому что как раз стихотворный ритм очень легко поддаётся формальному описанию. В общем, позор. "Не мог он ямба от хорея, как мы не бились, отличить"

nevmenandr Jan 6 2017 at 03:07

На самом деле, нет. Стихотворный ритм не так уж и легко поддаётся формальному описанию.
Он поддавался бы, если бы в реальных стихах всегда выдерживалась формальная схема размера.
Вот строки, которые Вы приводите. Они написаны четырёхстопным ямбом. Значит, с точки зрения формального описания, в них ударения должны падать на каждый чётный слог. Но по факту это не так: ударения из требуемых там стоят только на 2-м, 4-м и 8-м слогах в обеих строках. А как же 6-й слог? Он остаётся безударным, несмотря на схему.
Далее. Ударения в русском языке падают на полнозначные слова и местоимения. Не падают (в основном) на служебные слова. Местоимения — несут ударения. Поэтому мы и считаем, что во второй строке 2-й слог ударный (там местоимение «мы»). Но вот в первой строке тоже есть местоимение, «он», которое занимает 3-й слог. Он должен быть неударным по схеме, но в русской речи ударение несёт.
Ничего простого тут нет.

murzilka Jan 9 2017 at 21:03

А много кто делает как я, снимает нужные суммы в банкомате и оплачивает всё наличкой?

DmitryKo Jan 11 2017 at 20:36

хочу с вами работать. куда постучаться? :)