Выпускник курса Нетологии «Data Science» о своей работе в банковской сфере
В Нетологии направление Data Science появилось в 2016 году. Когда мы только запускались, были опасения: сфера новая, спрос на дата сайентистов у компаний хотя и приличный, но большого потока желающих войти в сферу не было, а еще в сети много бесплатных англоязычных ресурсов для самообучения — поэтому мы рисковали.
Но сегодня в направлении уже 10 курсов по разным специализациям в работе с данными, а количество получивших диплом — более 800. Одного из таких выпускников мы решили расспросить о его работе с данными, о том, как пришел в сферу, как развивает направление Machine Learning в Локо-Банке и каких людей ищет к себе в команду.
Я окончил МГТУ им. Баумана по специальности «Космические летательные аппараты» и разгонные блоки в 2011 году. После этого 7 лет проработал в разных местах аналитиком, разработчиком баз данных и архитектором хранилищ. За это время узнал много об обработке и хранении данных, но в какой-то момент захотел больше погрузиться именно в анализ — понять, что значит все эти цифры, что я храню и обрабатываю.
Я стал искать направления для роста: изучал смежные позиции в IT, смотрел, какой уровень зарплат в сфере и на что больший спрос. Было много статей на Habr и видео на Youtube, в какой-то мере они помогли мне понять суть работы с данными и как мои имеющиеся на тот момент навыки могут пригодиться.
Тогда я познакомился с Data Science (DS) и Machine Learning (ML), но фундаментальной базы не хватало. Область очень широкая и когда смотришь какие-то видео или статьи, получаешь лишь обрывочные знания, но в целом понимания, в чем суть специальности, какие есть направления, методы, инструменты — нет. Это как прочесть толстенный учебник по математике для вузов, но без пояснений и практики применять полученные знания будет тяжело.
Коллега рассказал мне про Нетологию, где была большая очная программа по Data Science, и подобных подходящих предложений на русскоязычном рынке я не встретил. В итоге успешно отучился и защитил дипломную работу по теме «Распознавание изображений с помощью нейронных сетей». Как сейчас помню, это было очень сложно, у меня не было практики решения полноценных задач, при этом очень хотелось сделать не просто учебную работу, а полностью рабочий проект.
Параллельно с учебой старался решать задачи с Kaggle и делать проекты по работе.
А сразу после курса начал искать место, где смог бы полностью заниматься анализом данных, так как совмещать работу архитектора BI-системы и практику в DS сложно.
После ряда собеседований выбрал Локо-Банк и направление DS.
Мне кажется, что Data Science, как некоторый аналог НИИ, нуждается в доверии, терпении и понимании перспектив со стороны руководства.
В Локо-Банке эти перспективы видели — так я стал работать в блоке «Цифровой бизнес», который развивает направление аналитики.
Что аналитики и Data Scientist делают в Локо-Банке
Сейчас в банке есть классический IT-отдел, который отвечает за инфраструктуру и хранение данных, другие подразделения используют эти источники данных и выставляют требования для интеграции новых. Всего в компании с аналитикой работает около 40 сотрудников.
В Локо-Банке автоматизация процессов, анализ данных и построение экономики, основанной на данных, становятся приоритетами компании. Я надеюсь, что на базе информации мы сможем правильнее выстраивать продажи, проводить оценку рисков и всего бизнеса.
В бизнес-подразделении работа с аналитикой разделена на два направления: классическая аналитика — BI, специалисты которой занимаются анализом плановых и фактических показателей компании, готовят отчеты по продажам, остаткам, доходам и расходам и направление ML.
Направление Machine Learning подразумевает создание алгоритмов, которые на основе фактических данных от классических аналитиков делают прогнозы, генерируют новые данные и ищут скрытые зависимости и аномалии. Вот этим отделом я и руковожу.
ML в банке только начинает развиваться. Но у меня есть цель — выстроить систему так, чтобы она помогала бизнесу и позволяла использовать все современные подходы для увеличения доходов и уменьшения расходов. Приходится полностью изменять бизнес-процессы и искать пути внедрения инструментов машинного обучения в существующую IT-архитектуру. С этим бывает сложно, так как архитектура проектировалась не вчера, и часть требований просто не закладывалась в нее.
Например, требования по сбору логов для входа клиентов в мобильный банк. Для классической аналитики они не нужны, поэтому их никогда не собирали и не хранили. Я объяснил, что на основе этих логов мы можем обучить модель делать предсказания по загруженности платформы и увидеть зависимость между использованием мобильного банка и доходностью клиента. И если бы не развитие ML, такой аналитики бы просто не было, потому что никто не занимался бы этим вопросом. Нужен был некий проводник, который объяснил бы, как зачем и почему, дал направления, как выстроить архитектуру, как собирать данные, как строить модели, где их применять.
С помощью внедрения машинного обучения хочется построить культуру работы с данными в банке в целом: их сбор, обработку, а также интеграцию новых источников. Параллельно уже решаем задачи прогнозной аналитики по клиентам, занимаемся их сегментацией, чтобы затем оптимизировать тарифы и увеличить продажи компании.
Также занимаемся финансовым мониторингом, проводим анализ подозрительных клиентов и операций. Сейчас компания тратит огромное количество человеческих и финансовых ресурсов на эту задачу. А мы хотим эти процессы упростить и сделать эффективнее.
Если говорить о том, что уже сделано сейчас, то мы начали сбор и хранение данных, в частности пользовательские логи, о которых я писал выше. Теперь мы храним информацию по истории изменения карточки клиента в ФНС.
В данный момент мы занимаемся разработкой модели по определению негативного поведения клиентов (юрлица и ИП) и уже получили первые неплохие результаты. Score по одной из популярных метрик — 0,86. Из алгоритмов мы используем градиентный бустинг. В ближайшее время планируем добиться стабильности его работы, в том числе путем подключения дополнительных источников. Данная модель должна помочь уменьшить риски компании и оптимизировать затраты на поиск недобросовестных клиентов.
Какие специалисты нужны для направления ML
Команда у нас только формируется, поэтому сейчас я стараюсь брать универсалов. Конечно, человек может быть больше склонен к разработке или, наоборот, к бизнес-анализу, но тем не менее он должен понимать процесс создания решения целиком, понимать свою роль в нем. Это хороший вариант для тех, кто хочет попробовать себя в разных ролях.
Важно, чтобы человек умел решать реальные практические задачи, по крайней мере мог объяснить подход и набор шагов. На собеседованиях я стараюсь давать задачки на логику, ну и спрашиваю общее понимание алгоритмов и техник, без математики.
Так как я сам инженер, то и стараюсь искать в свою команду также людей с инженерным образованием, хотя это не табу. Я знаю примеры, когда люди приходили в профессию и без технического образования.
Создание ML-решения — далеко не тривиальная задача, поэтому недостаточно просто брать все данные, кидать в алгоритм и ждать чуда. Нужно уметь погружаться в предметную область, уметь общаться, спрашивать и слушать, где-то эти навыки могут оказаться даже ценнее технических.
Если говорить более конкретно, сейчас отдел интересуют прежде всего Big Data инженеры. Нейросети и xgboost’ы — это хорошо, но для начала нужно найти специалистов, которые могут собирать корректные, подготовленные данные в большом количестве. Без них никакого машинного обучения не получится. Мне нужны как минимум два человека этого направления. Но в компании к ним много требований: они должны знать ETL-инструменты, SQL и иметь опыт построения витрин и хранилищ данных, а также уметь решать задачи оптимизации.
Также хорошо было бы дополнить штат двумя аналитиками, желательно с опытом в банковской сфере. И хотя Data Science специалисты в приоритете, сфера может быть любая.
Основная проблема рынка — дефицит людей, способных перевести нужды бизнеса в осмысленную ML-задачу, а иногда и предложить какое-то решение проактивно.
Для решения этой проблемы нужно разбираться и в самом бизнесе, и в существующих инструментах, а также иметь хорошие soft-скиллы, чтобы грамотно презентовать решение задачи. А таких найти крайне сложно.
Куда развиваться
Поскольку мы сейчас только внедряем ML в бизнес-компании, нужно выполнить ряд решений, от которых будет зависеть дальнейшее доверие ко всему направлению. Эти решения связаны с обоснованием необходимости существования отдела для бизнеса. Machine Learning сейчас у всех на слуху, поэтому к нему проявляется особый интерес.
После успешного внедрения инструментов ML в рамках моего отдела мы планируем расширять пул задач и штат специалистов на весь банк.
Банк — это, прежде всего, большие потоки данных, большая клиентская база и соответственно огромная ответственность.
С одной стороны, находятся клиенты, которые хотят получить хороший сервис и сохранить свои данные, а с другой — всегда есть люди, желающие получить доступ к хранилищам конфиденциальной информации.
На мой взгляд, при растущей нагрузке и сложности процессов делегирование части обязанностей и функций машинам — единственное возможное условие для стабильного роста компании.
И человек, желающие прийти в направление Machine Learning в банковскую сферу, должен уметь соотносить рабочие задачи по ML с основными целями банка в первую очередь.
Советы тем, кто хочет прийти в сферу Machine Learning
В первую очередь стоит ответить себе на вопрос, чем именно хотите заниматься, а уже после смотреть, что для этого нужно. DS — огромная область для развития, и с одной стороны это хорошо, но с другой — можно очень долго бродить и не прийти к чему-то конкретному.
В начале я бы не рекомендовал погружаться глубоко в математику. Сосредоточьтесь на решении практических задач и инструментах (библиотеках, методах). Мне сильно помог опыт разработки баз, очистки и переработки данных, первичного анализа. В реальной работе именно сбор и подготовка данных занимают большую часть времени, и качественная работа в этом направлении позволит в будущем значительно улучшить качество ML-решений.
Это здорово, что мы живем в такое время, когда любую информацию можно легко найти. В сети много курсов по разным направлениям, сообществ (ODS), периодически проводятся конференции и воркшопы. Но нужно понимать, что ML — это молодая дисциплина, она только формируется и фундаментального подхода к обучению еще нет. Поэтому пути развития нужно выбирать тщательно: изучать разные программы обучения, расставлять для себя правильные акценты. Мне повезло, — я выбрал курс, который оправдал мои требования и ожидания, и привел к развитию огромного и перспективного направления в Локо-Банк.
От редакции
- Митап «Карьера в Data Science для начинающих» — 11 августа, Москва + трансляция
- Профессия «Data Scientist», 10 месяцев обучения от 16 667 р. / месяц
- Курсы «Машинное обучение», «Big Data», «Python для работы с данными»