Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.
Head of ML Laboratory & Chief Data Scientist
Не принимай оффер в Data Science, пока…
Переход на мою текущую позицию занял около четырёх месяцев: с мая по сентябрь я проходил HR, будущего руководителя, его команду, руководителя руководителя и руководителя руководителя руководителя. Почти всё это время я задавал вопросы, чтобы понять подходит мне эта позиция или нет. В итоге, когда ответы меня удовлетворили — я согласился на предложение, и сейчас я Head of Machine Learning Laboratory в Альфа-Банке.
Но мой кейс не такой распространённый — чаще всего собеседования затягиваются «всего» до 5 часов в виде увлекательного квеста проверки хард и софт скиллов. Но и на собеседование ещё надо попасть — ведь отклик на позицию не гарантирует приглашение на интервью или даже формального ответа на заявку, потому что желающих обычно порядка 100 человек на одно место даже с учётом огромного количества предложений от всевозможных работодателей.
Как вы понимаете, нанимающая сторона на рынке вакансий Data Science проводит очень тщательный отбор в свою команду. К сожалению, дата сайентист не может поступать аналогичным образом и прособеседовать своего работодателя, но может задать интересующие его вопросы после интервью и найти много полезной информации самостоятельно в сети. В этой статье расскажу о 10 ключевых вопросах, на которые крайне желательно получить ответ до вашего трудоустройства. Ведь от них будет зависеть не только как вы проведёте несколько часов на собеседовании, но и как скоро будете искать новую работу, когда поймёте, что надо было вопросы всё-таки задавать.
Простым перечислением не ограничусь — попытаюсь донести, почему считаю их крайне важными. Более того, под капотом вы сможете узнать мои ответы на эти вопросы.
Как улучшить ключевые метрики банка за счет кассовых чеков ОФД?
Плох тот дата сайентист, который не представляет, как будут использоваться его модели в конечных продуктах, как они помогут бизнесу увеличить чистую прибыль, улучшить клиентский опыт или любой другой ключевой показатель в компании. Часто задачи приходят от продуктовых подразделений, но в случае, когда главным компонентом продукта является модель машинного обучения, без экспертного взгляда специалиста не обойтись. В этой статье рассмотрим, как можно принести пользу компании за счет данных кассовых чеков ОФД.
Классификация кассовых чеков
Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.
В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.
Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.
Распознавание блюд в кафетерии банка
В кафетерии Альфа-Банка в обеденный час-пик образуются большие очереди. Процесс обслуживания замедляется на линиях раздачи горячих блюд и в кассовой зоне. При помощи современных методов компьютерного зрения можно автоматизировать процесс определения списка блюд на подносе. Решение поможет сократить время, проведенное сотрудниками в кафетерии, и издержки за счет автоматизации ручного труда, а также повысить имидж банка.
Нейросетевой подход к моделированию карточных транзакций
Клиент банка может совершить до нескольких тысяч транзакций по дебетовым и кредитным картам за год. Банк же в свою очередь сохраняет всю история пользовательских операций на своей стороне. В итоге образуется огромный объем данных, достаточный для того, чтобы на текущий момент его можно было смело называть модным словом BigData. Дата-сайентисты обожают, когда для решения задачи доступен большой объем информации, так как все методы машинного обучения сводятся к выявлению зависимостей между данными и целевой переменной — чем больше объем данных и богаче признаковое описание, тем более сложные зависимости можно обнаружить за счет увеличения сложности моделей.
Благодаря высокой плотности транзакционной истории становится возможным моделирование множества целевых переменных, в том числе наиболее ценных для банка: выход клиента в дефолт, интерес к кредитным продуктам, доход клиента.
В рамках соревнования Альфа-Баттл 2.0 на boosters.pro участникам предлагалось решить задачу кредитного скоринга, используя только транзакционные данные клиента за предшествующий год. После соревнования была организована песочница, являющаяся копией соревнования, но без ограничения по времени и без денежных призов. Датасет соревнования можно использовать в научных публикациях, дипломных и курсовых работах.
Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем
Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимаемся индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.
На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Works in
- Registered
- Activity