Pull to refresh
38
0
Евгений @smirnovevgeny

Head of ML Laboratory & Chief Data Scientist

Send message

Побеждаем рутину в Data Science: как перестать быть недопрограммистами и недоисследователями

Level of difficultyMedium
Reading time22 min
Views17K

Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.

Читать далее
Total votes 27: ↑24 and ↓3+22
Comments0

Не принимай оффер в Data Science, пока…

Reading time20 min
Views17K

Переход на мою текущую позицию занял около четырёх месяцев: с мая по сентябрь я проходил HR, будущего руководителя, его команду, руководителя руководителя и руководителя руководителя руководителя. Почти всё это время я задавал вопросы, чтобы понять подходит мне эта позиция или нет. В итоге, когда ответы меня удовлетворили — я согласился на предложение, и сейчас я Head of Machine Learning Laboratory в Альфа-Банке. 

Но мой кейс не такой распространённый — чаще всего собеседования затягиваются «всего» до 5 часов в виде увлекательного квеста проверки хард и софт скиллов. Но и на собеседование ещё надо попасть — ведь отклик на позицию не гарантирует приглашение на интервью или даже формального ответа на заявку, потому что желающих обычно порядка 100 человек на одно место даже с учётом огромного количества предложений от всевозможных работодателей.

Как вы понимаете, нанимающая сторона на рынке вакансий Data Science проводит очень тщательный отбор в свою команду. К сожалению, дата сайентист не может поступать аналогичным образом и прособеседовать своего работодателя, но может задать интересующие его вопросы после интервью и найти много полезной информации самостоятельно в сети. В этой статье расскажу о 10 ключевых вопросах, на которые крайне желательно получить ответ до вашего трудоустройства. Ведь от них будет зависеть не только как вы проведёте несколько часов на собеседовании, но и как скоро будете искать новую работу, когда поймёте, что надо было вопросы всё-таки задавать.

Простым перечислением не ограничусь — попытаюсь донести, почему считаю их крайне важными. Более того, под капотом вы сможете узнать мои ответы на эти вопросы.

Читать далее
Total votes 25: ↑24 and ↓1+23
Comments0

Как улучшить ключевые метрики банка за счет кассовых чеков ОФД?

Reading time8 min
Views4.2K

Плох тот дата сайентист, который не представляет, как будут использоваться его модели в конечных продуктах, как они помогут бизнесу увеличить чистую прибыль, улучшить клиентский опыт или любой другой ключевой показатель в компании. Часто задачи приходят от продуктовых подразделений, но в случае, когда главным компонентом продукта является модель машинного обучения, без экспертного взгляда специалиста не обойтись. В этой статье рассмотрим, как можно принести пользу компании за счет данных кассовых чеков ОФД.

Читать далее
Total votes 8: ↑5 and ↓3+5
Comments7

Классификация кассовых чеков

Reading time6 min
Views8.6K

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments30

Распознавание блюд в кафетерии банка

Reading time10 min
Views7.9K

В кафетерии Альфа-Банка в обеденный час-пик образуются большие очереди. Процесс обслуживания замедляется на линиях раздачи горячих блюд и в кассовой зоне. При помощи современных методов компьютерного зрения можно автоматизировать процесс определения списка блюд на подносе. Решение поможет сократить время, проведенное сотрудниками в кафетерии, и издержки за счет автоматизации ручного труда, а также повысить имидж банка.

Читать далее
Total votes 15: ↑15 and ↓0+15
Comments9

Нейросетевой подход к моделированию карточных транзакций

Reading time7 min
Views17K

Клиент банка может совершить до нескольких тысяч транзакций по дебетовым и кредитным картам за год. Банк же в свою очередь сохраняет всю история пользовательских операций на своей стороне. В итоге образуется огромный объем данных, достаточный для того, чтобы на текущий момент его можно было смело называть модным словом BigData. Дата-сайентисты обожают, когда для решения задачи доступен большой объем информации, так как все методы машинного обучения сводятся к выявлению зависимостей между данными и целевой переменной — чем больше объем данных и богаче признаковое описание, тем более сложные зависимости можно обнаружить за счет увеличения сложности моделей.

Благодаря высокой плотности транзакционной истории становится возможным моделирование множества целевых переменных, в том числе наиболее ценных для банка: выход клиента в дефолт, интерес к кредитным продуктам, доход клиента.

В рамках соревнования Альфа-Баттл 2.0 на boosters.pro участникам предлагалось решить задачу кредитного скоринга, используя только транзакционные данные клиента за предшествующий год. После соревнования была организована песочница, являющаяся копией соревнования, но без ограничения по времени и без денежных призов. Датасет соревнования можно использовать в научных публикациях, дипломных и курсовых работах.

Читать далее
Total votes 18: ↑18 and ↓0+18
Comments2

Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем

Reading time6 min
Views10K

Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимаемся индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.


На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.


alt_text

Читать дальше →
Total votes 59: ↑56 and ↓3+53
Comments6

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity

Specialization

Руководитель Лаборатории машинного обучения
Lead
Machine learning
Deep Learning
Natural language processing
Neural networks