Как стать автором
Обновить

Чему учат на курсах Data Science? Примеры задач для аналитика на фармрынке

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров10K

В заметке приведены некоторые актуальные аналитические задачи индустрии. С помощью этого списка вы можете оценить насколько вам может быть интересно учиться на DA/DS, а если у вас уже есть опыт, то обогатите свои знания задачами из фармацевтической отрасли.

В прошлом учебном году я был ментором выпускных проектов на курсах в НИУ ВШЭ. Программы нацелены на подготовку специалистов для решения практических задач анализа данных. По договоренности с компанией Matchflow, которая предоставляет IT-услуги на фармацевтическом рынке и имеет доступ к большому количеству данных о заказах и продажах товаров из ассортимента аптек, я предложил студентам список тем.

Задачи для курса «Специалист по Data Science»

  1. Классификация названий лекарственных средств.

    У компании есть большая база данных с короткими строками (десятки миллионов) - названиями лекарственных средств, того как они записаны в чеках аптек, складских системах, списках поставщиков и т.п. Предположим, что существует фиксированный список классов (десятки тысяч), каждый из которых представляет собой конкретный товар (SKU). Необходимо построить модель, которая будет определять класс по строке-названию лекарства. Для студентов, которые чувствуют себя достаточно уверенно, предлагалось усложнить задачу. Можно расширить списки названий и классов до всего ассортимента аптек, который помимо лекарственных средств часто включает парафармацию, продукты здорового питания и прочее.

  2. Сопоставление названий товаров из ассортимента аптек.

    С точки зрения бизнеса задача может звучать так: есть список товаров аптеки с одной стороны и списки всех поставщиков, готовых работать с этой аптекой с другой. Нужно для каждой строчки из списка аптеки подобрать подходящие товары из списков поставщиков. Если остается время: для моделей с возможностью регулировки соотношения Precision-Recall выбрать оптимальные значения для 2 случаев: полностью автоматического заказа и заказа с последующей валидацией списка заказчиком.

  3. Обнаружение неучтенных классов в задаче сопоставления названий товаров из ассортимента аптек.

    Если для решения задачи сопоставления была выбрана промежуточная классификация, то стоит учитывать, что состав классов постоянно изменяется. Новые товары приходят на рынок, а старые уходят. Если уход старых не сильно влияет на качество, то появление новых драматически его снижает. Нужно найти решение, которое поможет отслеживать появление новых товаров на рынке.

  4. Предсказание продаж товаров из ассортимента аптек.

    Имея историю продаж товаров аптеки, хотим знать какие продажи будут в следующем периоде по каждому товару в отдельности. Можно использовать дополнительные данные о товарах (их группе, сезонности и т.п.) а также данные других аптек. Сложность задачи в том, что в масштабах одной аптеки далеко не все товары продаются достаточно часто, чтобы сделать уверенный прогноз. Кроме построения/обучения модели нужно объяснить выбранные метрики.

Задачи для курса «Аналитик данных»

  1. Поиск комплиментов и субститутов на основе чековых данных аптек.

    Для каждого препарата хотим получить список замен и допродаж, чтобы показывать эти подсказки фармацевту. Нужно проанализировать чеки (десятки-сотни миллионов) и получить модель построения таких списков.

  2. Построение модели предсказания продаж товаров из ассортимента аптек на коротком обучающем сете.

    В отличие от обычного предсказания продаж, здесь предлагается сделать аналитическую модель предсказания продаж, которую можно использовать для холодного старта - в самом начале сотрудничества с аптекой. Мы по-прежнему хотим знать какие продажи будут у конкретной аптеки в следующем периоде, но у нас пока мало данных, чтобы использовать сложные модели.

  3. Аналитическое uplift-моделирование продвижения товаров из ассортимента аптек.

    Аптеки и производители, заинтересованные в применении маркетинговых активностей (например скидок, акций "2+1"), хотят получить предварительную оценку эффективности таких вложений и оценить результат. Предлагается построить модель оптимизации выбора подходящих товаров и типа активности при заданном бюджете.

Все предложенные задачи практической направленности - это задачи, которые сформулированы самим рынком. Студенты имеют возможность поработать с реальными данными в комфортных условиях при поддержке опытных специалистов. Формулировки могут быть дополнены или изменены по академическим предпочтениям студентов.
Результаты работы нужно представить комиссии в виде текста и презентации для защиты.

Ожидается, что текст работы будет содержать:

  • Введение (описание задачи, актуальность, поставленные задачи, методы и сроки)

  • Обзор материалов

  • Модель и оценка (лучше несколько вариантов)

  • Заключение (что получилось, достигнуты ли цели, перспективы работы и возможные улучшения)

    В сумме 10-20 страниц текста и 5-10 слайдов презентации.

Все мои студенты успешно справились со своими проектами, а самой популярной оказалась классическая задача предсказания продаж.

Если вам интересно научиться решать подобные задачи или сами хотите стать ментором, приходите в Вышку на программу переподготовки.

Если вам интересно посмотреть как эти задачи были решены на практике - приходите работать в Matchflow.

Теги:
Хабы:
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань