В заметке приведены некоторые актуальные аналитические задачи индустрии. С помощью этого списка вы можете оценить насколько вам может быть интересно учиться на DA/DS, а если у вас уже есть опыт, то обогатите свои знания задачами из фармацевтической отрасли.

В прошлом учебном году я был ментором выпускных проектов на курсах в НИУ ВШЭ. Программы нацелены на подготовку специалистов для решения практических задач анализа данных. По договоренности с компанией Matchflow, которая предоставляет IT-услуги на фармацевтическом рынке и имеет доступ к большому количеству данных о заказах и продажах товаров из ассортимента аптек, я предложил студентам список тем.

Задачи для курса «Специалист по Data Science»

  1. Классификация названий лекарственных средств.

    У компании есть большая база данных с короткими строками (десятки миллионов) - названиями лекарственных средств, того как они записаны в чеках аптек, складских системах, списках поставщиков и т.п. Предположим, что существует фиксированный список классов (десятки тысяч), каждый из которых представляет собой конкретный товар (SKU). Необходимо построить модель, которая будет определять класс по строке-названию лекарства. Для студентов, которые чувствуют себя достаточно уверенно, предлагалось усложнить задачу. Можно расширить списки названий и классов до всего ассортимента аптек, который помимо лекарственных средств часто включает парафармацию, продукты здорового питания и прочее.

  2. Сопоставление названий товаров из ассортимента аптек.

    С точки зрения бизнеса задача может звучать так: есть список товаров аптеки с одной стороны и списки всех поставщиков, готовых работать с этой аптекой с другой. Нужно для каждой строчки из списка аптеки подобрать подходящие товары из списков поставщиков. Если остается время: для моделей с возможностью регулировки соотношения Precision-Recall выбрать оптимальные значения для 2 случаев: полностью автоматического заказа и заказа с последующей валидацией списка заказчиком.

  3. Обнаружение неучтенных классов в задаче сопоставления названий товаров из ассортимента аптек.

    Если для решения задачи сопоставления была выбрана промежуточная классификация, то стоит учитывать, что состав классов постоянно изменяется. Новые товары приходят на рынок, а старые уходят. Если уход старых не сильно влияет на качество, то появление новых драматически его снижает. Нужно найти решение, которое поможет отслеживать появление новых товар��в на рынке.

  4. Предсказание продаж товаров из ассортимента аптек.

    Имея историю продаж товаров аптеки, хотим знать какие продажи будут в следующем периоде по каждому товару в отдельности. Можно использовать дополнительные данные о товарах (их группе, сезонности и т.п.) а также данные других аптек. Сложность задачи в том, что в масштабах одной аптеки далеко не все товары продаются достаточно часто, чтобы сделать уверенный прогноз. Кроме построения/обучения модели нужно объяснить выбранные метрики.

Задачи для курса «Аналитик данных»

  1. Поиск комплиментов и субститутов на основе чековых данных аптек.

    Для каждого препарата хотим получить список замен и допродаж, чтобы показывать эти подсказки фармацевту. Нужно проанализировать чеки (десятки-сотни миллионов) и получить модель построения таких списков.

  2. Построение модели предсказания продаж товаров из ассортимента аптек на коротком обучающем сете.

    В отличие от обычного предсказания продаж, здесь предлагается сделать аналитическую модель предсказания продаж, которую можно использовать для холодного старта - в самом начале сотрудничества с аптекой. Мы по-прежнему хотим знать какие продажи будут у конкретной аптеки в следующем периоде, но у нас пока мало данных, чтобы использовать сложные модели.

  3. Аналитическое uplift-моделирование продвижения товаров из ассортимента аптек.

    Аптеки и производители, заинтересованные в применении маркетинговых активностей (например скидок, акций "2+1"), хотят получить предварительную оценку эффективности таких вложений и оценить результат. Предлагается построить модель оптимизации выбора подходящих товаров и типа активности при заданном бюджете.

Все предложенные задачи практической направленности - это задачи, которые сформулированы самим рынком. Студенты имеют возможность поработать с реальными данными в комфортных условиях при поддержке опытных специалистов. Формулировки могут быть дополнены или изменены по академическим предпочтениям студентов.
Результаты работы нужно представить комиссии в виде текста и презентации для защиты.

Ожидается, что текст работы будет содержать:

  • Введение (описание задачи, актуальность, поставленные задачи, методы и сроки)

  • Обзор материалов

  • Модель и оценка (лучше несколько вариантов)

  • Заключение (что получилось, достигнуты ли цели, перспективы работы и возможные улучшения)

    В сумме 10-20 страниц текста и 5-10 слайдов презентации.

Все мои студенты успешно справились со своими проектами, а самой популярной оказалась классическая задача предсказания продаж.

Если вам интересно научиться решать подобные задачи или сами хотите стать ментором, приходите в Вышку на программу переподготовки.

Если вам интересно посмотреть как эти задачи были решены на практике - приходите работать в Matchflow.