All streams
Search
Write a publication
Pull to refresh
2
0
Виктор Делисов @Eva05

Data Science

Send message

KD+SM Uplift Modeling. Часть 2. T-Learner. Субпопуляции и Дивергенции

Level of difficultyMedium
Reading time12 min
Views951

В предыдущей (вводной) статье мы дали определения и математическое описание базовым понятиям связанным с Uplift моделированием. Рассмотрели принцип работы популярных Uplift моделей и их недостатки, а так же установили, как мы рассчитываем итоговый инкремент \tau, дали определения контрольной Cи тестовой T группам. А так же условились, что же такое воздействиеf на пользователя u_{i}.

Среди проблем с которыми сталкиваются современные Uplif модели, пожалуй, самая серьезная - counterfactual sample pairs problem, рассмотренная так же в предыдущей статье.

Данная статься посвящена как раз нивелированию данной проблемы. Так как мы используем архитектуру KDSM Uplift modeling, то первые две буквы аббревиатуры (KD - Knowledge Distillation) представляют собой название модели, задача которой является создание подмножеств генерального множества, таким образом чтобы минимизировать или же по крайней мери свести к минимуму влияния counterfactual sample pairs problem на результат и точность итоговой модели. Само по себе слово Distillation намекает, что мы будем стремиться стратифицировать множество таким образом, чтобы можно было найти “похожих” друг на друга пользователей u_{i} и u_{j}из C (W=0) и T (W=1) соответственно, объединить их в одно подмножество, чтобы в дальнейшем можно было сделать допущение, что u_{i}и u_{j}представляют из себя уже единого синтетического пользователя u_{k}. Где пользователь u_{i} вместе с его параметрами X_{i}, Y_{i} выполняет роль пользователяu_{k}, с которым мы не взаимодействовали W=0, а пользователь u_{j} вместе с его параметрами X_{j}, Y_{j} выполняет роль пользователя u_{k}, с которым мы провзаимодействовали W=1.

Читать далее

KD+SM Uplift Modeling. Вошли и вышли, приключение на 20 минут

Level of difficultyMedium
Reading time6 min
Views975

В современном интернет-маркетинге уделено довольно мало внимания Uplift моделированию. Cам Uplift не страдает от недостатка внимания со стороны маркетинга, а вот его корректный расчет - да. Как правило, Uplift моделирование представляет собой набор неких эвристик, незамысловатой статистики и различных бизнес-инструментов. В лучшем случае, это относительно современные и простые ML-модели, которые совершают расчеты с большим количество допущений, что влечет за собой некорректные и нестабильные результаты.

Такие решения, как правило объясняются желанием со стороны бизнес‑заказчика или же отдела аналитики сделать продукт «быстро и сердито», без долгого и тяжелого вовлечения во все нюансы и подводные камни Uplift моделирования. Задача действительно непростая, пользователи видят десятки рекламных баннеров, успевают повидать по несколько вариаций дизайна страниц сайта, при всем этом получая электронные письма, либо пуши с предложением скидки на продукцию. Конечно же, при такой «бомбардировке» пользователя довольно трудно понять на частном уровне, какая кампания лучше поспособствовала формированию желания что‑то у Вас купить.

Это цикл статей, посвященный KD+SM Uplift моделированию (Knowledge Distillation and Sample Matching) — относительно новой архитектуре Uplift моделирования, использующей весь современный арсенал ML и DL решений на текущий день. Можно сказать, что KD+SM это даже целый pipeline решений, который состоит из препроцессинга данных, нескольких ML моделей, и нейронных сетей. Модели «общаются» друг с другом, на каждом из этапов обогащают данные новыми синтетическими знаниями и передают уже модифицированные данные дальше по pipeline. Именно поэтому мы уложим всю работу в несколько статей, начиная с вводной статьи и заканчивая прикладным применением KD+SM Uplift на реальных данных.

Читать далее

Information

Rating
Does not participate
Registered
Activity