zhannazhanna 9 июл в 13:25

Lamoda Tech Analytics Party: материалы встречи

Простой

2 мин

1.2K

Блог компании Lamoda TechАналитика мобильных приложений*Управление продуктом*Конференции

Репортаж

Комментарии 6

panteleevia 11 июл в 08:13

Коллеги, добрый день. Второй раз пересмотрел встречу, первый раз присутствовал онлайн. И сейчас получше вникнул в материал по ускорению A/B-тестов, задался вопросом: может всё таки таро будем раскладывать?)

Давайте немного абстрагируемся, чтобы понять, что вы пытаетесь сделать.
Есть что-то, что вы пытаетесь улучшить на сайте. На выходе вы ожидаете увидеть увеличение какой-то метрики. В нашем случае, возьмем в качестве примера рекомендательную систему, мы меняем её и ожидаем, что NMV вырастет.

Чтобы проще было понять, давайте представим что у нас датасет из 5 фичей, где 4 - это фичи, а 5 таргет. И вот вы обучили CatBoost. Что такое CatBoost? Это градиентный бустинг деревьев решений. Что такое дерево решений?) Это if else, который выстраивается в момент обучения.

И вот мы запускаем обучение: первые 3 фичи имеют какой-то вес, потому что они используются, а 4 фича (наше нововведение) всегда будет иметь нулевой вес в трейн датасете. Несложно догадаться, что если заглянуть в модельку и как там деревья выстраиваются, мы увидим что блока if else с 4 фичей просто нет. А потом вы закидываете в модель датасет, где мало того что 4 фича не нулевая, так она ещё и оказала (допустим) какое-то влияние на таргет.

В нашем случае, количество фичей и там и там одинаковое, но! Есть фича, которую ввели (нововведение) и которая оказала влияние на таргет и она находится за пределами датасета и модель её никогда не видела. Какова реальная предсказательная сила модели?)

p.s. Кстати, ребят, а где моя сумочка за вопрос Симе?)

lika_shah 11 июл в 15:16

Добрый день!
Мы будем использовать модель и те факторы из нее, на которые влияют продукты ранжирования/рекомендаций и по которым будет валидно сравнивать алгоритмы между собой
Если катится стороннее изменение/нововведение за пределами дата-продуктов (например, меняется способ оплаты/доставки), то именно эту методику применять не будем

panteleevia 11 июл в 22:38

Так любое изменение, в том числе в дата-продукте будет вносить изменение в таргет (гипотетически), только мы не сможем предсказать это). Это же можно легко синтетически доказать. Берём датасет и создаём в ним фичу, где все значения будут нулевые. Делаем PCA этой фичи с таргетом. Учим модель. Получаем скор.
Потом берём этот же датафрейм, только значение фичи ставим на 0.99. Делаем PCA фичи с таргетом. Делаем предикт. Делаем выводы.

А ещё нагляднее будет ставить значение фичи рандомом от -0.99 до 0.99 - т.е. имитировать, что на разных людей новая фича (изменение в старой) повлияла по разному. Т.е. изменили что-то в дата-продукте и получили разный отклик от людей, так ведь и происходит. И модель ничего не сможет предсказать в данном случае, к сожалению. Не потому что она плохая, а просто это данные будут из разных генеральных совокупностей.

Вообще, если уж пошёл разговор об ускорении A/B-тестов почему нельзя воспользоваться базовым решением - просто снизить порог статистической значимости с 0.05 до 0.01 (условно)?

Вообще, идея клёвая, честно. Но вызывает очень много вопросов возможность модели предсказывать что-либо. Тут либо выкатывание новой фичи (или изменение в старых) не повлечёт никакого результата и модель просто выдаст что-то вроде тренда, либо все предсказания модели будут из разряда "может да, а может нет".

vvmax 11 июл в 15:24

Спасибо за интерес и активность на митапе! Сумочка обязательно приедет)

panteleevia 11 июл в 22:39

Всё ок, это скорее шутка была) а так да - приятно было бы иметь что-то с логотипом LaTech)

panteleevia 14 июл в 16:53

сумочку получил, крутая) спасибо)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий