Arseny_Info Jun 8 2015 at 06:51

Как я повышал конверсию машинным обучением

8 min

22K

Data Mining * Python * Machine learning *

+32

Comments 24

drakmail Jun 8 2015 at 07:04

Хех, делали тоже самое, но на ruby :)

Arseny_Info Jun 8 2015 at 07:18

И как результаты? Удалось добиться значительного роста конверсии?

mrThe Jun 8 2015 at 13:52

А с этого момента поподробнее :)
Какие библиотеки использовали? Что есть почитать на тему? Или может отдельную статью напишите? :)

4ikist Jun 10 2015 at 14:05

Присоединяюсь к ожидающим подробности.

neolink Jun 8 2015 at 07:09

А корпус какого размера использовался для обучения?

Arseny_Info Jun 8 2015 at 07:17

Для каждого эксперимента — свой корпус, от 10 до 150 тыс. При этом learning curve достаточная плавная, уже на 10-20 тысячах точность обычно была близка к максимуму.

bak Jun 8 2015 at 07:20

Всё же интересно какой скор по f1 получался. Возможно она будет лучше коррелировать с конверсией?
Бустинг не пробовали? Например, GradientBoostingClassifier — как правило работает лучше обычных деревьев.
Было бы интересно посмотреть на результат с большим количеством факторов.

Arseny_Info Jun 8 2015 at 07:33

Я смотрел на связь matthews_corrcoef (он по сути похож на f1) и конверсию и тоже ничего не нашел.
Бустинг пробовал, в двух из шести экспериментов сейчас именно он и применяется. Ансамблевые методы вообще работают в среднем лучше :)

andrewnester Jun 8 2015 at 07:34

Статья очень интересная, спасибо!
Мне кажется ваша модель имеет 1 очень большой плюс — она более гибкая. Мне кажется, похожую модель можно использовать для таргетированной/контекстной рекламы

barabanus Jun 8 2015 at 08:11

Очень хороший базовый курс по машинному обучение — здесь:
Caltech's Machine Learning Course — CS 156 by Professor Yaser Abu-Mostafa

NetMozg Jun 8 2015 at 08:30

важность хорошего лендинга несколько преувеличена

На другом проекте, другие методы, но вывод по жизни тот же… Такое ощущение, что вокруг темы лендингов специально раздувается ажиотаж, чтобы активнее продавать всевозможные решения по их «оптимизации».

eu-gen Jun 8 2015 at 09:20

Нельзя ли привести результаты рандома, что бы понять насколько «позади» он оказался?
Все ли лендинги были одинаково хорошо оптимизированы под мобильный трафик?

Arseny_Info Jun 8 2015 at 09:23

Рандом в среднем на 30-50% хуже a/b теста.
Оптимизация под мобильный трафик была одинаковой (у одного клиента все хорошо на всех лендингах, у другого — все равномерно плохо).

eu-gen Jun 8 2015 at 10:31

Как по мне — результат неожиданно высок. Там точно нет ошибки в сравнениях с рандомом?
Как я понял, вы browscap использовали? По факту там только одна существенная степень свободы — тип устройства. Может быть еще браузер, если лендинги — онлайн игры. Если б соцдем-информация была, тогда понятно. А так не ясно за счет чего такой прирост.

Arseny_Info Jun 8 2015 at 11:11

Не browscap (проект же на Python), но решение похожее. Есть еще география, utm-метки, время − факторов хватает.

Arristotel Jun 8 2015 at 11:35

Немного не понял, вы сначала тренируете модель прямо предсказывать клик

Y = [1 if click.conversion_time else 0 for click in clicks]

А потом считаете «насколько близка предсказанная вероятность»? Я не очень понимаю что есть «предсказанная вероятность» потому что ясно, что линейная регрессия не вероятность выдает.
Есть мнение что лучше использовать стандартные инструменты, но грамотно оценивать результаты моделирования, для примера порог качества модели установить 99,5%, а не 99%, при 1% положительных значений

Arseny_Info Jun 8 2015 at 11:57

Классификатор может оценивать вероятность того, что клик относится к выбранному классу (сконвертившийся или нет), а не только булев факт. Линейная регрессия тут вообще не при чем, т.к. это задача классификации, а не регрессии.

Допустим, есть клик, который на самом деле сконвертился.
Первый классификатор оценил вероятность clf1.predict_proba(click) = (0.51, 0.49) — т.е. 49%.
Второй классификатор оценил вероятность clf1.predict_proba(click) = (0.95, 0.05) — т.е. 5%.

Если threshold для классификатора будет на уровне 0.5 (т.е. если вероятность выше 0.5, расценивать как успешный клик), оба классификатора ошибутся, но второй ошибется значительно сильнее.

Arristotel Jun 8 2015 at 12:19

Так, а вы ранжируете классификаторы по сумме ошибок? Лучшие те, у которых сумма ошибок наименьшая (первый вариант)?

Arseny_Info Jun 8 2015 at 12:21

Ранжирую не по сумме, а по log_loss, но логика именно такая.

gleb_kudr Jun 8 2015 at 11:48

А есть ли подобный же сервис, но для текстов рекламных кампаний? Ведь тут важна полная связка между источником траффика и сконвертировавшимся пользователем.

Arseny_Info Jun 8 2015 at 11:58

Смотря что подразумевается под «текстами рекламных кампаний» :- ) Все-таки это достаточно широкое понятие.

gleb_kudr Jun 8 2015 at 12:40

Разные объявления для одного продукта дают не только разный CTR, но и разную конверсию. Интересно, можно ли ее увязывать с подсовыванием пользователям разных лендингов.

Arseny_Info Jun 8 2015 at 13:03

В принципе, у меня в одном из тестов была похожая ситуация. Разные объявления содержали разные utm-метки, которые использовались как признак. Но там не было полной связки, т.к. и объявления, и лендинги достаточно общие.

shambho Jun 10 2015 at 00:09

Без предварительной обработки предикторов не обойтись, посмотрите код победителей того же кагла. Навскидку помню, что они отсеивают редкие значения категорийных полей, добавляют искусственные поля с историей кликов, и т.п.