mephistopheies Jul 9 2018 at 14:40

Офлайн А/Б тестирование в ритейле

12 min

23K

Open Data Science corporate blogData Mining*Algorithms*Machine learning*Project management*

+59

Comments 34

AmberSP Jul 9 2018 at 15:36

А потом вместо холодного лета приходит тёплое и чемпионат мира по футболу.

Loki3000 Jul 10 2018 at 09:35

Или пивной лерёк/магазин открылся/закрылся неподалеку.

AmberSP Jul 10 2018 at 09:56

Хорошая разливайка через дорогу может сорвать все продажи, думается мне.

mephistopheies Jul 10 2018 at 10:02

www.nooooooooooooooo.com

G0ohan Jul 9 2018 at 16:40

А что, если они настолько хорошо разложили пиво, что покупатели стали брать его чаще и как следствие — весь сопутствующий товар стали брать чаще? Тогда пик не сместится

mephistopheies Jul 9 2018 at 16:48

если в качестве предикторов использовать только вяленую рыбу и чипсы то да, но если использовать всевозможные категории типа мыла, сахара, масла и так далее, то слабо верится, что пиво повлияет на все

можно придумать гипотетический случай, где пивоварня Х сделала такое пиво на которое спрос выше чем на хлеб, и только один магазин в мире становится его эксклюзивным дистрибьютором, и общее количество посетителей увеличилось в 10 раз, и все они решили за одно, раз уж пришли за пивом, закупить остальными товарами на неделю вперед — то да, но как то слишком много _и_

aenigmatista Jul 9 2018 at 17:23

Навскидку кажется, что в подобных задачах (способы выкладки товара на полки) более уместны технологии Eye Tracking, чем описанные методы.

mephistopheies Jul 9 2018 at 17:24

Eye Tracking для измерения эффекта выкладки? это как?

aenigmatista Jul 9 2018 at 18:22

Интерпретация результатов работы Eye Tracking покажет как размазывается внимание посетителя по витрине при том или ином способе выкладки и при том или ином оформлении окружающего пространства. Дальше, как обычно — итерации подстраивания выкладки под интерпретацию данных eye tracking и наблюдение за результатом. Вероятно, сначала будут некоторые сложности, как с интерпретацией, так и с реализацией сопутствующих технических решений (если, например, захочется сопоставлять конкретную пару глаз с конкретным кассовым чеком). Но, поверхностный взгляд на результат гугления по фразе типа "eye tracking retail store" показывает, что люди пробуют копать в этом направлении. Но, я не специалист, могу ошибаться.

mephistopheies Jul 9 2018 at 18:30

выглядит как какой то косвенный способ измерения, привлечение внимания != прирост денег, и в итоге все равно придется выявлять корреляцию между вниманием и покупками, я же описываю способ прямого измерения эффекта на деньги с каким то статистическим обоснованием

aenigmatista Jul 9 2018 at 18:55

привлечение внимания != прирост денег

Естественно. Но анализируя внимание можно подстраивать выкладку и смотреть на результат.

придется выявлять корреляцию между вниманием и покупками

Придется, конечно, куда без этого. Но, если нет желания внедрять систему сопоставления конкретной пары глаз с конкретным кассовым чеком, то можно обойтись методами попроще.

выглядит как какой то косвенный способ измерения

Как скажете, я не претендую :)
Навскидку кажется, что eye tracking позволит достичь значительно большей точности за значительно меньшее время, чем ваш подход. Повторюсь, я не специалист, но гляньте, на всякий случай, мировой опыт eye tracking в ритейле, может и сгодится на что-то

mephistopheies Jul 9 2018 at 19:08

мне кажется мы говорим о разном

гугл говорит что eye tracking это способ исследования поведения покупателей, что бы понять их потребности и якоря — получается это способ как выдвигать гипотезы о выкладки товаров на полки, например

а пост о том, как измерять эффективность выкладки, т.е. тестировать гипотезы

так?

aenigmatista Jul 9 2018 at 19:53

Да, мой первоначальный комментарий больше относится к методам решения надзадачи "увеличения продаж". Все равно, она состоит из выдвижения и проверки гипотез. Подход к решению надзадачи на основе eye tracking мне кажется более удачным — быстрее, точнее etc.
Тот факт, что статья исключительно об измерении эффективности выкладки, для меня был не очевиден.

mephistopheies Jul 9 2018 at 19:57

я намеренно опустил часть о том как они решали задачу увеличения продаж, ибо там на еще один пост можно рассказывать -) но могу сказать что там метод очень далекий от ай трекинга

Leshyk Jul 9 2018 at 18:34

Спасибо за рассказ, интересно!

Хочется отметить, что помимо указанного вами слабого места (нормально будущих предсказаний), есть ещё встроенная слабая мощность такого теста. Предсказание вероятно очень сильно увеличивает дисперсию. Поэтому как всегда, если нет стат значимости, не значит что нет эффекта. Тут корректнее смотреть, что доверительный интервал ни при каких обстоятельствах не окупается.

Кстати, а почему не считалась напрямую стат. значимость по тройной разности? Сумма нескольких нормальных величин имеет нормальное распределение…

mephistopheies Jul 9 2018 at 19:06

>Предсказание вероятно очень сильно увеличивает дисперсию. Поэтому как всегда, если нет стат значимости, не значит что нет эффекта.

так дисперсию же можно на ретродате посчитать, так же взять пару прошлых месяцев, построить модель на данных перед выбранными месяцами, и построить прогноз на выбранные, и получить дисперсию

в моих экспериментах совпадение было почти идеальным

>Кстати, а почему не считалась напрямую стат. значимость по тройной разности? Сумма нескольких нормальных величин имеет нормальное распределение…

если присмотреться, то получается что предложенный метод это же тоже почти метод тройной разности, только сконвертированный в стат модель

— перавая разность у них для того что бы поймать линейный годичный тренд, по сути это такая константная модель, ее заменяем машинкой, что выявит более сложную динамику нежели просто линия

— вторая разность показывает изменения между началом пилота и концом, в моем случае дневные разницы, а не одна точечная, что дает распределение

— вместо третьей разницы используется тест

Leshyk Jul 9 2018 at 19:32

Да действительно, по тексту не понял, что именно эта дисперсия оценивалась по историческим данным.

Про то, что это почти три разности, это правда, только непонятно, есть ли дополнительная ценность от ML (и её размер) тут. Кстати, по трём разностям не нужно это предположения по поводу ML

mephistopheies Jul 9 2018 at 19:43

>есть ли дополнительная ценность от ML

мл тут решает конкретную проблему: мы не можем провести честный а/б тест из-за физических ограничений пространства, так как бейзлайном для тестовой группы является контрольная группа; модель позволяет сделать опорной точкой (а точнее кривой) для всех магазинов саму эту модель, таким образом все магазины становятся равны, мы можем их группировать как угодно, а затем сравнивать тестовые и контрольные группы

Akogay Jul 9 2018 at 20:20

mephistopheies, подскажите пожалуйста а вы сталкивались хоть раз в жизни с Руководством компаний, которые поняли бы чем Ваш вариант лучше, чем вариант крутой консалтинговой конторы?!

mephistopheies Jul 9 2018 at 20:25

со второго раза повезло больше -)

но стоит отметить что в первой компании я нашел поддержку в лице одного из фин директоров, у него просто была степень по финансам и он помнил статистику, в общем за пол часа он понял разницу; он то и продавил то, что бы этот тест не выкинули

далее можно было бы с ним влезть в политоту внутреннюю и продавливать дальше, но мне лично это было не интересно

phantom_lord Jul 10 2018 at 08:18

Я один что ли в любом магазине ищу определенное пиво, которое люблю, а не беру то, что расставлено по самой мудреной формуле?

mephistopheies Jul 10 2018 at 08:19

в этом и есть задача МЛ в маркетинге, убедить вас примерно в таких мыслях используя все возможные каналы

molec Jul 10 2018 at 09:30

Я не то чтобы специалист в этом, но для меня — очень сомнительная оценка. Вы не приводите ретроданные по точности своей модели, МА, дисперсия. Особенно на тот же период прошлого года. И даже если у вас получилось невероятно точное прогнозирование (ошибка — доли процента), никто не застрахован от случайности. В духе именно сейчас проходящей масштабной акции на сахар-макарошки, существенно снижающей долю других товаров, в т.ч. вашего пиваса. Или масштабной акции у конкурента, или ЧМ по футболу, или…

Плюс ко всему, мы говорим об очень, очень небольшом приросте продаж, единицы процентов после внедрения всех новшеств. Люди не начнут пить пиво в разы больше, если его по-другому выставить.

В общем, я бы проводил тестирование по схеме 3 групп, период — 3 месяца:
1) референс, на котором выкладка старая весь период;
2) тестовая группа 1. 1 месяц новая выкладка, 2 месяца опять старая;
3) тестовая группа 2. 1 месяц старая выкладка, 2 месяц новая, третий — опять старая.
Плюс защитные интервалы между перевыкладками на привыкание клиента. Месяц — понятие здесь условное.

По каждой группе строим усредненное соотношение месяцев между собой, плюс добавляем месяц до старта тестирования. Если акционный месяц и во 2 и в 3 группе магазинов показал лучшие приросты продаж к неакционным, то можно считать, что пилот сработал, дальше считаем насколько. И все равно здесь очень много будет зависеть от равномерности выборки магазинов.

mephistopheies Jul 10 2018 at 09:59

>Вы не приводите ретроданные по точности своей модели
да в посте упустил, но критерием выбора модели является ее эффективность на ретродате естественно

но важно, что точность прогноза не важна, а главное, что бы для каждого магазина случайная ошибка имела одинаковое распределение, мы же строим бейзлайн, а не прогноз продаж

хуже качество прогноза = большая дисперсия ошибки, что выльется в увеличенный тестовый период (см формулу определение достаточного количества наблюдений для t-теста)

> всему, мы говорим об очень, очень небольшом приросте продаж
все так, потому бизнес должен решить какой лифт необходим для принятия решения о внедрении, это может быть 1%, тогда мы с помощью статтеста пытаемся заметить такой прирост

и при очень маленьком лифте и очень большой дисперсии будет очень большой период пилота

>В общем, я бы проводил тестирование по схеме 3 групп, период — 3 месяца:
вот возникают вопросы, почему трех, а не больше? почему 3 месяца, а не 6?

molec Jul 10 2018 at 13:54

Про объемы данных для теста как некая производная из эффекта и качества прогноза — теперь понял вашу методику. 60 магазинодней несколько смущают (мне казалось, что цифра должна быть на порядок выше ввиду особенностей ритейла).

Про 3 месяца я писал — слово месяц здесь условное. 3 достаточно_длинных_периода для оценки. Слишком короткий период наверняка захватит масштабные акции/праздник/etc, вносящие дополнительную дисперсию, убивающую точность прогноза => точность теста. Важно иметь переходы старый-новый-старый и неперекрывающиеся диапазоны для проверки гипотезы.

Кстати, не разбирали, почему тестовые ТТ дали 2 разных результата? Один ушел в плюс, другой в минус, притом ярко выраженные, на итоговом графике распределений 2 горба. Есть ощущение, что все же однородности выборки достичь не удалось, каждый из магазинов со своим «характером».

mephistopheies Jul 10 2018 at 14:07

лифт один из факторов влияющих, чем он меньше, тем больше данных нужно собрать, но если например сказать, что хочу 50% прирост денег, то достаточно будет и недели -)

>Кстати, не разбирали, почему тестовые ТТ дали 2 разных результата?
как одно из объяснений следующее, нам же нужно 60 точек собрать для значимости, но магазинов больше 1, тогда каждый из них в отдельности может и не генерить красивое нормальное распределение, но объединение по идее должно

свой «характер» если явно выражен и если еще и тест на нормальность говорит что не нормальное распределение, то есть смысл поискать объяснение этого характера и добавить как признак в модель

molec Jul 10 2018 at 17:26

Спасибо за обширные комментарии, было интересно :)

Мне как-то по тексту показалось, что было всего 3 ТТ: 1 референсный и 2 тестовых.

mephistopheies Jul 10 2018 at 09:59

del

amarao Jul 10 2018 at 12:09

wow. Я начал лучше думать о ретейл бизнесе. Я думал, что у них там, кроме полутора айтишников на унылой кассовой системе, из персонала — только кассиры да администраторы.

Оказывается, там есть Жизнь. Зря вы, кстати, имя конторы не пишите — статья очень крута для HR-бренда компании.

BJM Jul 10 2018 at 13:01

Статья годная, автор симпатичен, но боюсь, что он наступил на знакомые грабли, если искренне верил в возможность переубедить руководство научными доводами. Принятие решений ими происходит на основе многофакторного анализа, ключевые факторы которого слишком часто имеет весьма слабое отношение к открыто заявляемым целям. Грубо говоря менеджеру(ам) может быть не так важен прирост сегмента пива в точках, как, например, коррупционная составляющая при работе с консалтерами. С камаза золота может и упасть несколько слитков. В общем здравого смысла в решениях может и не прослеживаться напрямую. А если что то идет не так — консалтеры являются отличный способом легально размазать ответственность.

mephistopheies Jul 10 2018 at 13:14

все что вы описали имеет место -) примерно это и написано меж строк

BJM Jul 10 2018 at 13:46

Рад, что на новом месте вам повезло больше :-)

NNikolay Jul 10 2018 at 19:36

Очень хорошая статья. В А/Б тестировании много подводных камней, даже в онлайне — делить по чётности IP адреса это такое… чревато.

Я бы попробовал сделать массовое А/А тестирование на ретроданных двумя методами (Вашим и консалтерским). Тесты дело капризное. А так — кучу раз генерируем сплит на две группы, выбирем случайный интервал, считаем тест. В результате можно оценить долю ложно положительных. Делали Вы что-то подобное? Из опыта — есть шанс такой метод объяснить руководству.

При желании можно и ложно отрицательные (чувствительность теста) примерно оценить. Если исключать известные предикторы из модели, например, кампании, которые шли в части магазинов и смотреть сработал ли твой тест. Но это тоже «такое» — магия%)

mephistopheies Jul 10 2018 at 20:01

не пробовал, но мысль с а/а тестом интересная, возьму на заметку спс