Как стать автором
Обновить

Комментарии 34

А потом вместо холодного лета приходит тёплое и чемпионат мира по футболу.
Или пивной лерёк/магазин открылся/закрылся неподалеку.
Хорошая разливайка через дорогу может сорвать все продажи, думается мне.

А что, если они настолько хорошо разложили пиво, что покупатели стали брать его чаще и как следствие — весь сопутствующий товар стали брать чаще? Тогда пик не сместится

если в качестве предикторов использовать только вяленую рыбу и чипсы то да, но если использовать всевозможные категории типа мыла, сахара, масла и так далее, то слабо верится, что пиво повлияет на все

можно придумать гипотетический случай, где пивоварня Х сделала такое пиво на которое спрос выше чем на хлеб, и только один магазин в мире становится его эксклюзивным дистрибьютором, и общее количество посетителей увеличилось в 10 раз, и все они решили за одно, раз уж пришли за пивом, закупить остальными товарами на неделю вперед — то да, но как то слишком много _и_

Навскидку кажется, что в подобных задачах (способы выкладки товара на полки) более уместны технологии Eye Tracking, чем описанные методы.

Eye Tracking для измерения эффекта выкладки? это как?

Интерпретация результатов работы Eye Tracking покажет как размазывается внимание посетителя по витрине при том или ином способе выкладки и при том или ином оформлении окружающего пространства. Дальше, как обычно — итерации подстраивания выкладки под интерпретацию данных eye tracking и наблюдение за результатом. Вероятно, сначала будут некоторые сложности, как с интерпретацией, так и с реализацией сопутствующих технических решений (если, например, захочется сопоставлять конкретную пару глаз с конкретным кассовым чеком). Но, поверхностный взгляд на результат гугления по фразе типа "eye tracking retail store" показывает, что люди пробуют копать в этом направлении. Но, я не специалист, могу ошибаться.

выглядит как какой то косвенный способ измерения, привлечение внимания != прирост денег, и в итоге все равно придется выявлять корреляцию между вниманием и покупками, я же описываю способ прямого измерения эффекта на деньги с каким то статистическим обоснованием

привлечение внимания != прирост денег
Естественно. Но анализируя внимание можно подстраивать выкладку и смотреть на результат.

придется выявлять корреляцию между вниманием и покупками
Придется, конечно, куда без этого. Но, если нет желания внедрять систему сопоставления конкретной пары глаз с конкретным кассовым чеком, то можно обойтись методами попроще.

выглядит как какой то косвенный способ измерения
Как скажете, я не претендую :)
Навскидку кажется, что eye tracking позволит достичь значительно большей точности за значительно меньшее время, чем ваш подход. Повторюсь, я не специалист, но гляньте, на всякий случай, мировой опыт eye tracking в ритейле, может и сгодится на что-то
мне кажется мы говорим о разном

гугл говорит что eye tracking это способ исследования поведения покупателей, что бы понять их потребности и якоря — получается это способ как выдвигать гипотезы о выкладки товаров на полки, например

а пост о том, как измерять эффективность выкладки, т.е. тестировать гипотезы

так?

Да, мой первоначальный комментарий больше относится к методам решения надзадачи "увеличения продаж". Все равно, она состоит из выдвижения и проверки гипотез. Подход к решению надзадачи на основе eye tracking мне кажется более удачным — быстрее, точнее etc.
Тот факт, что статья исключительно об измерении эффективности выкладки, для меня был не очевиден.

я намеренно опустил часть о том как они решали задачу увеличения продаж, ибо там на еще один пост можно рассказывать -) но могу сказать что там метод очень далекий от ай трекинга
Спасибо за рассказ, интересно!

Хочется отметить, что помимо указанного вами слабого места (нормально будущих предсказаний), есть ещё встроенная слабая мощность такого теста. Предсказание вероятно очень сильно увеличивает дисперсию. Поэтому как всегда, если нет стат значимости, не значит что нет эффекта. Тут корректнее смотреть, что доверительный интервал ни при каких обстоятельствах не окупается.

Кстати, а почему не считалась напрямую стат. значимость по тройной разности? Сумма нескольких нормальных величин имеет нормальное распределение…
>Предсказание вероятно очень сильно увеличивает дисперсию. Поэтому как всегда, если нет стат значимости, не значит что нет эффекта.

так дисперсию же можно на ретродате посчитать, так же взять пару прошлых месяцев, построить модель на данных перед выбранными месяцами, и построить прогноз на выбранные, и получить дисперсию

в моих экспериментах совпадение было почти идеальным

>Кстати, а почему не считалась напрямую стат. значимость по тройной разности? Сумма нескольких нормальных величин имеет нормальное распределение…

если присмотреться, то получается что предложенный метод это же тоже почти метод тройной разности, только сконвертированный в стат модель

— перавая разность у них для того что бы поймать линейный годичный тренд, по сути это такая константная модель, ее заменяем машинкой, что выявит более сложную динамику нежели просто линия

— вторая разность показывает изменения между началом пилота и концом, в моем случае дневные разницы, а не одна точечная, что дает распределение

— вместо третьей разницы используется тест
Да действительно, по тексту не понял, что именно эта дисперсия оценивалась по историческим данным.

Про то, что это почти три разности, это правда, только непонятно, есть ли дополнительная ценность от ML (и её размер) тут. Кстати, по трём разностям не нужно это предположения по поводу ML
>есть ли дополнительная ценность от ML

мл тут решает конкретную проблему: мы не можем провести честный а/б тест из-за физических ограничений пространства, так как бейзлайном для тестовой группы является контрольная группа; модель позволяет сделать опорной точкой (а точнее кривой) для всех магазинов саму эту модель, таким образом все магазины становятся равны, мы можем их группировать как угодно, а затем сравнивать тестовые и контрольные группы

mephistopheies, подскажите пожалуйста а вы сталкивались хоть раз в жизни с Руководством компаний, которые поняли бы чем Ваш вариант лучше, чем вариант крутой консалтинговой конторы?!

со второго раза повезло больше -)

но стоит отметить что в первой компании я нашел поддержку в лице одного из фин директоров, у него просто была степень по финансам и он помнил статистику, в общем за пол часа он понял разницу; он то и продавил то, что бы этот тест не выкинули

далее можно было бы с ним влезть в политоту внутреннюю и продавливать дальше, но мне лично это было не интересно

Я один что ли в любом магазине ищу определенное пиво, которое люблю, а не беру то, что расставлено по самой мудреной формуле?

в этом и есть задача МЛ в маркетинге, убедить вас примерно в таких мыслях используя все возможные каналы
Я не то чтобы специалист в этом, но для меня — очень сомнительная оценка. Вы не приводите ретроданные по точности своей модели, МА, дисперсия. Особенно на тот же период прошлого года. И даже если у вас получилось невероятно точное прогнозирование (ошибка — доли процента), никто не застрахован от случайности. В духе именно сейчас проходящей масштабной акции на сахар-макарошки, существенно снижающей долю других товаров, в т.ч. вашего пиваса. Или масштабной акции у конкурента, или ЧМ по футболу, или…

Плюс ко всему, мы говорим об очень, очень небольшом приросте продаж, единицы процентов после внедрения всех новшеств. Люди не начнут пить пиво в разы больше, если его по-другому выставить.

В общем, я бы проводил тестирование по схеме 3 групп, период — 3 месяца:
1) референс, на котором выкладка старая весь период;
2) тестовая группа 1. 1 месяц новая выкладка, 2 месяца опять старая;
3) тестовая группа 2. 1 месяц старая выкладка, 2 месяц новая, третий — опять старая.
Плюс защитные интервалы между перевыкладками на привыкание клиента. Месяц — понятие здесь условное.

По каждой группе строим усредненное соотношение месяцев между собой, плюс добавляем месяц до старта тестирования. Если акционный месяц и во 2 и в 3 группе магазинов показал лучшие приросты продаж к неакционным, то можно считать, что пилот сработал, дальше считаем насколько. И все равно здесь очень много будет зависеть от равномерности выборки магазинов.
>Вы не приводите ретроданные по точности своей модели
да в посте упустил, но критерием выбора модели является ее эффективность на ретродате естественно

но важно, что точность прогноза не важна, а главное, что бы для каждого магазина случайная ошибка имела одинаковое распределение, мы же строим бейзлайн, а не прогноз продаж

хуже качество прогноза = большая дисперсия ошибки, что выльется в увеличенный тестовый период (см формулу определение достаточного количества наблюдений для t-теста)

> всему, мы говорим об очень, очень небольшом приросте продаж
все так, потому бизнес должен решить какой лифт необходим для принятия решения о внедрении, это может быть 1%, тогда мы с помощью статтеста пытаемся заметить такой прирост

и при очень маленьком лифте и очень большой дисперсии будет очень большой период пилота

>В общем, я бы проводил тестирование по схеме 3 групп, период — 3 месяца:
вот возникают вопросы, почему трех, а не больше? почему 3 месяца, а не 6?
Про объемы данных для теста как некая производная из эффекта и качества прогноза — теперь понял вашу методику. 60 магазинодней несколько смущают (мне казалось, что цифра должна быть на порядок выше ввиду особенностей ритейла).

Про 3 месяца я писал — слово месяц здесь условное. 3 достаточно_длинных_периода для оценки. Слишком короткий период наверняка захватит масштабные акции/праздник/etc, вносящие дополнительную дисперсию, убивающую точность прогноза => точность теста. Важно иметь переходы старый-новый-старый и неперекрывающиеся диапазоны для проверки гипотезы.

Кстати, не разбирали, почему тестовые ТТ дали 2 разных результата? Один ушел в плюс, другой в минус, притом ярко выраженные, на итоговом графике распределений 2 горба. Есть ощущение, что все же однородности выборки достичь не удалось, каждый из магазинов со своим «характером».

лифт один из факторов влияющих, чем он меньше, тем больше данных нужно собрать, но если например сказать, что хочу 50% прирост денег, то достаточно будет и недели -)

>Кстати, не разбирали, почему тестовые ТТ дали 2 разных результата?
как одно из объяснений следующее, нам же нужно 60 точек собрать для значимости, но магазинов больше 1, тогда каждый из них в отдельности может и не генерить красивое нормальное распределение, но объединение по идее должно

свой «характер» если явно выражен и если еще и тест на нормальность говорит что не нормальное распределение, то есть смысл поискать объяснение этого характера и добавить как признак в модель
Спасибо за обширные комментарии, было интересно :)

Мне как-то по тексту показалось, что было всего 3 ТТ: 1 референсный и 2 тестовых.
wow. Я начал лучше думать о ретейл бизнесе. Я думал, что у них там, кроме полутора айтишников на унылой кассовой системе, из персонала — только кассиры да администраторы.

Оказывается, там есть Жизнь. Зря вы, кстати, имя конторы не пишите — статья очень крута для HR-бренда компании.
Статья годная, автор симпатичен, но боюсь, что он наступил на знакомые грабли, если искренне верил в возможность переубедить руководство научными доводами. Принятие решений ими происходит на основе многофакторного анализа, ключевые факторы которого слишком часто имеет весьма слабое отношение к открыто заявляемым целям. Грубо говоря менеджеру(ам) может быть не так важен прирост сегмента пива в точках, как, например, коррупционная составляющая при работе с консалтерами. С камаза золота может и упасть несколько слитков. В общем здравого смысла в решениях может и не прослеживаться напрямую. А если что то идет не так — консалтеры являются отличный способом легально размазать ответственность.
все что вы описали имеет место -) примерно это и написано меж строк
Рад, что на новом месте вам повезло больше :-)
Очень хорошая статья. В А/Б тестировании много подводных камней, даже в онлайне — делить по чётности IP адреса это такое… чревато.

Я бы попробовал сделать массовое А/А тестирование на ретроданных двумя методами (Вашим и консалтерским). Тесты дело капризное. А так — кучу раз генерируем сплит на две группы, выбирем случайный интервал, считаем тест. В результате можно оценить долю ложно положительных. Делали Вы что-то подобное? Из опыта — есть шанс такой метод объяснить руководству.

При желании можно и ложно отрицательные (чувствительность теста) примерно оценить. Если исключать известные предикторы из модели, например, кампании, которые шли в части магазинов и смотреть сработал ли твой тест. Но это тоже «такое» — магия%)
не пробовал, но мысль с а/а тестом интересная, возьму на заметку спс
Зарегистрируйтесь на Хабре, чтобы оставить комментарий