egorborisov Jun 20 2019 at 12:08

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

4 min

7.7K

Python*Data Mining*Geoinformation services*Data visualization*Business Models*

Recovery Mode

+15

Comments 20

sagaan Jun 20 2019 at 13:35

1) Вы исходили из того, что наилучшим местом для открытия филиала будет точка, рядом с которой проживает наибольшее количество потенциальных клиентов. Это, несомненно, лучше, чем выбор места «экспертным методом», но есть одна потенциальная опасность такого подхода.
Ваша точка может оказаться местом, мимо которого никто не ходит. Да, люди могут жить рядом, но их маршруты будут пролегать в других местах.

Например, в районе максимальная плотность проживания потенциальных клиентов может оказаться в стороне от метро или торгового центра, в который эти люди ходят. Или у Вас может быть два компактных жилмассива, разделенных пустырем — не попадет ли модель как раз в этот пустырь?

2) Клиенты клиентам рознь. Пробовали в качестве целевой переменной устанавливать не количество визитов, а размер выручки?

egorborisov Jun 20 2019 at 13:42

1) Да, конечно, модель и все картинки только дают ориентир. А конечное решение остается за менеджментом. Такие факторы как наличие подходящего помещения, транспортная доступность, парковка учитываются, но на другом этапе.

2) Выручка для на складывается из кол-ва визитов и среднего чека на визит. Мы проанализировали оба показателя в разрезах: цена недвижимости, расстояние до отделения, год постройки. Оказалось что все эти факторы почти не влияют на средний чек и среднее кол-во визитов, поэтому мы отталкивались только от кол-ва клиентов.

mdyakovaml Jun 20 2019 at 13:42

Добрый день! А где вы брали информацию о адресах клиентов? Или ваша модель работает только для текущих и не учитывает потенциальных?

egorborisov Jun 20 2019 at 13:44

Добрый день! Клиенты сами называют свои адреса при оформлении. Модель опирается на данные о существующих клиентах и зависимостях которые есть и на этой основе делает прогноз для потенциальных клиентов.

mdyakovaml Jun 20 2019 at 13:52

То есть при расчете предсказания для нового места продаж вы учитываете текущих клиентов в этом районе?

egorborisov Jun 20 2019 at 13:55

При расчете нового места мы считаем только дополнительный эффект для всей сети. Он не включает в себя текущих клиентов, только новых.

mdyakovaml Jun 20 2019 at 14:04

Тогда как вы получаете данные адресов потенциальных клиентов?

egorborisov Jun 20 2019 at 14:10

У нас их нет. Но мы знаем для каждого дома численность жителей и долю текущих клиентов. Выставляя новую точку мы пересчитываем долю клиентов для части домов по модели. После этого пересчитываем кол-во клиентов.

mdyakovaml Jun 20 2019 at 14:37

Спасибо!

gofat Jun 20 2019 at 13:44

Какое качество модели получено?

egorborisov Jun 20 2019 at 13:48

Сразу, поясню что в этом конкретном случае мы больше ориентировались не на показатели качества, а на субъективное восприятие правильности результата. Но для порядка все считали: R^2 был около 0,8. Дополнительно контроль качества делали так: подставляли координаты текущих филиалов и сравнивали предсказание модели с фактическими данными. Расхождение ±10%, что вполне нас устроило.

sshikov Jun 20 2019 at 20:25

А расскажите, как вы координаты получили? У нас была и есть очень похожая задача, и по нашему опыту, если не предпринять специальных больших усилий, типовой процесс геокодирования дает точность в лучшем случае около 75%.

Правда, я вижу некоторые очевидные отличия (поправьте, если ошибаюсь):
— у вас только один город, в нашем случае это была вся Россия, включая мелкие населенные пункты
— 700 тыс это совсем немного. Самая большая наша база была на пару порядков больше.

sagaan Jun 20 2019 at 21:41

У Вас была база на 70 млн чел? Это же все экономически активное население России.

sshikov Jun 20 2019 at 21:44

Где я сказал, что это люди? Это объявления по недвижимости. То есть, это помещения. И там дубли, т.е. объявления — они повторяются время от времени. Уникальных адресов там наверное порядка 15 миллионов, не более.

egorborisov Jun 21 2019 at 09:49

700 тыс. — это объявления о продаже квартир. Мы получили их уже с координатами. Геокодирование требовалось только для клиентов, там меньше записей. Стандартных средств, таких как API Яндекс карт на такой объем достаточно. Даже с ограничением на 25 000 запросов в сутки. А по поводу точности, видимо сказалось что это Санкт-Петербург и адреса заполнены корректно.

sshikov Jun 21 2019 at 20:18

Да, я понял. Была у нас часть таких объявлений тоже. Меньшая, увы.

Насчет Санкт-Петербурга — да, скорее всего, по нашему опыту чем дальше от столичных городов — тем хуже качество геокодирования. Хотя как раз на Санкт-Петербурге у меня тоже сломалось пара инструментов, когда я пытался целиком ФИАС геокодировать — в нем адреса (улицы) были записаны вместе с районом (городом). Ну т.е. такой-то проспект (Петергоф), например. Это напрочь ломает например наш ArcGis с его настройками.

Kbazil Jun 21 2019 at 09:49

1) Учитывалась только гипотеза, что клиенты ходят из дома? Не проверялась ли гипотеза визита пациентов после работы, соответственно применить модель к районам с офисами и предприятиями? Хотя, полагаю, проблема в доступности информации о месте работы от текущих клиентов.

2) Также учитывается ли фактор конкурентов? То есть у района большой потенциал (дорогие новые дома), но там уже много клиник.
Либо же цель анализа — открыть более удобные филиалы для уже имеющихся клиентов?

egorborisov Jun 21 2019 at 09:58

1) Да, вы правы. Есть много других факторов которые влияют на вероятность визита, в том числе место работы. В модели мы их не использовали, потому что таких данных нет. Но есть несколько соображений из которых можно опираться именно на место проживания, как на основной фактор. Пик посещений в течении дня почти во всех отделениях приходится на утро-день. Основная аудитория — это женщины, часто с детьми. То есть можно предположить, что существенная часть аудитории — это неработающие женщины, которым важно именно расстояние от дома.

2) Цель — это и привлечение новой аудитории и удобство для имеющихся клиентов. Но оценку мы делали только по привлеченной новой аудитории. Гипотеза по по поводу конкурентов была, но текущие отделения расположены очень близко с отделениями основных конкурентов. В итоге если добавить этот фактор в модель получается не совсем корректный результат: ближе к конкуренту — лучше. Я попробовал подавать этот фактор в модель в другом виде: как кол-во конкурентов в радиусе, что тоже не дало нужного результата. В итоге этот фактор мы не включали в модель. На картах я сделал отдельный слой с адресами конкурентов.

Tyusha Jan 27 2020 at 13:42

Расскажу смешную историю. Когда-то давно меня приглашали на работу в "***" (крупная сеть спортивных магазинов) под задачу построения вот именно такой модели: требовалось рассчитать выручку магазина, исходя из его местоположения. Речь шла не о конкретном доме, а о локации с точностью до микрорайона. Такая модель была нужна и для поиска мест новых магазинов, и для KPI администрации торговой точки, чтобы сравнивать фактическую выручку с той, «которая должна быть» в этой локации.

Мне показали наработки по модели. Там учитывалась масса факторов. Всё было очень здорово, логично, с интересными идеями. Но результат (предполагаемая выручка магазина) на выходе модели домножалась на некий коэффициент. Когда я спросила: а это что? Мне ответили: этот коэффициент меняется в диапазоне 0,5–2 и называется «известность магазина», его назначает лично директор сети для каждого магазина. :)))

egorborisov Jan 27 2020 at 15:03

Ахаха) У директора широкое поле для выбора. С таким же успехом можно было вообще никого не нанимать.

Show the best of all time