Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания города, отрасли, предыдущего опыта.
В статье я расскажу о том, как аналитика может помочь в принятии таких решений. Как собрать информацию о населении, ценах на недвижимость и сделать интерактивные визуализации. Зависит ли кол-во клиентов от расстояния до филиала, года постройки дома, стоимости недвижимости.
Население города с точностью до дома
репозиторий с кодом для построения карты
Для оценки населения дома мы использовали данные реформы ЖКХ. На этом портале можно получить информацию по каждому дому: год постройки, жилая площадь, кол-во жилых помещений. Оценка населения каждого дома базировалась на кол-ве квартир и общей жилой площади: в среднем около 3-х человек на квартиру с небольшими отличиями для некоторых домов и муниципальных округов.
Выше представлена тепловая карта с плотностью населения по СПб. Наша карта для внутреннего пользования содержит еще отдельный слой с плотностью проживания клиентов. Так удобнее искать белые пятна — места с низким покрытием.
Адреса клиентов
Благодаря специфики бизнеса у нас в базе данных были адреса почти по всем клиентам. Нужно было только найти географические координаты для каждого адреса: геокодирование или геокодинг. Для получения координат я использовал пакет geocoder для python. В процессе геокодирования возникли следующие проблемы:
- Некоторые адреса указаны неверно, например, перепутан корпус или литера. В этой ситуации геокодинг может “поселить” клиента в детский сад или административное здание. Для таких случаев пришлось написать процесс, который менял координаты на ближайший жилой дом в пределах 200 м.
- Точки с аномально высоким кол-вом клиентов: центр города, середина большой улицы, середина района. Такие координаты получались при некорректно заполненном адресе и могли исказить общую картину, поэтому перед моделированием удалялись
В итоге, мы получили точные координаты дома для 93% клиентов. Теперь можно построить такую карту:
На карту для части Санкт-Петербурга нанесены случайные данные.
репозиторий с кодом для построения карты
Такая карта оказалась удобным инструментом для проверки гипотез. Например, у бизнеса была гипотеза о том, что в некоторых типах домов (советская массовая застройка: корабли, 504 серия, хрущевки и т.д.) не будет наших клиентов. Оказалось, это не совсем так. Да, доля клиентов от населения в таких домах низкая. Но их нужно учитывать так как в городе таких домов очень много и в итоге они обеспечивают до 20% клиентского потока.
Границы муниципальных округов
Можно перегруппировать данные о населении и клиентах из предыдущего раздела по муниципальным округам и нанести на карту. Если добавить инфоокна и кастомизированную окраску, получается очень информативно. На хабре уже есть отличная статья, где по шагам показано, как строить такие карты.
Стоимость недвижимости
Определение цен на недвижимость оказалось непростой задачей. На первом этапе удалось получить все объявления о продаже недвижимости с начала 2018 года — это около 700 тыс. записей.
Для каждого дома стоимость квадратного метра рассчитывалась как медиана по объявлениям. Для 20% домов без объявлений мы оценили стоимость кв. м. с помощью модели. Основной фактор – это цена за кв. м 15 ближайших домов. При этом больший вес получили дома со схожими характеристиками: год постройки, кол-во жильцов, тип проекта. Средняя ошибка модели на тестовом наборе составила 9,5%, что вполне приемлемо для нашего исследования. Особенно, если учесть, что даже в одном доме стоимость кв. м. может сильно разниться: этаж, ремонт, площадь и др. факторы.
Расстояние от дома до филиала
На графике для 4-х отделений видна зависимость доли клиентов в доме от расстояния до отделения. По некоторым филиалам есть сильные скачки, что наталкивает на мысль о влиянии других факторов (возраст дома, цена недвижимости).
Возраст дома
Интересной является зависимость между годом постройки дома и долей клиентов.
Для дальнейшего моделирования возраст дома был разбит на 5 осмысленных категорий:
Период | Описание |
---|---|
1700-1960 | Старый фонд и сталинки |
1960-1990 | Период массовой советской застройки |
1990-2000 | Точечная застройка в старых кварталах, много кирпичных домов |
2000-2010 | Период экономического подъема. Строится много жилья в хороших локациях |
2010-2018 | массовая застройка в менее удачно расположенных и отдаленных районах |
Цена за кв. м.
Цена коррелирует с долей клиентов. Но зависимость слабее, чем между долей клиентов и возрастом дома. Возможно, причина в том, что возраст дома коррелирует с возрастом жильцов. А возраст человека сильно влияет на частоту обращений за медицинскими услугами.
Описание модели
В дальнейшем этот анализ развился в полноценную модель, где на входе подаются координаты, а на выходе получается кол-во визитов от новых клиентов. Статья получилась объемная, поэтому расскажу про модель кратко.
Для простоты интерпретации результатов в качестве модели выбрана линейная регрессия. Целевая переменная — доля клиентов в доме, факторы: логарифм расстояния до ближайшего отделения, стоимость жилья, год постройки дома. Все три фактора оказались значимыми и вошли в модель.
Подставляя в такую модель новые координаты (то есть меняя фактор расстояние до ближайшего отделения), на выходе мы получаем новое кол-во клиентов для всей сети. Если вычесть из этого числа кол-во клиентов, которое было до этого, мы получим чистый эффект.
Такая постановка задачи удобна тем, что новые локации выбираются с учетом расположения текущих филиалов. То есть не нужно дополнительно учитывать фактор “каннибализации” между разными отделениями.
Поиск оптимальных точек для всего города производился простым перебором координат через каждые 500 м. Для расчета эффекта от открытия нескольких отделений, точки выставлялись последовательно.
Результаты
Нам удалось заменить настенную карту, на которой вручную рисовали границы округов и что-то считали на удобные интерактивные карты. Избавить сотрудников от ручного исправления и сопоставления с муниципальными округами тысяч адресов. Обогатить данные и перейти с уровня муниципального округа до каждого дома.
Получилось выявить несколько очень перспективных и неочевидных локаций для размещения. Построить модель, которая автоматически и беспристрастно сравнивает различные точки.
Интересные результаты получились при разделении направлений бизнеса на “геозависимые” и “геонезависимые”. Первые должны входить в состав новых филиалов, вторые можно развивать в рамках текущих локаций. (в статье не представлено).