И не просто анализировать, а делать выводы о социально-демографических характеристиках автомобилистов.
Скажем, для решения бизнес-задачи надо знать, где находятся участки дорог с максимальным потоком:
людей, которым нужен кредит
молодых родителей
обеспеченных мужчин от 30 до 40 лет
клиентов одной торговой сети, которых можно привлечь в магазины другой сети
Сложность разработки на стороне телеком-оператора заключается в определении во всем массиве данных именно перемещений автомобилистов и соотнесении данных об их перемещении с картой дорог. Кроме того, для продуктивного использования решения необходимо было получить максимально точные прогнозы при одновременной необходимости получать данные в режиме реального времени.
На рынке уже есть практика натурных исследований
В конкретных точках выставляются наблюдатели, они считают, сколько человек проехали мимо. Методика распространена, потому что она простая и бюджетная.
Основные минусы:
Человеческий фактор. Наблюдение, пожалуй, самый не достоверный способ исследования.
Выводы ограничены тем временем, когда человек стоял на месте и считал машины, обновлять каждый час данные при этом методе исследования невозможно.
Трудности с выделением конкретной целевой аудитории. Наблюдатель посчитает, сколько людей проехали мимо него, но понять их половозрастной состав, уровень дохода при таком подходе не получится.
Технологическое решение big data Tele2 повышает точность измерений благодаря:
Получению азимута и расстояния от мобильного устройства до базовой станции за счет настроек оборудования.
Алгоритмической составляющей, позволяющей получать более точные геокоординаты модельным способом с использованием в качестве эталона gps-координат.
Расчета наиболее вероятного маршрута перемещения по графу автодорог с использованием алгоритмов поиска кратчайших путей на графе. При этом алгоритм оптимизирован с учетом больших объемов данных, поступающих на вход, и необходимости работать в режиме реального времени.
Решение на основе ИИ. Треки
Модельное улучшение треков с использованием информации по Timing Advance (коэффициент служит для компенсации задержки во времени распространения сигнала между мобильными телефонами и базовыми станциями). Это повышает качество измерений.
Снижение сложности задачи. Сама по себе информация обо всех перемещениях людей – колоссальный объем данных. Мы взяли в расчет перемещения с работы домой – это делает путь к решению более легким, при этом сами выводы исследования по-прежнему позволяют закрыть потребность бизнеса.
Расчет наиболее вероятных последовательностей регистраций на базовых станциях при движении из заданной рабочей локации в заданную домашнюю.
Алгоритм привязки треков к графу автодорог
Мы берем ребра нашего графа автодорог в радиусе регистрации 5 км от конкретного трека.
Считаем расстояние Фреше. Определяем меру близости ребер графа автодорог к выбранному треку.
Вычисляем кратчайший путь.
Первый результат мы получили на небольшом количестве треков, он нас устроил. Но это не позволило перейти к анализу всех объемов, даже если брать маршруты движения с работы домой – это 15 миллионов треков.
С какими сложностями мы столкнулись дальше
При распределенном вычислении
Сложности при метчинге ребер с треками. Решение:
Переход на ApacheSedona.
Подбор параметров для репатрицирования датафреймов.
Проработка альтернативного способа метчинга.
Сложности при запуске python функции через spark для распределенного вычисления. Решение:
Выбор между PandasUFD и SparkUFD.
Подбор параметров для репартицирования.
Расчет кратчайшего пути
Проблема: Сложность известных алгоритмов O(N*N), где N – количество вершин графа. При больших графах отработка запроса была долгой.
Решение: Разбивка графа дорог на связанные компоненты. Поиск путей внутри найденных компонент.
Плюс: для части компонент алгоритм рассчитал кратчайшие пути за приемлемое время.
Минус: остались достаточно большие компоненты, которые мы дальше не могли разбить – появлялись неоптимальные маршруты.
Расчет кратчайшего пути для оставшихся компонент. Модельный подход
Нашли кратчайшие пути для ограниченного набора треков
Построили модель. Она оценивает вероятность того, что данный конкретный узел графа автодорог принадлежит именно кратчайшему пути.
Нашли кратчайшие пути для всех треков, используя итеративную процедуру и оставляя на каждом шаге для каждого трека 100 наиболее вероятных вершин графа автодорог.
Модель определения факта принадлежности вершины графа автодорог к кратчайшему пути
Модель обладает точностью 76% Gini, это свидетельствует о высокой точности прогноза.
Значимые факторы:
Удаленность вершины графа автодорог от трека
Количество ребер графа автодорог, входящих в вершину или исходящих из неё
Число ребер графа автодорог, находящихся на фиксированной удаленности от трека
Количество вершин в компоненте, к которой принадлежит анализируемая вершина графа автодорог
В итоге мы получили визуализацию маршрутов движения с работы домой по всей России. Алгоритм, разработанный в Tele2, позволяет находить участки дорог и понимать, какое количество людей проезжает по ним, сегментировать информацию о них. Можно понимать, ездят ли там люди, у которых есть дети, какой уровень дохода, интересы. Исходя из этого понимания, можно решать именно конкретные бизнес задачи.
Примеры использования:
Рекламный бизнес. Нужно понимать, где находится целевая аудитория сообщений, где именно лучше поставить рекламные щиты, чтобы с ней взаимодействовать. Половозрастной состав этого пассажиропотока.
Органы государственной власти. Например, для планирования строительства транспортных развязок с учетом загруженности дорог.
Ретейл. Любой компании в сфере ритейла полезно понимать, каким характеристикам соответствует пассажиропоток рядом с торговыми площадями, какому количеству людей потенциально нужно предложение.
Спасибо за внимание :)