Каршеринг, несмотря на свою молодость, — одно из самых активно развивающихся направлений в автобизнесе России. С момента запуска первой компании прошло 5 лет, и сегодня на рынке работают более 25 операторов, специализирующихся на краткосрочной аренде. С развитием каршеринга накапливаются данные о пользователях, и вот уже у каршеринга, как у банков, появляется некая система скоринга клиентов. Она также опирается на возраст, пол, стаж вождения, однако здесь рассматривается не история ваших кредитов, а история поездок. Одной из целей такого скоринга, помимо платежеспособности, валидации водительского удостоверения, штрафов, является предсказание вероятности ДТП для конкретного водителя.



В этой статье мы разберем логику работы алгоритмов скоринга пользователей каршеринга, которые будут опираться только на возраст и стиль вождения. Помимо этих параметров, и для получения более точных результатов, могут быть использованы — социальный статус, поездки с детьми, активность в социальных сетях и информация с камеры в салоне автомобиля. Однако, сегодня остановимся на двух базовых — возраст и стиль вождения.

Отметим, что в статье мы продемонстрируем логику работы скоринга на примере водительской активности 50 000 пользователей и 260 000 поездок. Все данные были анонимизированны. Кроме того, мы использовали данные по 220 ДТП, совершенных с Москве и МО.


В каршеринге автомобиль – это средство производства прибыли, причем купленное на кредитные деньги. При таком подходе важно его использовать максимально эффективно, не допуская простоев. А если автомобиль попал в ДТП, то оформление документов со страховщиком, согласование, заказ запчастей и собственно ремонт могут занимать значительное время, от нескольких дней до месяцев. Скоринг может предиктивно выявить потенциальные ДТП, и на его основе можно давать обратную связь клиентам о рисках небезопасного вождения.

Для операторов каршеринга важно сохранить свое имущество и заработать на нем. Таким образом, каршеринговая платформа просто обязана собирать всю возможную информацию об автомобиле и о происходящем с ним. По каждой поездке автомобиль каршеринга собирает телематические данные – точки поездки с интервалом не более 1 сек и показатели автомобиля в этих точках (скорость, обороты, ускорения, статусы дверей и окон и т.д.).

Возраст



При оформлении договора с оператором каршеринга водитель обязан указать свой возраст и стаж вождения. Основываясь на этих данных, мы можем построить следующую гистограмму.


Figure 1. Возраст пользователей

На Figure 1 изображена гистограмма возрастов пользователей каршеринга. По горизонтальной оси – возраст пользователей, по вертикальной – их количество, пунктирной линией отмечена медиана – 30 лет. Похоже на нормальное распределение и ярко выраженные всплески количества пользователей с возрастом 25, 30 и 35 лет.

Затем рассмотрим распределение возрастов пользователей, определенных виновниками ДТП.

Figure 2. Возраст пользователей с ДТП

На Figure 2 изображена гистограмма распределения возрастов пользователей виновных в ДТП, по горизонтали – возраст пользователей, по вертикали – количество пользователей. Опять же пунктирной линией отмечена медиана – 26 лет. Таким образом видно, что пользователи моложе 26 лет чаще других являются виновниками ДТП.

По гистрограмме понятно, что половина ДТП произошла по вине группы, составляющей четверть пользователей (пользователи не старше 26 лет). Аналогично группа пользователей старше 30, составляющая половину от общего количества, сгенерировала лишь четверть ДТП.

Таким образом, получаем, что вероятность ДТП у пользователей не старше 26 лет в четыре раза выше, чем у пользователей старше 30. Что привлекает дополнительное внимание к более молодой группе пользователей со стороны операторов каршеринга. Неслучайно, у многих операторов возрастные требования начинаются не с 18 лет, а с 21 года. Каршеринги также желают видеть среди своих пользователей опытных водителей и указывают стаж от 2 лет, тем самым отметая неопытных молодых водителей.

Стиль вождения



Со стилем вождения дела обстоят сложнее. На данный момент в индустрии есть устоявшаяся модель для определения стиля вождения – модель подсчета резких ускорений и торможений. Рассмотрим ее подробнее.


Figure 3. График изменения скорости автомобиля.


Если скорость автомобиля за интервал времени ∆t≤3сек. увеличивается на ∆s≥15 км/ч, то в этом интервале времени автомобиль резко ускоряется. Аналогично, если за интервал времени ∆t≤3 сек. Скорость автомобиля уменьшается на ∆s≥15 км/ч, то в этом интервале времени автомобиль резко тормозит. ∆t и ∆s являются параметрами модели и могут быть изменены как в большую, так и в меньшую сторону. К примеру, на графике 3 изображена зависимость скорости автомобиля от времени, и в интервал с 8ой по 11 секунду скорость автомобиля резко увеличилась с 20км/ч до 40км/ч, а в интервал с 15ой по 18ую секунды скорость резко упала с 60км/ч до 30км/ч.
A – число резких ускорений на маршруте, B – число резких торможений. На Figure 4 показано распределение суммы A+B на используемой выборке маршрутов.


Figure 4. Распределение резких ускорений и торможений

Отметим, что поездка может длиться 15 минут, а может и 5 часов, таким образом, нужно учитывать время или дистанцию поездки при выборе параметров скоринга. D – длина маршрута в километрах. Посчитаем количество резких ускорений и торможений на 1 км маршрута, т.е. ((A+B))/D. Получаем ассиметричное распределение, показанное на гистограмме Figure 5, где значения слева затухают гораздо быстрее, чем справа. К сожалению, большая часть статистических методов не работают для сильно скошенных распределений. В таких случаях обычно помогает логарифмическое преобразование, которое часто преобразует асимметрию в симметрию, поскольку позволяет растянуть шкалу в окрестности нуля.


Figure 5. Распределение ускорений и торможений на 1 км маршрута

Прологарифмировав эту функцию, получаем Log⁡(((A+B))/D). В итоге – распределение очень похожее на нормальное – Figure 6.


Figure 6. Логарифм от количества ускорений и торможений на 1км поездки

Именно на основе этой функции обычно строят скоринговую модель стиля вождения. Давайте попробуем прогнать через подобную функцию все маршруты каждого пользователя. На гистограмме Figure 7.


Figure 7. Сравнение пользователей с ДТП и без

На ней синим отмечены результаты всех пользователей, при этом синяя пунктирная линия их медиана, красным – результаты пользователей с ДТП, и красная пунктирная линия — их медиана. Видно, что результаты пользователей с ДТП смещены вправо, т.е. пользователи с ДТП чаще резко тормозят и ускоряются в процессе движения. Однако смещение крайне мало и, по сути, нет корреляции между этим значением функции и фактом попадания в ДТП. Рассматриваются средние показатели пользователей, но возможен вариант, когда пользователи водят в среднем безопасно, однако периодически лихачат. Рассмотрим поездки без ДТП с максимальным значением функции Log⁡(((A+B))/D) для каждого пользователя. Получается гистограмма Figure 8, где пунктирной линией отмечена медиана.


Figure 8. Худшие поездки пользователей

Добавим гистограмму поездок пользователей с ДТП, и также не будем учитывать их поездки, в которых произошли ДТП. Полученные гистограммы отображены на Figure 9, где синяя пунктирная линия – медиана поездок пользователей без ДТП, оранжевая пунктирная линия – медиана поездок пользователей с ДТП. Здесь прослеживается большее смещение вправо. Т.е. пользователи с ДТП при таком рассмотрении выделяются из общей группы.


Figure 9. Сравнение худших поездок пользователей

На основе данного метода строим скоринговую модель. Результаты модели отображены на Figure 10. Синим выделены результаты всех пользователей, оранжевым – результаты пользователей с ДТП. Скор от 0 до 10, где 0 – худший результат, а 10 – лучший. Пунктирными линиями отмечены медианные скоры двух групп пользователей. При этом, средний скор пользователей с ДТП около 4, а всех пользователей 5. 80% пользователей с ДТП имеют скор ниже среднего, другими словами, 80% пользователей с ДТП водят хуже среднего.


Figure 10. Результаты скоринга

Подобной моделью обычно пользуются при вычислении скоринга вождения по телематическим данным. На основе ее результатов может быть ограничен доступ к премиальным автомобилям или вообще к сервису. Однако, она не является единственной и максимально оптимальной для всех кейсов.

Модель, описанная в статье, не является совершенной для предсказания ДТП. В этой статье мы лишь сделали обзор на текущие модели в каршеринге. В следующей части мы расскажем о модели энергии движения, которая операется именно на стиль вождения (стиль изменения скорости, маневрирование и т.д.).

Автор: Кирилл Кульченков, kulchenkov32, бизнес консультант, Bright Box.