Как устроен скоринг в индустрии каршеринга. Часть 1. Обзор популярных инструментов на реальных данных

    Каршеринг, несмотря на свою молодость, — одно из самых активно развивающихся направлений в автобизнесе России. С момента запуска первой компании прошло 5 лет, и сегодня на рынке работают более 25 операторов, специализирующихся на краткосрочной аренде. С развитием каршеринга накапливаются данные о пользователях, и вот уже у каршеринга, как у банков, появляется некая система скоринга клиентов. Она также опирается на возраст, пол, стаж вождения, однако здесь рассматривается не история ваших кредитов, а история поездок. Одной из целей такого скоринга, помимо платежеспособности, валидации водительского удостоверения, штрафов, является предсказание вероятности ДТП для конкретного водителя.



    В этой статье мы разберем логику работы алгоритмов скоринга пользователей каршеринга, которые будут опираться только на возраст и стиль вождения. Помимо этих параметров, и для получения более точных результатов, могут быть использованы — социальный статус, поездки с детьми, активность в социальных сетях и информация с камеры в салоне автомобиля. Однако, сегодня остановимся на двух базовых — возраст и стиль вождения.

    Отметим, что в статье мы продемонстрируем логику работы скоринга на примере водительской активности 50 000 пользователей и 260 000 поездок. Все данные были анонимизированны. Кроме того, мы использовали данные по 220 ДТП, совершенных с Москве и МО.


    В каршеринге автомобиль – это средство производства прибыли, причем купленное на кредитные деньги. При таком подходе важно его использовать максимально эффективно, не допуская простоев. А если автомобиль попал в ДТП, то оформление документов со страховщиком, согласование, заказ запчастей и собственно ремонт могут занимать значительное время, от нескольких дней до месяцев. Скоринг может предиктивно выявить потенциальные ДТП, и на его основе можно давать обратную связь клиентам о рисках небезопасного вождения.

    Для операторов каршеринга важно сохранить свое имущество и заработать на нем. Таким образом, каршеринговая платформа просто обязана собирать всю возможную информацию об автомобиле и о происходящем с ним. По каждой поездке автомобиль каршеринга собирает телематические данные – точки поездки с интервалом не более 1 сек и показатели автомобиля в этих точках (скорость, обороты, ускорения, статусы дверей и окон и т.д.).

    Возраст



    При оформлении договора с оператором каршеринга водитель обязан указать свой возраст и стаж вождения. Основываясь на этих данных, мы можем построить следующую гистограмму.


    Figure 1. Возраст пользователей

    На Figure 1 изображена гистограмма возрастов пользователей каршеринга. По горизонтальной оси – возраст пользователей, по вертикальной – их количество, пунктирной линией отмечена медиана – 30 лет. Похоже на нормальное распределение и ярко выраженные всплески количества пользователей с возрастом 25, 30 и 35 лет.

    Затем рассмотрим распределение возрастов пользователей, определенных виновниками ДТП.

    Figure 2. Возраст пользователей с ДТП

    На Figure 2 изображена гистограмма распределения возрастов пользователей виновных в ДТП, по горизонтали – возраст пользователей, по вертикали – количество пользователей. Опять же пунктирной линией отмечена медиана – 26 лет. Таким образом видно, что пользователи моложе 26 лет чаще других являются виновниками ДТП.

    По гистрограмме понятно, что половина ДТП произошла по вине группы, составляющей четверть пользователей (пользователи не старше 26 лет). Аналогично группа пользователей старше 30, составляющая половину от общего количества, сгенерировала лишь четверть ДТП.

    Таким образом, получаем, что вероятность ДТП у пользователей не старше 26 лет в четыре раза выше, чем у пользователей старше 30. Что привлекает дополнительное внимание к более молодой группе пользователей со стороны операторов каршеринга. Неслучайно, у многих операторов возрастные требования начинаются не с 18 лет, а с 21 года. Каршеринги также желают видеть среди своих пользователей опытных водителей и указывают стаж от 2 лет, тем самым отметая неопытных молодых водителей.

    Стиль вождения



    Со стилем вождения дела обстоят сложнее. На данный момент в индустрии есть устоявшаяся модель для определения стиля вождения – модель подсчета резких ускорений и торможений. Рассмотрим ее подробнее.


    Figure 3. График изменения скорости автомобиля.


    Если скорость автомобиля за интервал времени ∆t≤3сек. увеличивается на ∆s≥15 км/ч, то в этом интервале времени автомобиль резко ускоряется. Аналогично, если за интервал времени ∆t≤3 сек. Скорость автомобиля уменьшается на ∆s≥15 км/ч, то в этом интервале времени автомобиль резко тормозит. ∆t и ∆s являются параметрами модели и могут быть изменены как в большую, так и в меньшую сторону. К примеру, на графике 3 изображена зависимость скорости автомобиля от времени, и в интервал с 8ой по 11 секунду скорость автомобиля резко увеличилась с 20км/ч до 40км/ч, а в интервал с 15ой по 18ую секунды скорость резко упала с 60км/ч до 30км/ч.
    A – число резких ускорений на маршруте, B – число резких торможений. На Figure 4 показано распределение суммы A+B на используемой выборке маршрутов.


    Figure 4. Распределение резких ускорений и торможений

    Отметим, что поездка может длиться 15 минут, а может и 5 часов, таким образом, нужно учитывать время или дистанцию поездки при выборе параметров скоринга. D – длина маршрута в километрах. Посчитаем количество резких ускорений и торможений на 1 км маршрута, т.е. ((A+B))/D. Получаем ассиметричное распределение, показанное на гистограмме Figure 5, где значения слева затухают гораздо быстрее, чем справа. К сожалению, большая часть статистических методов не работают для сильно скошенных распределений. В таких случаях обычно помогает логарифмическое преобразование, которое часто преобразует асимметрию в симметрию, поскольку позволяет растянуть шкалу в окрестности нуля.


    Figure 5. Распределение ускорений и торможений на 1 км маршрута

    Прологарифмировав эту функцию, получаем Log⁡(((A+B))/D). В итоге – распределение очень похожее на нормальное – Figure 6.


    Figure 6. Логарифм от количества ускорений и торможений на 1км поездки

    Именно на основе этой функции обычно строят скоринговую модель стиля вождения. Давайте попробуем прогнать через подобную функцию все маршруты каждого пользователя. На гистограмме Figure 7.


    Figure 7. Сравнение пользователей с ДТП и без

    На ней синим отмечены результаты всех пользователей, при этом синяя пунктирная линия их медиана, красным – результаты пользователей с ДТП, и красная пунктирная линия — их медиана. Видно, что результаты пользователей с ДТП смещены вправо, т.е. пользователи с ДТП чаще резко тормозят и ускоряются в процессе движения. Однако смещение крайне мало и, по сути, нет корреляции между этим значением функции и фактом попадания в ДТП. Рассматриваются средние показатели пользователей, но возможен вариант, когда пользователи водят в среднем безопасно, однако периодически лихачат. Рассмотрим поездки без ДТП с максимальным значением функции Log⁡(((A+B))/D) для каждого пользователя. Получается гистограмма Figure 8, где пунктирной линией отмечена медиана.


    Figure 8. Худшие поездки пользователей

    Добавим гистограмму поездок пользователей с ДТП, и также не будем учитывать их поездки, в которых произошли ДТП. Полученные гистограммы отображены на Figure 9, где синяя пунктирная линия – медиана поездок пользователей без ДТП, оранжевая пунктирная линия – медиана поездок пользователей с ДТП. Здесь прослеживается большее смещение вправо. Т.е. пользователи с ДТП при таком рассмотрении выделяются из общей группы.


    Figure 9. Сравнение худших поездок пользователей

    На основе данного метода строим скоринговую модель. Результаты модели отображены на Figure 10. Синим выделены результаты всех пользователей, оранжевым – результаты пользователей с ДТП. Скор от 0 до 10, где 0 – худший результат, а 10 – лучший. Пунктирными линиями отмечены медианные скоры двух групп пользователей. При этом, средний скор пользователей с ДТП около 4, а всех пользователей 5. 80% пользователей с ДТП имеют скор ниже среднего, другими словами, 80% пользователей с ДТП водят хуже среднего.


    Figure 10. Результаты скоринга

    Подобной моделью обычно пользуются при вычислении скоринга вождения по телематическим данным. На основе ее результатов может быть ограничен доступ к премиальным автомобилям или вообще к сервису. Однако, она не является единственной и максимально оптимальной для всех кейсов.

    Модель, описанная в статье, не является совершенной для предсказания ДТП. В этой статье мы лишь сделали обзор на текущие модели в каршеринге. В следующей части мы расскажем о модели энергии движения, которая операется именно на стиль вождения (стиль изменения скорости, маневрирование и т.д.).

    Автор: Кирилл Кульченков, kulchenkov32, бизнес консультант, Bright Box.
    Bright Box
    49,00
    Компания
    Поделиться публикацией

    Комментарии 34

      +1
      В процессе чтения не покидало ощущение несовершенной модели.
      стаж от 2 лет, тем самым отметая неопытных молодых водителей

      Сейчас многие молодые люди (особенно в Европе) получают права сразу по достижению необходимого возраста, а водить начинают гораздо позже.
      в интервал с 8ой по 11 секунду скорость автомобиля резко увеличилась с 20км/ч до 40км/ч, а в интервал с 15ой по 18ую секунды скорость резко упала с 60км/ч до 30км/ч

      Похоже на обычную езду от светофора до светофора. За 3 секунды ускориться с 20км/ч до 40км/ч — это слишком лихо?
      видно, что пользователи моложе 26 лет чаще других являются виновниками ДТП

      Я упустил или вы где-то указали кто чаще берет в аренду автомобили? Или может молодежь просто чаще арендует и, соответственно, чаще являются участниками ДТП?
        +1
        1. Так оно и есть. Модель описанная в этой статье несовершенна. В статье описывается что сейчас используют. В следующей статье я планирую описать более совершенный метод определения стиля вождения, который был разработан Bright Box.
        2. С возрастом водителей все достаточно сложно, нет возможности определить точный стаж вождения, т.к. есть возможность получить права и не водить вообще.
        Не прослеживается скачка в количестве поездок более молодых пользователей. В среднем пользователи совершают одинаковое количество поездок.
        3. По светофорам: в зависимости от параметров модели ускорения и торможения перед светофорами могут определяться как резкие или нет. Здесь есть момент, сами по себе резкие ускорения и торможения не являются признаком плохого вождения, а вот их количество — да.
          0
          Ясно. Спасибо за ответ.
          Еще интересует момент со страховкой:
          почему вашу компанию волнует дтп как таковое, если есть страховка? Это больше должно волновать страховую.
          Как здесь обстоит взаимодействие со страховой?
            +3
            Смотрите, наша компания не является оператором каршеринга, ДТП волнует наших клиентов, которые как раз таковыми являются.
            Даже при полном покрытии ремонта автомобиля страховой остается момент с простоем авто и убытками, которые этим вызваны.
              0
              А страховые кстати уже предлагают поставить такие же приблуды в обычные тачки и страховать на основе такого же скоринга. Что дичь полная на мой вшгляд, особенно с такой кривой статой.
                0
                Не просто дичь, а чернозеркалье какое-то.
                  0
                  Скидку обещают маленькую, а проблемы большие. Тем более у них безопасно быстро наращивающая скорость машина — это ужас-ужас, а лезущий в соседний ряд не то что не смотря кто едет, а даже вообще без поворотника, вынуждая ряд оттормаживаться (типичное поведение каршеринговых козявок, которые появились на улице) — это нормально.
                  0
                  Примерно так. Нам надо застраховать по КАСКО 1000 автомобилей. При этом застраховать недорого и иметь возможность получить возмещение. Для этого есть ряд инструментов, самый известный — франшиза. Часть ущерба берет на себя страхователь. Менее известный инструмент — лимит. Лимит на количество обращений в год, на общую сумму возмещения по всем автомобилям. Ну скажем так, из 1000 автомобилей где каждый застрахован на миллион, но при этом общая выплата не более 10 миллионов в год и не более 50 обращений.

                  Не и еще момент. Для компании которая имеет 1000 автомобилей, банально нет смысла страховать их по рискам ДТП и хищение. Лучше эту половину денег (а в среднем страховая компания получает примерно вдвое больше чем выплачивает) положить в карман и расширять на это бизнес, чем отдать страховщику. А страховать лучше массовые риски, которые внезапно и непрогнозируемо могут затронить весь автопарк — ущерб от стихийного бедствия, от народных волнений и тому подобного.

                  На самом деле все еще интереснее, никто в здравом уме не покупает разом 1000 машин, их берут в лизинг, и часто, именно лизинговая компания определяет условия страхования (сюрприз — в своей дочке-страховой).
                    0
                    > Это больше должно волновать страховую.

                    Волнение страховой выражаются ростом цен страховки, а это убытки.
                  0
                  Есть некоторые соображения. Во первых хоть молодеж и опаснее водит в среднем, но важно подсадить ее на сервис. Ведь иначе они купят свое авто и прощай клиентская база. Сколько за закладку лояльной клиентской базы это готовы доплатить каршеринги?

                  Во вторых да, в городе больше аварий и больше разгонов-торможений. И для построения модели вождения конкретного водителя требуется некотрое число поездок. При этом, у водителей которые пользуются сервисом нечасто и ненадолго, будет много резких торможений и разгонов, они не привыкли к машине. А те кто пользуется часто и долго, уже наработали свою статистику аварийности, нет ли смысла просто поощрять их безаварийную езду, скажем часами и милями? А с виновниками ДТП, напротив, проводить работу на тему безаварийного вождения.
                  0
                  1. Т.е. если я со светофора за 10-12 секунд набираю 60 км/ч — это резкое ускорение?! Ну или я такая 60 км/ч, вдруг мигает зелёный (3 секунды), загорается жёлтый (3 секунды), ну ещё 6 секунд я подкатываю к стоп-линии уже при горящем красном. Или что тоже самое тормозной путь с 60 км/ч получается целых 95 метров. И это резкое торможение?!

                  2. А вообще очень слабая статистическая работа (по крайней мере описана в статье). С вашими-то данными… Графики непонятные, где они друг на друга наложены.
                    +3
                    1. В зависимости от параметров модели это может как быть резким ускорением так и нет. Само по себе резкое ускорение или торможение не является признаком плохого стиля вождения, плохой стиль вождения в этой модели — большое количество резких ускорений и торможений на единицу дистанции.
                    2. В этой статье обзор того, что используется сейчас на рынке. Наша модель будет описана в следующей статье. Там вы сможете оценить проведенную работу.
                      0
                      То есть те кто ездит в пиковое время будут иметь худшую репутацию, по сравнению с теми кто ездит во внепиковое. Не проще ли сразу учесть это в тарифах?

                      Кстати, а вы вообще делали такую выборку? Больше ли ДТП при высокой загрузке дорог или при низкой?
                    +1
                    Слабовато, очень слабовато. Особенно в той части где агресивным вождением считают разгон и торможение (как выше подметили не такие уж и резкие), и ни слова про маневрирование.
                      +1
                      В следующей статье будет описана модель Bright Box, где как раз будет учтено маневрирование.
                      0
                      > Помимо этих параметров, и для получения более точных результатов, могут быть использованы — социальный статус,

                      Что такое социальный статус? Размер дохода? Как вы его определите?

                      > активность в социальных сетях

                      А как вы найдете аккаунт пользователя? Отчество там не указывают, а по имени и фамилии много совпадений. Да и не уверен, что это законно, парсить такую информацию из соцсетей, недавно суд одной компании это запретил.

                      > информация с камеры в салоне автомобиля

                      Нафиг такой торшеринг. Камера хотя бы большая и хорошо заметная?
                        +1
                        Что такое социальный статус? Размер дохода? Как вы его определите?

                        Мы это не определяем, эту часть делают операторы каршеринга.

                        Нафиг такой торшеринг. Камера хотя бы большая и хорошо заметная?

                        Камеры в салоне премиум автомобилей в каршеринге уже ни для кого не секрет.
                          0
                          Камеры в салоне премиум автомобилей в каршеринге уже ни для кого не секрет.

                          Уже не только в премиуме, недавно встретил в банальной октавии.
                        0
                        Один раз мне один каршеринг выдал уведомление об опасной езде. Такое ощущение что мерили по тахометру. Это был настолько старый smart fortwo, который только бывает и чтобы он хоть как-то ехал там что газ что тормоз надо выдавливать процентов на 80, плавность езды никакая. Кажется потом они эту систему подкрутили и больше не уведомляют, хотя могу газ притопить с 0 до 60.
                          +1
                          Скорее всего они поменяли интервал времени для вычисления резкого ускорения и торможения.
                          +7
                          График 1 поверг меня в шок. Людей, его нарисовавших, надо отлучить не только от статистики, но и от арифметики. Хотите расскажу, как он получился?

                          Горе статистик:
                          «Так, что тут у нас, ага данные по возрасту, число целых лет. Замечательно! Но лучше-ка я разобью эту гистограмму не на 10 столбцов на каждые 10 лет — как-то слишком часто получается — а сделаю лучше 8 столбцов на 10 лет возраста. Это 1,25 года на столбец — отлично. Эксель, пересчитай.»

                          Эксель:
                          «Так, столбец (30–31,25] — сюда тех, кому строго больше 30 и меньше-равно 31,25. А поскольку исходные данные у меня по целому числу лет, то в столбец попали только те, кому 31.
                          Дальше столбец (31,25–32,5] — сюда попали, кому целых 32;
                          столбец (32,5–33,75] — кому 33
                          столбец (33,75–35,0] — кому 34 и кому 35

                          Поэтому каждый четвёртый столбец, мы видим, примерное вдвое выше чем соседние. Вот скажите честно, авторы, вам глаз ничего не режет?! График 5 тоже доставляет. Видна рука мастера. Промежуточные низенькие пики говорят, что приём оказался настолько удачен, что его применяли более одного раза.

                          Больше вопросов к «исследованию» не имею.
                            –2
                            Спасибо за комментарий, но данные на входе — дата рождения, соответственно возраст определяется не в целом виде. Соответственно, получаем, что если на гистограмме мы увидим всплеск на 33,75-35,0 то это будут действительно люди с возрастом от 33,75 до 35,0. Помимо этого графики использовались только для наглядности, возможно они получились не везде удачными, в дальнейшем постараемся больше уделить им внимания.
                              0
                              Помимо этого графики использовались только для наглядности

                              Соглашусь, безграмотность удалось показать весьма наглядно.
                                +1

                                Всплески в 2 раза каждые 4 года вызывают много вопросов. Откуда?
                                Бум рождаемости каждые 4 года? Выбор вашего сервиса по гороскопу китайскому зодиаку пользователя? (было бы прикольно, если бы стихии в нём повторялись каждые 4 года, но нет) Скидки для людей определённого возраста? Увеличение выдачи прав каждые 4 года?
                                Я не нашёл никакого объяснения всплескам.


                                Вы не могли бы перестроить гистограммы с интервалом 10 столбцов на 10 лет?
                                Дополнительно, хотелось бы посмотреть на распределение вероятности ДТП в зависимости от возраста (по X — возраст, по Y — соотношение "число ДТП/число пользователей" для этого возраста).

                                0
                                Прекрасный комментарий! Я не заметил, да и о явлении таком не задумывался никогда. Теперь буду обращать внимание :)
                                  +1
                                  Такие выбросы при данных о десятках тысячах человек статистически нереальны! Я до этого тоже о таком явлении не задумывалась, но пришлось искать объяснение таким феноменальным пикам. Думаю, моя версия правдоподобна.
                                    0
                                    И как ваша теория работает на возрасте с десятыми длями? скажем 31.2?
                                      +1
                                      Послушайте, налицо неумение работать с данными, у вас там почти все графики похожи на расчёски. Почему они получились такими — это уже детали. Вам оно виднее, зачем меня об этом спрашивать.

                                      Один граф сказал: «Все грамотные исследования похожи друг на друга, каждое неграмотное неграмотно по-своему».

                                      UPD.: График 5 показывает, что ваша ошибка не только в отображении данных. Сложный спектр пиков показывает, что неправильно квантованные данные «пошли в дело» и участвуют в расчётах.

                                      Меня больше удивляет не ошибки, а то, что они для вас не очевидны, и вас ничего не смущает в графиках!
                                        +1
                                        Вам совершенно верно указали на ошибку в выборе дельты или частоты выборки. Не видя данных или расчетов, тяжело сказать, где именно ошибка. Вот вам пример с долями:

                                        Считаем возраст в долях в зависимости от месяца. Тогда дельта равна 1/12 = 0.8(3). Достаточно округлить число до 0.83, забыв про период, и вот уже 6*0.83 < 0.5 и 12*0.83 < 1. Дальше хуже. Где-то грубо округлили, где-то взяли другой интервал, перемножили данные и конечный результат «поплыл». А может быть, вы несколько баз данных с разной точностью используете…

                                        Хорошо бы еще оси на графиках подписать и названия над диаграммами убрать. Вы их все равно обозначаете снизу.
                                    +1
                                    И эти люди запрещают нам «резко тормозить»?
                                    +2
                                    Не пользовался каршерингом — а что дает этот скоринг? Там разная цена для разных водителей или некоторым просто будет отказано без объяснения причин? Там нет публичной оферты?
                                      0
                                      Поправьте пожалуйста «максимально оптимальной», очень режет глаза. Оптимальная модель она одна, их не может быть несколько.
                                        0
                                        Оптимальная модель она одна, их не может быть несколько.

                                        Строго говоря, может быть несколько разных моделей, но одинаково высоко оцениваемых. Но вы правы в том, что "максимально оптимальной" говорить нельзя.


                                        Но.
                                        Кажется, значение слова "оптимальный" уже уплыло от "самый лучший" к просто "хороший". Субъективно, во втором значении оно уже встречается в разы чаще ("самый оптимальный", брр...). Скоро надо будет обновлять статьи в толковых словарях.

                                          0
                                          Скажем так, с современным применением слова согласен. Но если совсем залезть глубоко к этимологии, то его прародитель латинское optimum, optimus — дословно «наилучшее» и «наилучший» соответственно. И максимально наилучший — это… Даже не знаю как описать.

                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                      Самое читаемое