
Утро морозное, хмуро‑понедельничное. Вялая змея автомобилей ползет на развязку, опять то же кино — ДТП. Сценарий, следующий — водитель праворульного авто, при въезде на развязку, должен заворачивать голову аки сова, на 180 градусов, чтобы убедится в отсутствии помехи. Пока голова возвращается в нормальное положение, нога уже радостно нажала на газ. И типичная авария на этом участке — торможение посредством впереди идущего автомобиля.
Ключевое слово — праворульный. Водители леворульных авто в такой ситуации имеют гораздо лучший обзор (въезд с развязки на основную трассу, где дороги сходятся под очень острым углом). По моему субъективному водительскому опыту, подобные аварии происходят именно из‑за особенности обзора праворульных автомобилей.
Статистика знает все
Выше я отметил, что праворульные авто доминируют в нашем регионе. Ужасная формулировка. Настоящие разведчики данных (далее — эНеРёД), таких слов не понимают. А сколько это в граммах, то есть процентах от общего числа авто в регионе? И общее число авто, и процент от общего числа в стране... и так до тепловой смерти вселенной...
Доступное официальное количество зарегистрированных автомобилей мало чем поможет. Там нет разделения право‑леворульных авто. И настоящий энерёд всегда задается вопросом — а из какой тумбочки данные? Для примера — по официальной статистике Росстата, в 2015 году, наибольшее кол‑во авто на тело населения было отмечено в Приморском крае и Калининградской области.
Очень интересно — в этих двух регионах такой высокий уровень доходов? Или что? Все проще — именно с этих регионов завезенные иномарки расползаются по России и много местного люда занимается этим бизнесом, и соответственно регистрирует авто на себя, друга, сына маминой подруги и прочих лиц. Для последующей продажи. Это так — заметки на полях, к критическому восприятию данных, особливо официально статистических.
Вернемся к доминированию. Ничего сложного — надо взять репрезентативную выборку автомобилей и посчитать среди них праворульные. Берем привезенные из заморской страны четки и едем на работу с работы, в супермаркет, гастроном.
Считаем встречные авто — раз, «японка», два «японец», три — «кореец» (вот тут одну бусинку на четках и перекидываем, руль слева), «китаец» (снова бусинка), а это что за зверь?? Лада?? (российские легковые машины у нас, мягко говоря, экзотика, бусинка). «Немец» (бусинка, но не всегда, они тоже есть наши родные, правые руля), автобус, самосвал, фура, снегоуборщик.
Как только 33 бусинки закончились, фиксируем общее число посчитанных машин. Все, одна репрезентативная выборка готова. Развлекаемся подобным образом две недели и получаем итоговую цифру — 76% праворульных авто. В других городах ДВ цифра, конечно, будет отличаться, но в качестве допущения примем эту цифру одинаковой для всего региона ДВ.
Растекаемся мыслью по ДСП далее. Подавляющая масса машин на дороге — праворульные. И если, эти авто более опасны, особенно при обгоне (не забудем, что и фары светят иначе), повороте налево, то должны же они как‑то наследить в статистике ДТП?
«…Штирлиц подумал и ему понравилось»
Что если в персональную электронно‑вычислительную машину (далее ПЭВМ), с бездумьем и отвагой накидать статистических данных по ДТП и умное устройство навсегда разрешит спор между праворулячниками и леворулячниками?
Для начала — учитывая ограниченный обзор праворулек, особенно при повороте налево (на перекрестках), относительное количество ДТП в городах Дальнего Востока по этим типам аварии должно быть больше, чем с среднем по матушке России. Ну..ну..»..гений парадоксов друг».
С азартом охотника, с полностью отключенным блоком критического мышления, полез в сеть за данными. Сайт Госавтоинспекции. Ура! Куча данных, счастье аналитика. Можно даже узнать сколько ДТП произошло в городе Н‑ске 31 декабря в период с 23–00 до начала избиения курантов. С участием пьяной военной женщины на мотоцикле (никого ни хочу обидеть, ни женщин, ни пьяных, ни тем более мотоцикл — просто цитирую старый анекдот).
Но, как в известной притче — мы можем видеть каждую родинку слона, а вот всего слона целиком, чтобы запихнуть его в машину‑умницу, нет. Консолидированных данных нет. Точнее всего слона возможно собрать по частям с сайта Госавтоинспекции, но вручную это то еще занятие. Но знаю — я не одинокий разведчик данных на просторах нашей страны. С вероятностью 99,9(9) кто ни будь сделал слона видимым целиком.
Роем дальше, так и есть — нашел отличный сайт карта ДТП (сейчас к большому сожалению, не работает). Данные всех регионов России, с типами ДТП, объекты поблизости и прочее. Можно скачать данные. То, что надо. Слон целиком и во всех проекциях.
Скачал данные, быстренько накидал код (выбрал «объекты поблизости» — все типы перекрестков). И пока старенький мак шелестел вентиляторами, подумывал заказать ли себе футболку с надписью «Парадоксов друг». На лето. Приятные мысли гения‑шопоголика были просто растоптаны марширующей колонной сомнений. Количество перекрестков в каждом городе/регионе одинаковое? А количество автомобилей? А интенсивность движения? А…?
Результат работы кода был уже ожидаемый — относительное количество ДТП на перекрёстках всех типов по регионам полностью опровергло мою гениальную мысль. Футболки на лето не получилось. А не почитать тебе молодец — энерёд по предметной области? А может с этого и начать надо было, прежде чем в радостном предвкушении добычи качать данные и писать код?
И вместо продуктивных вечеров валяния на диване с блэкджеком и.. вот без этого, гуглим, сафарим, озабочиваем поисками выводок чат‑ботов, по олдскульному, удаленно идем в библиотеку — искать инфо по безопасности дорожного движения, факторов дтп, итп, итд.
Увы эта часть повести, будет печальной. С болью в сердце спешу уведомить вас, что лишь от малой толики дарованных мне великой паутинной знаний, о дорожных коллизиях, открыло мне печальную правду — цель моя не будет достигнута. Несправедливо поруганные самобеглые коляски из далекой самурайской страны так и будут нести клеймо опасных для отечества нашего. С помутненным отчаянием рассудком сжег все рукописи с записями дорожного департамента и своими убогими виршами. Лишь одно меня утешило — в исканиях своих, движимый неутолимой любовью к познанию, увидел я словно свет далекой звезды, первую ступеньку к восторжествованию правды и справедливости.
С этой первой ступеньки можно всех смело посылать в лес (лучше в Isolation Forest). Всех — кто будет утверждать «что по данным статистики праворульные автомобили чаще попадают в аварию». Применительно к ситцево‑березовой локации, конечно. Ничем в доступной статистике праворульный регион страны особенно не выделяется из общей массы. Вот на этом можно было и закончить. И никому не рассказывать. Но сущность энередская требует закончить фуршет.
«Трудно искать черную кошку Шредингера в темной комнате»
Еще раз долго будем вглядываться в данные — вот сюда для примера. После этого — данные не только посмотрели на меня, но и заговорили. Самое интересное — это исключения, которые никогда не подтверждают правило. Что это может быть — случайность, выброс, «ошибка выжившего»? Или же в редкостях есть закономерности, скрытые большой массой типичного?
И застучало сердце радостно в груди — что, если выделить наиболее редкие сочетания признаков из данных ДТП по каждому региону? Именно сочетания признаков. Редкие виды аварий сами по себе очевидны — «Наезд на животное», «…с участием гужевого транспорта» и прочее.
Выделить такие «редкие» ДТП по каждому региону и объединить в группы по «похожести». Тлеет в сердце, даже после нырка в предметную область, вера в чудо — вдруг праворульные регионы собьются в отдельную стайку? Постановка задачи: найти что‑то. Или не найти.
«Вначале было слово и цифра»
После диалога с данными, решили, по обоюдному согласию, оставить для анализа следующее: количество раненных, погибших, участников ДТП. Это цифры. С ними просто.
Далее — тип ДТП (к примеру: Наезд на пешехода), характеристика места ДТП (пример: ['Регулируемый пешеходный переход', 'Регулируемый перекресток»]), недостатки улично‑дорожной сети (['Неправильное применение, плохая видимость дорожных знаков']), погодные условия (['Пасмурно']), состояние дорожного покрытия (Сухое), и освещенность (В темное время суток, освещение включено). С этим уже не так просто.
Мы это закодируем (алгоритмом TfidfVectorizer), так что бы каждое подобное уникальное сочетание было одним признаком аварии. Теперь выделим «аномальные» или «редкие» ДТП по каждому региону (IsolationForest — название алгоритма какое красивое, ели пушистые, перемотанные синей изолентой сразу в воспаленном мозгу энерёда возникают). И того получили 247 признаков «аномалий», вместе с числовыми. Снизим размерность (PCA) и попытаемся объединить в группы по «похожести» (кластеризация HDBSCAN).
Где правильно поставить запятую или интерпретация наше все
После гипертанца с гипербубном и гиперсаблями исполненного для гиперпараметров, ничего обнаружить не удалось. Ни каких скрытых паттернов в “редких” авариях. Метрики в ужасе. Визуализация не складывается в узнаваемые созвездия. Хотя, в одной фигуре танца, 26 % процентов признаков дали статистическую значимость. Можно дальше поработать с признаками - выделить только статистически значимые…. и так далее пока напряженность Хабла не разрешится. Статистика - девушка капризная, может и личико скорчить, не в меру усердному поклоннику. Настоящий энерёд должен уметь вовремя остановится.
Уже посмотрев число “аномальных” аварий по отношению к общему числу ДТП по регионам, стало понятно - циферки уже уложились в коробку с усами, случайных случайностей. Но попытку кластеризации предпринял. Настоящий энерёд должен довести разведку до конца.
Возможно, я не зря валялся на диване с блэкджеком и вот без этого..
Один из основных факторов, помимо прочих, влияющего на количество ДТП — интенсивность движения. Без учета этого фактора, сравнивать корректно регионы с целью опорочить правый руль, нельзя. А это величина неизвестная. Косвенно его учесть, например, через число зарегистрированных автомобилей на один км дороги, квадрат, сына маминой подруги — не получится.
Если не обрезать крылья фантазии, то возможно использовать веб камеры, которые установлены уже на всех перекрёстках России. Да, вы правильно поняли — считать сколько самодвижущихся повозок проходит за единицу времени. И вот от того и скакать — если с учетом интенсивности движения аварий в праворуких регионах на этих самых перекрестках статистически значимо больше, то можно очень и очень несмело начать утверждать, что дело в расположении руля. И настройке фар. И копать дальше. Но здесь много нюансов. Надо «’привести к общему знаменателю»» интенсивность движения, погодные условия, состояние дорог и много всего, для корректного сравнения. Возможно ли это, в принципе, не знаю.
Попутно в исканиях своих провел опрос водителей, имеющих опыт право‑лево руля. За последние 1–5 лет часть народа пересела на «китайцев», или на «русских европейцев», поэтому выборка в 53 человека состоялась. Вопрос респондентам — удобнее на левом, после много лет правого? При обгоне? Повороте налево? На трассе, при обгоне? 100 процентов ответили в стиле «без разницы на каком руле».
Более развернутые ответы, после ряда уточняющих вопросов, подтвердили, что, человек не случайно пережил контролируемое охлаждение экономики и изобрел синюю изоленту.
Водители за правым рулем — осознанно или неосознанно (Фрейд тут разберешь) более осторожны на обгонах, поворотах налево. Учитывают специфику обзора праворульных машин при правостороннем движении. Забавно, но на дальневосточных трассах, часто можно наблюдать, как водитель праворульного авто, при желании обогнать плетущуюся фуру, «смотрит дорогу» вперед, чуть съезжая на правую обочину. Это безопасней чем вылезти всей широкой мордой на встречную полосу. Вот такая синяя изолента.
Автомобили с правым расположением руля, действительно чаще попадают в аварию. В Японии, и это точно.
Спасибо создателям сайта карта ДТП и Елена Никитина @nike32 за предоставленные данные.