Porfus25 янв 2019 в 16:04

Делаем рейтинг городов России по качеству дорог

9 мин

21K

Data Mining * Искусственный интеллектИсследования и прогнозы в IT * Машинное обучение *

Из песочницы

+87

Комментарии 56

ximik666 25 янв 2019 в 16:23

Круто! А можно где-то скачать обученные модели? Хочу опробовать на видео с регистратора.

Porfus 25 янв 2019 в 19:24

Модели в ближайшее время планирую выложить в открытый доступ.

altrus 25 янв 2019 в 16:35

Сотни тысяч километров сельских и межпоселковых грунтовок, не любящих селфиться, делают данную интернет выборку нерепрезентативной.

Porfus 25 янв 2019 в 19:23

Я в самом начале написал что мой рейтинг касается только городов с населением больше 100 000 и для этих начальных условий он вполне себе репрезентативен.

altrus 26 янв 2019 в 19:22

C уважением отношусь к вашему исследованию, но почему тогда в нем находится, например, Республика Алтай, в которой всего один город с населением в 50 тысяч человек?

Porfus 27 янв 2019 в 06:35

Хорошо, если быть совсем точным то в анализ попали города, в которых более 100 тысяч жителей или являющимися федеральными центрами, и в которых есть панорамы от Яндекса. В статье все эти критерии описаны.

djiggalag 28 янв 2019 в 05:14

А где тогда Омская область? В одном только Омске население почти 2 млн. чел.

Porfus 28 янв 2019 в 05:23

А ее разве нет? Полная таблица по субъектам федерации -> строка 51.

djiggalag 31 янв 2019 в 03:59

Пардон

altrus 28 янв 2019 в 05:59

Для чистоты использования термина отмечу, что «федеральный центр» в России один — Москва.

Если вы про центры регионов, то так как Горно-Алтайск совсем небольшой, является местной столицей, а чиновники любят ездить с удобствами, то дороги в нем очень даже хорошие, особенно по сравнению со средним российским «стотысячником».

Так что если у вас данные только по городам, то итоговые результаты как минимум по РА вызывают большие вопросы.

Andronas 25 янв 2019 в 16:57

Панорамы яндекса по некоторым городам не обновляются. Соотв статистика соответствует действительности на момент создания панорам это следовало учесть при выводах.

Porfus 25 янв 2019 в 19:44

Вы правы. Добавил распределение по годам, из которого видно, что более 70% фотографий сделаны за последние 3 года.

Celahir 25 янв 2019 в 17:06

Потрясающе! Если у каждой панорамы есть геометка, значит можно и результат нанести обратно на карту. Да, актуальность данных под вопросом, и потребуется обработка большого объема данных, но я бы с радостью поделился мощностями своего ПК ради такого проекта. За пределы РФ тоже было бы интересно заглянуть.

Porfus 25 янв 2019 в 19:50

Если сообщество проявит интерес, то планирую спарсить панорамы Гугла и построить статистику по столицам мира и более детально по Европе.

dbalabanov 28 янв 2019 в 11:43

очень интересно

Nagg 25 янв 2019 в 17:24

Посмотрел на "худшие" города Керчь и Биробиджан на панормах Яндекса — обычные дороги, далеко не то, что я представляю после пугающего словосочетания "русские дороги".

Inflight 25 янв 2019 в 17:39

Отличная статья!
Но… я живу в Марий Эл и могу с уверенностью сказать, что дороги здесь хуже, чем в большинстве других регионов.
Сколько, если не секрет, стоила разметка данных?

Porfus 25 янв 2019 в 19:13

Сколько, если не секрет, стоила разметка данных?

Разметка обошлась где-то в 15 $ (с учетом тестовых прогонов).

DolotovEvgeniy 26 янв 2019 в 10:34

Пробовал запускать большие задания в Я.Толоке (около 40 изображений на странице), но исполнители не особо охотно за них брались. Скажите, пожалуйста, какую цену назначали? Какое перекрытие использовали?

Porfus 26 янв 2019 в 17:08

Цену ставил минимальную — 0.01 $ за задание. Перекрытие не использовал, отсеивал недобросовестных исполнителей только по контрольным заданиям.

dm9 26 янв 2019 в 15:58

Если 30000 размеченных фотографий, получается около 3.5 копеек за фото. Это реально так дешево?

Porfus 26 янв 2019 в 17:06

Да, это реально так дешево, но и работа не сложная и не требует какой-либо квалификации от исполнителя.

Yastreb1332 25 янв 2019 в 17:40

к сожалению все эти выводы далеки от реальности. например Краснодар в котором я живу, за последний месяц дороги в городе сильно ухудшились и предпосылок к улучшению в ближайшее время нет )
да правильно, минусуйте ) правда она такая.

НЛО прилетело и опубликовало эту надпись здесь

Yastreb1332 26 янв 2019 в 18:54

было немного снега, дожди и немного мороза.

tuxi 25 янв 2019 в 17:49

Супер! Если теперь скормить реальные фото дорожного полотна, например партнерскую программу с каким-нибудь разработчиком «видеорегистратора-для-смартфона» заключить, то и правда будет просто отличное решение.

TheHost 25 янв 2019 в 18:39

Почему в качетсво не вложен момент дорожных знаков и трафика? Так же не понятно как вы определяете более детальный состав из чего состоит полотно. Каким машинам разрешено ездить и всякое такое. Ведь дорога портится если она рассчитана на легковушки, а по ней гоняют грузовики. В общем как-то слабовато.

Porfus 25 янв 2019 в 19:19

Почему в качетсво не вложен момент дорожных знаков и трафика?

Вы правы качество дорог комплексный показатель. Я оценивал только один его аспект в силу ограниченности моих ресурсов (в основном временных) по разработке и разметки данных.

Так же не понятно как вы определяете более детальный состав из чего состоит полотно. Каким машинам разрешено ездить и всякое такое.

Я этого не определяю, я исхожу из того что дорого должна быть ровной. Неважно ездят по ней только микролитражки и скутеры или фуры с тракторами. Это вопрос к тем кто эту дорогу проектировал, строил и обслуживает.

snizovtsev 25 янв 2019 в 19:24

вариант панорам Гугла я исключил, т. к. сервис представлен в меньшем количестве городов России и обновляется реже

Зря, по моему опыту у них даже побольше панорам (в свежести не уверен). Есть, например, почти все федеральные трассы, тогда как у Яндекса только города.
Ну и правильней было бы составить что-нибудь вроде максимального остовного дерева дорог по загруженности и анализировать только его. А то может получиться так, что в где-нибудь энтузиасты отсняли кучу второстепенных малоиспользуемых дорог и испортили рейтинг.

Stepan555 25 янв 2019 в 19:51

Отличная работа! Сколько трудодней на это ушло?

Porfus 25 янв 2019 в 20:00

По вечерам с большими перерывами ушло где-то 3 месяца. Если чистыми 8-часовыми днями думаю неделя — полторы.

Stepan555 26 янв 2019 в 09:08

8 трудодней для такого результата — немного. Таким инструментом бы по медицинским наборам данных пробежаться — цены бы не было! Элетрокардиограммы, МРТ-граммы, рентгенограммы, УЗИ, изображения с микроскопов — автоматизировать диагностику

gturk 26 янв 2019 в 11:36

С медицинскими наборами всё несколько сложнее. Во-первых сами наборы в открытом доступе сложно найти (врачебная тайна и всё такое...). А во-вторых чтобы разметить их — нужно посадить за это дело высококвалифицированного специалиста. Для энтузиаста по вечерам довольно сложно получается.
Так что, скорее всего, на горизонте лет 3х, мы получим такой инструмент, но будет его делать какая-нибудь большая корпорация за очень много денег для богатых клиник

Stepan555 26 янв 2019 в 16:57

Есть крупные сети клиник, у которых есть и данные и интерес этим заняться.
Врачебная тайна тут совершенно ни при чём по тому что никто не должен разглашать что у Василия Пупкина сифилис, а всего лишь в наборе данных рамечено, что меланома в случае номер восемь.
И разметка эта уже выполнена высококвалифицированными специалистами. Ведь в сети клиник все рентгенограммы, анализы, ЭКГ, МРТ и пр. уже отсканированы и вложены в электронные медкарты и к каждой сделано заключение — а это и есть разметка.
Даже в каждом МРТ кабинете есть все цифровые снимки, сделанные в нём и к каждому снимку сделано заключение.

Porfus 26 янв 2019 в 17:14

Согласен с gturk — тут все намного сложнее. С мед. изображениями не получится вырезать кусок где-то посередине и по нему судить здоров пациент или нет. Нужна попиксельная разметка изображений, которую должен сделать опытный специалист-медик. а другой специалист-медик должен ее подтвердить. другие сети (например U-net), которым нужно намного больше данных. Требования по точности тоже намного выше — вряд ли кого-нибудь устроит алгоритм, называющий здоровыми каждого десятого больного пациента.

Stepan555 26 янв 2019 в 18:08

Ну да, сложнее, никто не говорит за 8 дней всё сделать. Но во-первых этим всё равно прямо сейчас уже кто-то занимается, а во-вторых — и ценность результата выше.
Попиксельная разметка где-то нужна, где-то нет. В ЭКГ нечего попиксельно размечать. Разметка является проблемой для программиста-одиночки, но не для сети медклиник. А есть ещё условно-бесплатные студенты-медики, которые вполне способны камни в пузыре размечать в рамках своей практики — за пятёрки :-).
Кстати, по точности требования не такие жёсткие. Если алгоритм будет выявлять подозрения на патологию, дальше уже материалы можно передавать специалисту для диагноза. Так и дообучится.

erebmaethor 25 янв 2019 в 19:51

Интересно, а могли бы разработчики Яндекс.Карт, собирая не только информацию для оценки пробок, но ещё и данные с акселерометров телефонов, на которых установлены приложения, оценить качество дорог по степени тряски при езде по ним?

Named 25 янв 2019 в 19:57

А они каким-то образом оценивают. Навигатор в некоторых местах иногда выдает предупреждение о плохом качестве дорожного полотна. Или это по жалобам пользователей просто?

FantasyOR 28 янв 2019 в 10:32

«Я джва года ждал...» но прокатился недавно на заграничном кроссовере (до этого ездил на вазе 7ка и гранта) и чтоже… хорошая дорога оказывается, ничего не скрипит/звенит/трещит/покачивается…

Т.е. датчики нужно ставить на колесо, а не после системы амортизации — где в угоду клиенту стараются отсечь всяческие дорожные изъяны (смартфон с приложением прикреплён на стекло/корпус авто)

erebmaethor 28 янв 2019 в 18:04

На машину легко сделать поправку. Ведь люди на разных машинах с разными телефонами ездят по одним и тем же дорогам. Один едет на лексусе, а другой на сузуки, дорога одна, а «показатель тряски» разный. На основании этого вводим коэффициент.
Думаю, именно этому на разных интенсивах по big data как раз и обучают.

НЛО прилетело и опубликовало эту надпись здесь

erebmaethor 29 янв 2019 в 09:22

Да зачем? Большинство пользователей Я.Карт наверняка ездит на одних и тех же машинах. Достаточно сохранять какой-нибудь хешированный идентификатор пользователя, чтобы было понятно, что вот эти и вот те данные пришли с одного и того же устройства (а значит, с высокой вероятностью, с одной и той же машины; контролировать это можно по повторяемости показателей при проезде одних и тех же участков дорог, сомнительные результаты отфильтровывать).

FantasyOR 30 янв 2019 в 17:50

Тогда нужно просто спросить цену автомобиля и если она больше 1.5 мл (ну на таком меня прокатили) просто не учитывать их показатели… Я действительно был под впечатлением от чувства изолированности от дорожной обстановки

CactusKnight 25 янв 2019 в 20:07

Занятно вышло. Что хотелось бы отметить:
1. Картинка с полной таблицей для городов кривая, там сейчас что-то мелкое и не то.
2. До скольки знаков округлялись проценты при ранжировании регионов? Явно не до целого знака, хотя на картинках они приведены в целых значениях и из-за этого возникает когнитивный диссонанс, т.к. многие регионы нужно менять местами. Например:

кусок вашей картинки

имхо, при равенстве у нескольких регионов (в целых процентах) количества хороших дорог, нужно было ранжировать по количеству дорог среднего качества. А то когда регион с 64% хороших дорог и 31% средних дорог находится ниже, чем регион с 64% хороших и 18% средних — это огорчает.
2.1. Либо вообще стоило отказаться от ранжирования по количеству хороших дорог, а ранжировать по кумулятивному показателю вида: (доля хороших дорог)*2 + (доля средних дорог)*1
3. Если верить вики, то примерно в половине регионов единственный город с населением 100k человек — сам областной центр, в этом случае рейтинг региона = рейтингу одного города, что не совсем корректно.

Porfus 25 янв 2019 в 20:41

Картинка с полной таблицей для городов кривая, там сейчас что-то мелкое и не то

Проблема с Habrastorage — моя картинка 8k px по высоте, а он принимает максимум 5k px. Я думал обмануть его и залил на сторонний хостинг, но Habrastorage оказался хитрым и мстительным — скачал картинку себе, кропнул и уменьшил ее. Сейчас сделал картинку кликабельной.

До скольки знаков округлялись проценты при ранжировании регионов?

Ранжирование проводилось с числами в формате float32. Согласен по поводу введения формулы ранжирования, учитывающей все показатели, но боюсь, что введение любой формулы вызовет не меньшие споры по поводу ее адекватности.

Если верить вики, то примерно в половине регионов единственный город с населением 100k человек — сам областной центр, в этом случае рейтинг региона = рейтингу одного города, что не совсем корректно.

Скажу даже больше — многие областные центры имеют меньше 100k. К сожалению покрытие панорамами в малых городах оставляет желать лучшего. Время на разработку, ресурсы домашнего компьютера и прочие факторы вынудили поставить планку по количеству городов для анализа в том виде в каком она представлена в статье.

НЛО прилетело и опубликовало эту надпись здесь

Terras 26 янв 2019 в 06:41

Как человек, который жил одно время Биробиджане — соглашусь! Дорогие вроде есть, но нет живого места, чтобы без трещин, ям, швов и прочее.

Bellicus 26 янв 2019 в 07:20

А я то думал, будет road trip.

and7ey 26 янв 2019 в 11:17

В рейтинге субъектов РФ пропущены Москва и Санкт-Петербург :)

НЛО прилетело и опубликовало эту надпись здесь

Porfus 26 янв 2019 в 16:34

Вы правы, сейчас они учитываются в соответствующих областях, что конечно же неверно, но я это упустил

shark14 26 янв 2019 в 12:44

Каким образом осуществлялась выборка из, к примеру, 86048 фотографий в Москве? Какая методология?
В голову приходит выбор случайных точек в границах населенного пункта из графа дорог (например, из базы Openstreetmap, с учетом направления), и подстановка этих точек + направления взгляда в URL панорамы, но наверняка есть более простые способы.

Porfus 26 янв 2019 в 17:31

Вы совершенно правы — именно так и делал: использовал базу Osm, выбирал ноды c тегом highway со значениями residential, primary, secondary, tertiaty или unclassified. Необходимое количество нод определял по эмпирической формуле с учетом площади города. Лишние ноды случайным образом удалялись. По координатам нод запрашивал ID панорам, по ID панорам вытаскивал тайлы впереди авто.

Peacemaker 26 янв 2019 в 14:14

Была идея для стартапа для отслеживания и отображения состояния дорожного покрытия. предполагалось, что участники проекта устанавливают приложение на смартфон, который крепится на панели приборов, и собирает данные со своих датчиков — акселерометр, координаты, время, и отправляет данные на сервер для обработки, где и считается интегральный параметр качества дороги. В навигационных программах показывается качество дороги (по аналогии с пробками) и возможный расчёт маршрутов с учётом не только расстояния, но и состояния дорожного полотна по всему маршруту, т.н. «минимизация» ремонта подвески.

FantasyOR 28 янв 2019 в 10:39

я чуть выше описал проблему приложения регистрирующую показания акселерометра

olegiv2019 30 янв 2019 в 08:15

Круто! Очень полезной статья будет для Министерства транспорта РФ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий