Как стать автором
Обновить

Комментарии 56

Круто! А можно где-то скачать обученные модели? Хочу опробовать на видео с регистратора.

Модели в ближайшее время планирую выложить в открытый доступ.
Сотни тысяч километров сельских и межпоселковых грунтовок, не любящих селфиться, делают данную интернет выборку нерепрезентативной.
Я в самом начале написал что мой рейтинг касается только городов с населением больше 100 000 и для этих начальных условий он вполне себе репрезентативен.
C уважением отношусь к вашему исследованию, но почему тогда в нем находится, например, Республика Алтай, в которой всего один город с населением в 50 тысяч человек?
Хорошо, если быть совсем точным то в анализ попали города, в которых более 100 тысяч жителей или являющимися федеральными центрами, и в которых есть панорамы от Яндекса. В статье все эти критерии описаны.
А где тогда Омская область? В одном только Омске население почти 2 млн. чел.
А ее разве нет? Полная таблица по субъектам федерации -> строка 51.
Для чистоты использования термина отмечу, что «федеральный центр» в России один — Москва.

Если вы про центры регионов, то так как Горно-Алтайск совсем небольшой, является местной столицей, а чиновники любят ездить с удобствами, то дороги в нем очень даже хорошие, особенно по сравнению со средним российским «стотысячником».

Так что если у вас данные только по городам, то итоговые результаты как минимум по РА вызывают большие вопросы.
Панорамы яндекса по некоторым городам не обновляются. Соотв статистика соответствует действительности на момент создания панорам это следовало учесть при выводах.
Вы правы. Добавил распределение по годам, из которого видно, что более 70% фотографий сделаны за последние 3 года.
Потрясающе! Если у каждой панорамы есть геометка, значит можно и результат нанести обратно на карту. Да, актуальность данных под вопросом, и потребуется обработка большого объема данных, но я бы с радостью поделился мощностями своего ПК ради такого проекта. За пределы РФ тоже было бы интересно заглянуть.
Если сообщество проявит интерес, то планирую спарсить панорамы Гугла и построить статистику по столицам мира и более детально по Европе.
очень интересно

Посмотрел на "худшие" города Керчь и Биробиджан на панормах Яндекса — обычные дороги, далеко не то, что я представляю после пугающего словосочетания "русские дороги".

Отличная статья!
Но… я живу в Марий Эл и могу с уверенностью сказать, что дороги здесь хуже, чем в большинстве других регионов.
Сколько, если не секрет, стоила разметка данных?

Сколько, если не секрет, стоила разметка данных?

Разметка обошлась где-то в 15 $ (с учетом тестовых прогонов).
Пробовал запускать большие задания в Я.Толоке (около 40 изображений на странице), но исполнители не особо охотно за них брались. Скажите, пожалуйста, какую цену назначали? Какое перекрытие использовали?
Цену ставил минимальную — 0.01 $ за задание. Перекрытие не использовал, отсеивал недобросовестных исполнителей только по контрольным заданиям.

Если 30000 размеченных фотографий, получается около 3.5 копеек за фото. Это реально так дешево?

Да, это реально так дешево, но и работа не сложная и не требует какой-либо квалификации от исполнителя.
к сожалению все эти выводы далеки от реальности. например Краснодар в котором я живу, за последний месяц дороги в городе сильно ухудшились и предпосылок к улучшению в ближайшее время нет )
да правильно, минусуйте ) правда она такая.
НЛО прилетело и опубликовало эту надпись здесь
было немного снега, дожди и немного мороза.
Супер! Если теперь скормить реальные фото дорожного полотна, например партнерскую программу с каким-нибудь разработчиком «видеорегистратора-для-смартфона» заключить, то и правда будет просто отличное решение.
Почему в качетсво не вложен момент дорожных знаков и трафика? Так же не понятно как вы определяете более детальный состав из чего состоит полотно. Каким машинам разрешено ездить и всякое такое. Ведь дорога портится если она рассчитана на легковушки, а по ней гоняют грузовики. В общем как-то слабовато.
Почему в качетсво не вложен момент дорожных знаков и трафика?

Вы правы качество дорог комплексный показатель. Я оценивал только один его аспект в силу ограниченности моих ресурсов (в основном временных) по разработке и разметки данных.
Так же не понятно как вы определяете более детальный состав из чего состоит полотно. Каким машинам разрешено ездить и всякое такое.

Я этого не определяю, я исхожу из того что дорого должна быть ровной. Неважно ездят по ней только микролитражки и скутеры или фуры с тракторами. Это вопрос к тем кто эту дорогу проектировал, строил и обслуживает.
вариант панорам Гугла я исключил, т. к. сервис представлен в меньшем количестве городов России и обновляется реже

Зря, по моему опыту у них даже побольше панорам (в свежести не уверен). Есть, например, почти все федеральные трассы, тогда как у Яндекса только города.
Ну и правильней было бы составить что-нибудь вроде максимального остовного дерева дорог по загруженности и анализировать только его. А то может получиться так, что в где-нибудь энтузиасты отсняли кучу второстепенных малоиспользуемых дорог и испортили рейтинг.

Отличная работа! Сколько трудодней на это ушло?
По вечерам с большими перерывами ушло где-то 3 месяца. Если чистыми 8-часовыми днями думаю неделя — полторы.
8 трудодней для такого результата — немного. Таким инструментом бы по медицинским наборам данных пробежаться — цены бы не было! Элетрокардиограммы, МРТ-граммы, рентгенограммы, УЗИ, изображения с микроскопов — автоматизировать диагностику
С медицинскими наборами всё несколько сложнее. Во-первых сами наборы в открытом доступе сложно найти (врачебная тайна и всё такое...). А во-вторых чтобы разметить их — нужно посадить за это дело высококвалифицированного специалиста. Для энтузиаста по вечерам довольно сложно получается.
Так что, скорее всего, на горизонте лет 3х, мы получим такой инструмент, но будет его делать какая-нибудь большая корпорация за очень много денег для богатых клиник
Есть крупные сети клиник, у которых есть и данные и интерес этим заняться.
Врачебная тайна тут совершенно ни при чём по тому что никто не должен разглашать что у Василия Пупкина сифилис, а всего лишь в наборе данных рамечено, что меланома в случае номер восемь.
И разметка эта уже выполнена высококвалифицированными специалистами. Ведь в сети клиник все рентгенограммы, анализы, ЭКГ, МРТ и пр. уже отсканированы и вложены в электронные медкарты и к каждой сделано заключение — а это и есть разметка.
Даже в каждом МРТ кабинете есть все цифровые снимки, сделанные в нём и к каждому снимку сделано заключение.
Согласен с gturk — тут все намного сложнее. С мед. изображениями не получится вырезать кусок где-то посередине и по нему судить здоров пациент или нет. Нужна попиксельная разметка изображений, которую должен сделать опытный специалист-медик. а другой специалист-медик должен ее подтвердить. другие сети (например U-net), которым нужно намного больше данных. Требования по точности тоже намного выше — вряд ли кого-нибудь устроит алгоритм, называющий здоровыми каждого десятого больного пациента.
Ну да, сложнее, никто не говорит за 8 дней всё сделать. Но во-первых этим всё равно прямо сейчас уже кто-то занимается, а во-вторых — и ценность результата выше.
Попиксельная разметка где-то нужна, где-то нет. В ЭКГ нечего попиксельно размечать. Разметка является проблемой для программиста-одиночки, но не для сети медклиник. А есть ещё условно-бесплатные студенты-медики, которые вполне способны камни в пузыре размечать в рамках своей практики — за пятёрки :-).
Кстати, по точности требования не такие жёсткие. Если алгоритм будет выявлять подозрения на патологию, дальше уже материалы можно передавать специалисту для диагноза. Так и дообучится.
Интересно, а могли бы разработчики Яндекс.Карт, собирая не только информацию для оценки пробок, но ещё и данные с акселерометров телефонов, на которых установлены приложения, оценить качество дорог по степени тряски при езде по ним?
А они каким-то образом оценивают. Навигатор в некоторых местах иногда выдает предупреждение о плохом качестве дорожного полотна. Или это по жалобам пользователей просто?
«Я джва года ждал...» но прокатился недавно на заграничном кроссовере (до этого ездил на вазе 7ка и гранта) и чтоже… хорошая дорога оказывается, ничего не скрипит/звенит/трещит/покачивается…

Т.е. датчики нужно ставить на колесо, а не после системы амортизации — где в угоду клиенту стараются отсечь всяческие дорожные изъяны (смартфон с приложением прикреплён на стекло/корпус авто)
На машину легко сделать поправку. Ведь люди на разных машинах с разными телефонами ездят по одним и тем же дорогам. Один едет на лексусе, а другой на сузуки, дорога одна, а «показатель тряски» разный. На основании этого вводим коэффициент.
Думаю, именно этому на разных интенсивах по big data как раз и обучают.
НЛО прилетело и опубликовало эту надпись здесь
Да зачем? Большинство пользователей Я.Карт наверняка ездит на одних и тех же машинах. Достаточно сохранять какой-нибудь хешированный идентификатор пользователя, чтобы было понятно, что вот эти и вот те данные пришли с одного и того же устройства (а значит, с высокой вероятностью, с одной и той же машины; контролировать это можно по повторяемости показателей при проезде одних и тех же участков дорог, сомнительные результаты отфильтровывать).

Тогда нужно просто спросить цену автомобиля и если она больше 1.5 мл (ну на таком меня прокатили) просто не учитывать их показатели… Я действительно был под впечатлением от чувства изолированности от дорожной обстановки

Занятно вышло. Что хотелось бы отметить:
1. Картинка с полной таблицей для городов кривая, там сейчас что-то мелкое и не то.
2. До скольки знаков округлялись проценты при ранжировании регионов? Явно не до целого знака, хотя на картинках они приведены в целых значениях и из-за этого возникает когнитивный диссонанс, т.к. многие регионы нужно менять местами. Например:
кусок вашей картинки
image

имхо, при равенстве у нескольких регионов (в целых процентах) количества хороших дорог, нужно было ранжировать по количеству дорог среднего качества. А то когда регион с 64% хороших дорог и 31% средних дорог находится ниже, чем регион с 64% хороших и 18% средних — это огорчает.
2.1. Либо вообще стоило отказаться от ранжирования по количеству хороших дорог, а ранжировать по кумулятивному показателю вида: (доля хороших дорог)*2 + (доля средних дорог)*1
3. Если верить вики, то примерно в половине регионов единственный город с населением 100k человек — сам областной центр, в этом случае рейтинг региона = рейтингу одного города, что не совсем корректно.
Картинка с полной таблицей для городов кривая, там сейчас что-то мелкое и не то

Проблема с Habrastorage — моя картинка 8k px по высоте, а он принимает максимум 5k px. Я думал обмануть его и залил на сторонний хостинг, но Habrastorage оказался хитрым и мстительным — скачал картинку себе, кропнул и уменьшил ее. Сейчас сделал картинку кликабельной.

До скольки знаков округлялись проценты при ранжировании регионов?
Ранжирование проводилось с числами в формате float32. Согласен по поводу введения формулы ранжирования, учитывающей все показатели, но боюсь, что введение любой формулы вызовет не меньшие споры по поводу ее адекватности.

Если верить вики, то примерно в половине регионов единственный город с населением 100k человек — сам областной центр, в этом случае рейтинг региона = рейтингу одного города, что не совсем корректно.
Скажу даже больше — многие областные центры имеют меньше 100k. К сожалению покрытие панорамами в малых городах оставляет желать лучшего. Время на разработку, ресурсы домашнего компьютера и прочие факторы вынудили поставить планку по количеству городов для анализа в том виде в каком она представлена в статье.
НЛО прилетело и опубликовало эту надпись здесь
Как человек, который жил одно время Биробиджане — соглашусь! Дорогие вроде есть, но нет живого места, чтобы без трещин, ям, швов и прочее.
В рейтинге субъектов РФ пропущены Москва и Санкт-Петербург :)
НЛО прилетело и опубликовало эту надпись здесь
Вы правы, сейчас они учитываются в соответствующих областях, что конечно же неверно, но я это упустил
Каким образом осуществлялась выборка из, к примеру, 86048 фотографий в Москве? Какая методология?
В голову приходит выбор случайных точек в границах населенного пункта из графа дорог (например, из базы Openstreetmap, с учетом направления), и подстановка этих точек + направления взгляда в URL панорамы, но наверняка есть более простые способы.
Вы совершенно правы — именно так и делал: использовал базу Osm, выбирал ноды c тегом highway со значениями residential, primary, secondary, tertiaty или unclassified. Необходимое количество нод определял по эмпирической формуле с учетом площади города. Лишние ноды случайным образом удалялись. По координатам нод запрашивал ID панорам, по ID панорам вытаскивал тайлы впереди авто.
Была идея для стартапа для отслеживания и отображения состояния дорожного покрытия. предполагалось, что участники проекта устанавливают приложение на смартфон, который крепится на панели приборов, и собирает данные со своих датчиков — акселерометр, координаты, время, и отправляет данные на сервер для обработки, где и считается интегральный параметр качества дороги. В навигационных программах показывается качество дороги (по аналогии с пробками) и возможный расчёт маршрутов с учётом не только расстояния, но и состояния дорожного полотна по всему маршруту, т.н. «минимизация» ремонта подвески.
Круто! Очень полезной статья будет для Министерства транспорта РФ
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории