Инженеры Google рассказали об успехах в распознавании номеров улиц с фотографий StreetView. Все очень просто — они использовали миллиард реальных человеческих мозгов, благодаря чему точность распознавания системы Google составила 96%. Однако, 2% людей намеренно вбивают неверное значение, поэтому 98% — эта цифра и будет целью для дальнейших исследований.
С нашей Российской нумерацией… отсутствием во многих местах надписей о номере дома (могут присутствовать надписи другого типа =D)… я думаю программа гугла загнулась бы еще на этапе старта.
У нас еще все очень здорово. В некоторых странах вообще нумеруются только дома на перекрёстках (да и то не всегда)…
Ещё интересно, как они там в гугле решают, что увиденная цифра — номер дома. Т.к. цифра может быть частью названия улицы, номером какой-нибудь трансформаторной будки и пр.
В Японии, ЕМНИП, номера домов назначены хронологически, а кварталы сами по себе имеют имена (в отличие от улиц). Но в рашеньке, КОНЕЧНО ЖЕ, всё априори хуже, чем везде.
Интересно, что на домах пишут не только номера домов. Например, есть номера пожарных кранов. А есть еще номера телефонов для аренды офисов — прямо на все окно или дверь — неплохой 10и значный номер. Есть буквы после номеров домов, которые напоминают цифры как Б и В и они не обязательно пишуться через тире. Да, есть много успешный способов сбить нейронную сеть с толку, уже опрабованных на тысячах других нейронных сетях по сложности превосоходящих любой неживой объект во вселенной. Чувствую, будет как в анекдоте
— 3030-й! Я последний раз спрашиваю, где 3030-й!
— Зозо моя фамилия, товарищ прапорщик.
Главный вопрос: кто находит и вырезает номера домов со снимков Street View для удовлетворения условий «на изображении номер должен точно присутствовать, и изображение должно быть подготовлено таким образом, чтобы искомый номер занимал примерно одну треть его»?
Если алгоритм или нейронная сеть — то интересно было бы почитать его описание.
Если штат индусов — то могли бы и цифры распознать заодно, никакие алгоритмы не нужны.
А тут уже все зависит от многих факторов. Среди них такие, как объем выборки (если у нас всего 100 изображений или 1млн — разные вещи) и уровень значимости (насколько точный результат нам надо, может быть нас удовлетворят и 90% правильных распознаваний). И многое другое.
Другими словами, в одной ситуации разница в 2% и в 4% представляет собой почти одно и тоже, а в другой ситуации — это непростительно. И как раз таки в ситуации с номерами домой, я думаю, это вполне простительно.
Там вообще-то рассмотрена эта проблема и решена, на мой взгляд, остроумно: результат каждого распознавания оценивается по степени его «надежности» и «ненадежно» распознанные варианты отбрасываются. Чем выше порог — тем меньше будет распознано изображений, но среди распознанных будет меньше процент ошибок.
И если выставить порог точности распознавания в 98%, то нейросеть распознает 96% изображений :). Т.е. 96% работы можно выполнять автоматически а остальные 4% поручить людям. Либо распознавать все 100% изображений, но уже с 4% ошибок. На мой взгляд это очень впечатляющее достижение.
Жаль что в этой работе не указан объем обучающей выборки. Если 96% достигнуто на второй половине базы после обучения на первой половине — то это отличный результат, а если в обучающую выборку входила вся база целиком (а у меня складывается ощущение, что в изрядной части «потрясающих достижений нейросетей» так и делали), то эти 96% ни о чем не говорят.
Инженеры Google рассказали об успехах в распознавании номеров домов с фотографий StreetView