Команда инженеров Google, возглавляемая парнем с дружелюбной фамилией Гудфеллоу (Ian Goodfellow, закончил университет по CS в 2009 году и может похвастаться солидным списком научных публикаций), опубликовала на arxiv.org работу, в которой отчиталась о своих успехах в сборе информации, которым располагает база проекта Google Street View — в частности, об автоматическом распознавании номеров домов с таким же качеством, как бы это делал человек. Красноречивый факт — Google может получить все номера домов во Франции (точнее, там где проехал гугломобиль) за время менее часа.
Работа называется Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks и в ней речь идёт о использовании нейронных сетей для целей распознавания. Как очевидно, дело сильно осложняется множеством факторов: разные места расположения номера дома, цвет таблички, её всевозможные наклоны, качество как самой таблички, так и её фотографии, и целый ряд других.
В итоге задачу переложили на модификацию нейронной сети DistBelief с 11-ю уровнями нейронов (это таже сеть, которую Google использует для «deep learning» для выявления семантического смысла понятий), которую требовалось обучить при некоторых упрощающих предположениях. Прежде всего на изображении номер должен точно присутствовать, и изображение должно быть подготовлено таким образом, чтобы искомый номер занимал примерно одну треть его. Также в команде вполне резонно допустили, что длина номера дома может быть ограничена пятью цифрами, что приемлемо для большинства систем городской нумерации в мире.
Вот так выглядит raw source для нейронной сети:
Тренировка сети заняла около шести дней и осуществлялась на материалах общедоступной базы Street View House Numbers, которая уже содержит примерно 200 000 таких же номеров. В итоге после обучения точность распознавания системы Google составила 96%, что сравнимо с человеческим показателем аналогичной работы в 98% — эта цифра и будет целью для дальнейших исследований.
[Источник]
Работа называется Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks и в ней речь идёт о использовании нейронных сетей для целей распознавания. Как очевидно, дело сильно осложняется множеством факторов: разные места расположения номера дома, цвет таблички, её всевозможные наклоны, качество как самой таблички, так и её фотографии, и целый ряд других.
В итоге задачу переложили на модификацию нейронной сети DistBelief с 11-ю уровнями нейронов (это таже сеть, которую Google использует для «deep learning» для выявления семантического смысла понятий), которую требовалось обучить при некоторых упрощающих предположениях. Прежде всего на изображении номер должен точно присутствовать, и изображение должно быть подготовлено таким образом, чтобы искомый номер занимал примерно одну треть его. Также в команде вполне резонно допустили, что длина номера дома может быть ограничена пятью цифрами, что приемлемо для большинства систем городской нумерации в мире.
Вот так выглядит raw source для нейронной сети:
Тренировка сети заняла около шести дней и осуществлялась на материалах общедоступной базы Street View House Numbers, которая уже содержит примерно 200 000 таких же номеров. В итоге после обучения точность распознавания системы Google составила 96%, что сравнимо с человеческим показателем аналогичной работы в 98% — эта цифра и будет целью для дальнейших исследований.
[Источник]