Соревнования по распознаванию изображений ImageNet 2013

    В декабре 2013 завершились ежегодные соревнования по распознаванию визуальных образов ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013), спонсируемые проектом ImageNet , который представляет собой огромную базу изображений. В настоящее время в базе имеется более 14 миллионов изображений.
    Участники соревнований решали три задачи, описанные под катом.
    Задача 1. Обнаружение на изображениях реальных сцен объектов, принадлежащих 200 различным категориям. В качестве обучающей выборки были представлены изображения, в которых для каждого изображенного на них объекта (из числа представленных 200 категорий) известен его класс и окаймляющий прямоугольник (пример такого изображения приведен на рисунке ниже).


    Обучающая выборка для решения этой задачи состояла из 395909 изображений, а тестовая – из 40152 изображений. Метки классов и окаймляющие прямоугольники для объектов тестовой выборки известны только на этапе тестирования.
    При оценке качества работы алгоритмов детекции учитывались правильно распознанные и локализованные объекты (площадь перекрытия известного окаймляющего прямоугольника и окаймляющего прямоугольника, предлагаемого алгоритмом для данного объекта изображения, должна быть более 50%). Если объект не был обнаружен на изображении или обнаружен более чем в одном экземпляре, то при оценке качества работы алгоритма это наказывалось.
    В результате, победителями стала та команда, чей алгоритм достиг лучшей точности на большинстве категорий. На первом месте оказалась команда UvA-Euvision (объединенная команда университета Амстердама и компании Euvision). Она оказалась победителем в распознавании объектов 130 из 200 категорий. Второе место заняла NEC-MU (компания NEC совместно с университетом Миссури) c 25 категориями. Презентация результатов этой команды здесь.

    Задача 2. Классификация объектов 1000 категорий. Обучающая выборка состояла из 1,2 миллионов изображений, а тестовая — из 150 тысяч изображений. Для каждого тестового изображения алгоритм распознавания должен выдать 5 меток классов в порядке убывания их достоверности. При подсчете ошибки учитывалось, соответствует ли наиболее достоверная метка с известной для каждого изображения меткой класса объекта, действительно присутствующего на изображении. Использование 5 меток задумано для того, чтобы исключить «наказание» для алгоритма в случае, когда он распознал на изображении объекты других классов, которые могут быть представлены в неявном виде (в качестве примера — см. рисунок ниже).


    Победителем в решении этой задачи стал ученик Джефри ХинтонаМэттью Зайлер (Matthew Zeiler), второе место заняла команда NUS из Национального университета Сингапура, а на третьем – команда ZF, состоящая из Мэттью Зайлер и Роба Фергуса.
    Мэттью Зайлер поставил перед собой задачу понять, что же именно влияет на качество распознавания при обучении сверточных нейронных сетей (Convolutional Neural Networks, CNN). Он разработал концепцию и технологию Deconvolutional Neural Networks для понимания и анализа работы свероточных нейронных сетей. Мэттью провел анализ нейронной сети – победительницы прошлогодних соревнований ILSVRC2012. В результате он выработал рекомендации для разработки структуры нейронной сети, которая и победила в задаче классификации 1000 категорий объектов. Для всех заинтересовавшихся: видео-презентация Мэттью Зайлера и сайт Мэттью Зайлера.

    Задача 3. Классификация и локализация объектов тех же самых 1000 классов. Для каждого изображения алгоритм должен выдать помимо 5 меток класса объекта еще и окаймляющие прямоугольники для каждой метки предполагаемого класса объекта. В этой части соревнований было всего два участника: команда OverFeat – NYU, занявшая первое место (одним из участников этой команды был легендарный Yann LeCun), и команда VGG (Visual Geometry Group, University of Oxford), занявшая, соответственно, второе место. Необходимо отметить, что OverFeat – NYU в решении задачи 2 заняла только 4-ое место, а в задаче 1 ее результаты не были учтены, т.к. она использовала дополнительные, внешние, графические изображения при обучении своего классификатора. OverFeat – NYU в качестве классификатора также использовали сверточную нейронную сеть. Презентация этой команды здесь.
    • +18
    • 12,5k
    • 8
    Нордавинд
    42,00
    Компания
    Поделиться публикацией

    Комментарии 8

      +1
      А есть какие-либо данные о реализации? Например, что использовали, просто интересен вопрос популярности того же OpenCV на подобных мероприятиях, и, может я пропустил, но я был бы рад видеть анонс этого соревнования на хабре, а не только его результаты =)
        +1
        Все они в той или иной мере используют сверточные нейронные сети с несколькими скрытыми слоями для извлечения (трейнинга) фич.

        На сколько я знаю OpenCV использует более традиционный подход к дизайну фич, и до representation/deep learning еще не добрался.
          0
          Мне кажется в последние пару лет deep learning уступил место регуляризации и топовые результаты достигают при помощи сверточных сетей и регуляризации (dropout, maxout). Во всяком случае, у меня такое впечатление сложилось.
            0
            на мой взгляд понятие «deep learning» практически эквивалентно понятию «нейронная сеть»
              0
              Ну сейчас да, хотя изначально термин все-таки означал pretraining скрытых слоев. Но с тех пор понятие размылось.
              0
              Ну 7-мь слоев у Зайлера это все таки довольно «глубоко» :).
            +2
            в принципе, технология реализации классификатора каждой команды — отдельный пост. Можете сами написать, например, по deconvolutional neural networks — на сайте Зайлера множество публикаций на эту тему:)
            0
            Я слушал доклад Зайлера на прошлой неделе на NIPS2013. На сколько я понял, архитектура такая ж что и у Крижевского. Но подход c deconvolutional слоями ему явно помог в отладке.

            Кстати, когда его прямо спросили, что он там сделал такое, что позволило обойти модель Крижевского, он отказался отвечать :).

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое