В декабре 2013 завершились ежегодные соревнования по распознаванию визуальных образов ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013), спонсируемые проектом ImageNet , который представляет собой огромную базу изображений. В настоящее время в базе имеется более 14 миллионов изображений.
Участники соревнований решали три задачи, описанные под катом.
Задача 1. Обнаружение на изображениях реальных сцен объектов, принадлежащих 200 различным категориям. В качестве обучающей выборки были представлены изображения, в которых для каждого изображенного на них объекта (из числа представленных 200 категорий) известен его класс и окаймляющий прямоугольник (пример такого изображения приведен на рисунке ниже).
Обучающая выборка для решения этой задачи состояла из 395909 изображений, а тестовая – из 40152 изображений. Метки классов и окаймляющие прямоугольники для объектов тестовой выборки известны только на этапе тестирования.
При оценке качества работы алгоритмов детекции учитывались правильно распознанные и локализованные объекты (площадь перекрытия известного окаймляющего прямоугольника и окаймляющего прямоугольника, предлагаемого алгоритмом для данного объекта изображения, должна быть более 50%). Если объект не был обнаружен на изображении или обнаружен более чем в одном экземпляре, то при оценке качества работы алгоритма это наказывалось.
В результате, победителями стала та команда, чей алгоритм достиг лучшей точности на большинстве категорий. На первом месте оказалась команда UvA-Euvision (объединенная команда университета Амстердама и компании Euvision). Она оказалась победителем в распознавании объектов 130 из 200 категорий. Второе место заняла NEC-MU (компания NEC совместно с университетом Миссури) c 25 категориями. Презентация результатов этой команды здесь.
Задача 2. Классификация объектов 1000 категорий. Обучающая выборка состояла из 1,2 миллионов изображений, а тестовая — из 150 тысяч изображений. Для каждого тестового изображения алгоритм распознавания должен выдать 5 меток классов в порядке убывания их достоверности. При подсчете ошибки учитывалось, соответствует ли наиболее достоверная метка с известной для каждого изображения меткой класса объекта, действительно присутствующего на изображении. Использование 5 меток задумано для того, чтобы исключить «наказание» для алгоритма в случае, когда он распознал на изображении объекты других классов, которые могут быть представлены в неявном виде (в качестве примера — см. рисунок ниже).
Победителем в решении этой задачи стал ученик Джефри Хинтона – Мэттью Зайлер (Matthew Zeiler), второе место заняла команда NUS из Национального университета Сингапура, а на третьем – команда ZF, состоящая из Мэттью Зайлер и Роба Фергуса.
Мэттью Зайлер поставил перед собой задачу понять, что же именно влияет на качество распознавания при обучении сверточных нейронных сетей (Convolutional Neural Networks, CNN). Он разработал концепцию и технологию Deconvolutional Neural Networks для понимания и анализа работы свероточных нейронных сетей. Мэттью провел анализ нейронной сети – победительницы прошлогодних соревнований ILSVRC2012. В результате он выработал рекомендации для разработки структуры нейронной сети, которая и победила в задаче классификации 1000 категорий объектов. Для всех заинтересовавшихся: видео-презентация Мэттью Зайлера и сайт Мэттью Зайлера.
Задача 3. Классификация и локализация объектов тех же самых 1000 классов. Для каждого изображения алгоритм должен выдать помимо 5 меток класса объекта еще и окаймляющие прямоугольники для каждой метки предполагаемого класса объекта. В этой части соревнований было всего два участника: команда OverFeat – NYU, занявшая первое место (одним из участников этой команды был легендарный Yann LeCun), и команда VGG (Visual Geometry Group, University of Oxford), занявшая, соответственно, второе место. Необходимо отметить, что OverFeat – NYU в решении задачи 2 заняла только 4-ое место, а в задаче 1 ее результаты не были учтены, т.к. она использовала дополнительные, внешние, графические изображения при обучении своего классификатора. OverFeat – NYU в качестве классификатора также использовали сверточную нейронную сеть. Презентация этой команды здесь.
Участники соревнований решали три задачи, описанные под катом.
Задача 1. Обнаружение на изображениях реальных сцен объектов, принадлежащих 200 различным категориям. В качестве обучающей выборки были представлены изображения, в которых для каждого изображенного на них объекта (из числа представленных 200 категорий) известен его класс и окаймляющий прямоугольник (пример такого изображения приведен на рисунке ниже).
Обучающая выборка для решения этой задачи состояла из 395909 изображений, а тестовая – из 40152 изображений. Метки классов и окаймляющие прямоугольники для объектов тестовой выборки известны только на этапе тестирования.
При оценке качества работы алгоритмов детекции учитывались правильно распознанные и локализованные объекты (площадь перекрытия известного окаймляющего прямоугольника и окаймляющего прямоугольника, предлагаемого алгоритмом для данного объекта изображения, должна быть более 50%). Если объект не был обнаружен на изображении или обнаружен более чем в одном экземпляре, то при оценке качества работы алгоритма это наказывалось.
В результате, победителями стала та команда, чей алгоритм достиг лучшей точности на большинстве категорий. На первом месте оказалась команда UvA-Euvision (объединенная команда университета Амстердама и компании Euvision). Она оказалась победителем в распознавании объектов 130 из 200 категорий. Второе место заняла NEC-MU (компания NEC совместно с университетом Миссури) c 25 категориями. Презентация результатов этой команды здесь.
Задача 2. Классификация объектов 1000 категорий. Обучающая выборка состояла из 1,2 миллионов изображений, а тестовая — из 150 тысяч изображений. Для каждого тестового изображения алгоритм распознавания должен выдать 5 меток классов в порядке убывания их достоверности. При подсчете ошибки учитывалось, соответствует ли наиболее достоверная метка с известной для каждого изображения меткой класса объекта, действительно присутствующего на изображении. Использование 5 меток задумано для того, чтобы исключить «наказание» для алгоритма в случае, когда он распознал на изображении объекты других классов, которые могут быть представлены в неявном виде (в качестве примера — см. рисунок ниже).
Победителем в решении этой задачи стал ученик Джефри Хинтона – Мэттью Зайлер (Matthew Zeiler), второе место заняла команда NUS из Национального университета Сингапура, а на третьем – команда ZF, состоящая из Мэттью Зайлер и Роба Фергуса.
Мэттью Зайлер поставил перед собой задачу понять, что же именно влияет на качество распознавания при обучении сверточных нейронных сетей (Convolutional Neural Networks, CNN). Он разработал концепцию и технологию Deconvolutional Neural Networks для понимания и анализа работы свероточных нейронных сетей. Мэттью провел анализ нейронной сети – победительницы прошлогодних соревнований ILSVRC2012. В результате он выработал рекомендации для разработки структуры нейронной сети, которая и победила в задаче классификации 1000 категорий объектов. Для всех заинтересовавшихся: видео-презентация Мэттью Зайлера и сайт Мэттью Зайлера.
Задача 3. Классификация и локализация объектов тех же самых 1000 классов. Для каждого изображения алгоритм должен выдать помимо 5 меток класса объекта еще и окаймляющие прямоугольники для каждой метки предполагаемого класса объекта. В этой части соревнований было всего два участника: команда OverFeat – NYU, занявшая первое место (одним из участников этой команды был легендарный Yann LeCun), и команда VGG (Visual Geometry Group, University of Oxford), занявшая, соответственно, второе место. Необходимо отметить, что OverFeat – NYU в решении задачи 2 заняла только 4-ое место, а в задаче 1 ее результаты не были учтены, т.к. она использовала дополнительные, внешние, графические изображения при обучении своего классификатора. OverFeat – NYU в качестве классификатора также использовали сверточную нейронную сеть. Презентация этой команды здесь.