Google Research: Быстрое, точное выявление 100 000 категорий объектов на одной машине

Original author: Tom Dean
Люди могут различать примерно 10 000 визуальных категорий высокого уровня, но мы можем различать гораздо больший спектр визуальных импульсов, называемых особыми признаками. Эти признаки могут соответствовать частям объекта, конечностям животного, архитектурным деталям, объектам на местности и другим зрительным образам, названия которых мы не знаем, но именно этот гораздо больший набор признаков мы используем в качестве основы для реконструкции и объяснения нашего ежедневного визуального опыта. Такие признаки обеспечивают компоненты для более сложных визуальных импульсов и создают контекст, который важен нам для разрешения неоднозначных композиций.

В отличие от нынешней практики компьютерного зрительного восприятия, пояснительный контекст, необходимый для решения визуальных деталей, может быть не только целиком и полностью местным. Мигающий быстрый красный прыгающий сигнал вдоль земли может быть детской игрушкой в контексте игровой площадки или петухом в контексте скотного двора. Было бы полезно иметь большое количество детекторов предметов, способных сигнализировать наличие таких предметов, включая детекторы для песочниц, качелей, горок, коров, кур, овец и сельскохозяйственных машин, необходимые для распознавания контекста с целью проведения разграничения между этими двумя возможными вариантами.

Лауреаты премии CVPR Best Paper Award (за лучший доклад по компьютерному зрению и распознаванию образов) этого года, в соавторстве с командой Googlers, куда входят Том Дин, Марк Рузон, Марк Сегал, Джонатан Шленс, Субхиндра Виджьянарасимхан и Джей Йягник, описывают технологию, которая позволит системе компьютерного зрения извлечь нужный тип семантически богатой контекстной информации, необходимой для распознавания визуальных категорий, даже если тщательного просмотра пикселей, покрывающих рассматриваемый объект, может быть недостаточно для их идентификации при отсутствии такой контекстной подсказки. В частности, рассмотрим основную операцию в машинном зрении, которая включает в себя определение уровня каждого конкретного местоположения объектов в изображении, где может присутствовать какой-либо конкретный объект.

Это так называемый оператор свертки, который является одним из ключевых элементов, используемых в машинном зрении и, более широко, в обработке всех сигналов. К сожалению, в вычислительном отношении, он дорог и, поэтому исследователи используют его экономно или пользуются экзотическим оборудованием SIMD, таким как графические процессоры и ПЛИС для уменьшения вычислительных затрат. Поставим всё с ног на голову, чтобы показать, как можно использовать быстрый табличный поиск – метод, называемый хешированием – для обмена времени на пространство, заменив вычислительно дорогой внутренний контур оператора свертки — последовательность операций умножения и сложения, необходимую для выполнения миллионов сверток, на один табличный поиск.

Мы демонстрируем преимущества нашего подхода путем масштабированного обнаружения объектов, доведя его из текущего состояния с привлечением нескольких сотен или, по большей мере, несколько тысяч категорий объектов до 100 000 категорий, что было бы эквивалентом более миллиона сверток. Кроме того, наша демонстрация была проведена на одном обычном компьютере, которому требуется всего лишь несколько секунд для каждого изображения. Основная технология используется в нескольких частях инфраструктуры Google и может быть применена к решению проблем вне компьютерного зрения, таких как обработка слуховых сигналов.

В среду, 26 июня, инженеры Google, ответственные за эти исследования, были награждены за лучший доклад на конференции IEEE по компьютерному зрению и распознаванию образов, которая состоялась в Портленде, штат Орегон.

Полный текст доклада можно найти здесь.

Цель публикации на Хабре: прочитать комментарии о перспективах технологий на базе данного исследования и их применения в рамках интернета.

P.S.
Это моя первая публикация на Хабре. Буду рад вашим замечаниям. И не судите строго.
Из-за нехватки кармы, нет возможности публиковать в хабах «Искусственный интеллект» и «Google».
Буду благодарен, если подскажите как перенести в указанные хабы.
AdBlock has stolen the banner, but banners are not teeth — they will be back

More
Ads

Comments 8

    0
    Однако… 20 Гб RAM стали «обычным компьютером»… Не суть впрочем.
      +3
      Думаю, «обычный» в плане легко доступного железа. Памяти много, да. Но это не специальная разработка под конкретную задачу.
        +8
        Купить 24 Гб десктопной памяти сегодня стоит $150-$200, если не заморачиваться оверклокерскими планками. И я рад, что это стало так доступно. Тем более, если речь о заведомо больших объёмах данных для обработки, т.е. никак не домашнее применение. Ну да, для серверов дороже, но всего раза в два.
        +1
        Лучше бы перевод доклада опубликовали, тем более, что там не так уж и много текста…
        0
        В отличие от нынешней практики компьютерного зрительного восприятия, пояснительный контекст, необходимый для решения визуальных деталей, может быть не только целиком и полностью местным.

        Google Translate?
          0
          Дай бог, что бы Google Translate так переводил.

        Only users with full accounts can post comments. Log in, please.