Pull to refresh

Google Research: Быстрое, точное выявление 100 000 категорий объектов на одной машине

Reading time3 min
Views11K
Original author: Tom Dean
Люди могут различать примерно 10 000 визуальных категорий высокого уровня, но мы можем различать гораздо больший спектр визуальных импульсов, называемых особыми признаками. Эти признаки могут соответствовать частям объекта, конечностям животного, архитектурным деталям, объектам на местности и другим зрительным образам, названия которых мы не знаем, но именно этот гораздо больший набор признаков мы используем в качестве основы для реконструкции и объяснения нашего ежедневного визуального опыта. Такие признаки обеспечивают компоненты для более сложных визуальных импульсов и создают контекст, который важен нам для разрешения неоднозначных композиций.

В отличие от нынешней практики компьютерного зрительного восприятия, пояснительный контекст, необходимый для решения визуальных деталей, может быть не только целиком и полностью местным. Мигающий быстрый красный прыгающий сигнал вдоль земли может быть детской игрушкой в контексте игровой площадки или петухом в контексте скотного двора. Было бы полезно иметь большое количество детекторов предметов, способных сигнализировать наличие таких предметов, включая детекторы для песочниц, качелей, горок, коров, кур, овец и сельскохозяйственных машин, необходимые для распознавания контекста с целью проведения разграничения между этими двумя возможными вариантами.

Лауреаты премии CVPR Best Paper Award (за лучший доклад по компьютерному зрению и распознаванию образов) этого года, в соавторстве с командой Googlers, куда входят Том Дин, Марк Рузон, Марк Сегал, Джонатан Шленс, Субхиндра Виджьянарасимхан и Джей Йягник, описывают технологию, которая позволит системе компьютерного зрения извлечь нужный тип семантически богатой контекстной информации, необходимой для распознавания визуальных категорий, даже если тщательного просмотра пикселей, покрывающих рассматриваемый объект, может быть недостаточно для их идентификации при отсутствии такой контекстной подсказки. В частности, рассмотрим основную операцию в машинном зрении, которая включает в себя определение уровня каждого конкретного местоположения объектов в изображении, где может присутствовать какой-либо конкретный объект.

Это так называемый оператор свертки, который является одним из ключевых элементов, используемых в машинном зрении и, более широко, в обработке всех сигналов. К сожалению, в вычислительном отношении, он дорог и, поэтому исследователи используют его экономно или пользуются экзотическим оборудованием SIMD, таким как графические процессоры и ПЛИС для уменьшения вычислительных затрат. Поставим всё с ног на голову, чтобы показать, как можно использовать быстрый табличный поиск – метод, называемый хешированием – для обмена времени на пространство, заменив вычислительно дорогой внутренний контур оператора свертки — последовательность операций умножения и сложения, необходимую для выполнения миллионов сверток, на один табличный поиск.

Мы демонстрируем преимущества нашего подхода путем масштабированного обнаружения объектов, доведя его из текущего состояния с привлечением нескольких сотен или, по большей мере, несколько тысяч категорий объектов до 100 000 категорий, что было бы эквивалентом более миллиона сверток. Кроме того, наша демонстрация была проведена на одном обычном компьютере, которому требуется всего лишь несколько секунд для каждого изображения. Основная технология используется в нескольких частях инфраструктуры Google и может быть применена к решению проблем вне компьютерного зрения, таких как обработка слуховых сигналов.

В среду, 26 июня, инженеры Google, ответственные за эти исследования, были награждены за лучший доклад на конференции IEEE по компьютерному зрению и распознаванию образов, которая состоялась в Портленде, штат Орегон.

Полный текст доклада можно найти здесь.

Цель публикации на Хабре: прочитать комментарии о перспективах технологий на базе данного исследования и их применения в рамках интернета.

P.S.
Это моя первая публикация на Хабре. Буду рад вашим замечаниям. И не судите строго.
Из-за нехватки кармы, нет возможности публиковать в хабах «Искусственный интеллект» и «Google».
Буду благодарен, если подскажите как перенести в указанные хабы.
Tags:
Hubs:
Total votes 32: ↑26 and ↓6+20
Comments8

Articles