Как стать автором
Обновить

Комментарии 12

Хорошая статья как обучающая. Когда я в Caffe и Theano разбирался мне таких не хватало:)
Хотел бы добавить, что перебор окон — это не оптимальный метод. Дня два назад на Хабре писал статью, где упоминал вот такой метод — pjreddie.com/darknet/yolo
Тут сразу сетка и рамку находит и распознаёт
Спасибо!
Да, я знаю, что не оптимальный, конечно. Но вообще, я надеялся это в светлом будущем обойти с помощью шеринга конволюционных слоев между окнами. Т.е. считать конволюции один раз для всей картинки, а потом применять к окнам только классификатор наверху.
Это один из хитрых инженерных хаков, которые необходимы для успешного деплоя на мобильные девайсы, которые я подразумевал.
Но как минимум у большого числа окон есть еще проблема с тем, что их же потом надо фильтровать (об этом во второй части), что добавляет степень свободы в выборе этого алгоритма, что не всегда хорошо.
Собственно, главным аргументом за перебор было то, что он точно работает.
А вообще, когда я начинал, этой статьи еще не было :)
Я сам про этот новый класс алгоритмов месяца 2-3 назад прочитал:)
А год назад про них вообще никто не слышал. Область сейчас развивается очень быстро.
Любопытно, интересно, как по качеству/скорости этот darknet соотносится с Faster-RCNN...
Ну, сами они говорят вот так:

Our model has several advantages over classifier-based systems. It looks at the whole image at test time so its predictions are informed by global context in the image. It also makes predictions with a single network evaluation unlike systems like R-CNN which require thousands for a single image. This makes it extremely fast, more than 1000x faster than R-CNN and 100x faster than Fast R-CNN. See our paper for more details on the full system.

По качеству не думаю, что всё так хорошо. Но видео с 30fps они обрабатывают вроде...
Ну короче посмотрел я на этот darknet с yolo… по качеству он проигрывает faster-rcnn, причем на глаз весьма значительно (каких-либо cnhjub[ метрик не мерял), при этом по производительности ± тоже самое. На каком железе они 30fps получили — не знаю, но на моей далеко не самой хилой GPU получается ~90-120ms на кадр...
Круто.
Я его не запускал, только читал/примеры смотрел. Обидно, если врут, конечно. Мне их идея куда больше идеи r-cnn нравится. Всё же подавать на вход гипотезы — это скучно и неправильно по-моему.
Что у них точность ниже они не скрывал, а вот что скорость такая же — обидно.

Вообще они писали что у их есть 3 разных модели, для самой быстрой они даже 155fps заявляли, но маленькую точность. Для средней писали 50fps. Но это никак всё равно не укладывается.
Мне их идея куда больше идеи r-cnn нравится. Всё же подавать на вход гипотезы — это скучно и неправильно по-моему.

Почитайте пэйпер по Faster-RCNN… авторы там отказались от Selective Search прочих пропозал генераторов, теперь там вместо этого специальная сетка тренируется, которая гипотезы выделяет)

Что у них точность ниже они не скрывал, а вот что скорость такая же — обидно.

ну, относительно RCNN и Fast-RCNN может быть спидапы и есть, я старые модели сам руками не крутил, только с Faster-RCNN игралсяю

Вообще они писали что у их есть 3 разных модели, для самой быстрой они даже 155fps заявляли, но маленькую точность. Для средней писали 50fps. Но это никак всё равно не укладывается.

Ну это не спортивно) У Faster-RCNN если оставить пару-тройку сверточных слоев при генерации фич, то он тоже летать наверно будет) По крайней мере при использовании ZF вместо VGG16 для первоначального сворачивания картинки, скорость вырастает вдвое и работает ~60ms на кадр, и по качеству все еще обходит yolo)
Оп. Моя ошибка. Не понял что Fast и Faster — разные вещи.
Спасибо, почитаю!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации