Monnoroch 15 фев 2016 в 13:54

Глубокое обучение в гараже — Братство данных

10 мин

26K

Python*Программирование*Data Mining*GPGPU*Big Data*

+24

Комментарии 12

ZlodeiBaal 15 фев 2016 в 21:12

Хорошая статья как обучающая. Когда я в Caffe и Theano разбирался мне таких не хватало:)
Хотел бы добавить, что перебор окон — это не оптимальный метод. Дня два назад на Хабре писал статью, где упоминал вот такой метод — pjreddie.com/darknet/yolo
Тут сразу сетка и рамку находит и распознаёт

Monnoroch 15 фев 2016 в 21:19

Спасибо!
Да, я знаю, что не оптимальный, конечно. Но вообще, я надеялся это в светлом будущем обойти с помощью шеринга конволюционных слоев между окнами. Т.е. считать конволюции один раз для всей картинки, а потом применять к окнам только классификатор наверху.
Это один из хитрых инженерных хаков, которые необходимы для успешного деплоя на мобильные девайсы, которые я подразумевал.
Но как минимум у большого числа окон есть еще проблема с тем, что их же потом надо фильтровать (об этом во второй части), что добавляет степень свободы в выборе этого алгоритма, что не всегда хорошо.
Собственно, главным аргументом за перебор было то, что он точно работает.

Monnoroch 15 фев 2016 в 21:24

А вообще, когда я начинал, этой статьи еще не было :)

ZlodeiBaal 15 фев 2016 в 21:31

Я сам про этот новый класс алгоритмов месяца 2-3 назад прочитал:)
А год назад про них вообще никто не слышал. Область сейчас развивается очень быстро.

BelBES 15 фев 2016 в 22:27

Любопытно, интересно, как по качеству/скорости этот darknet соотносится с Faster-RCNN...

ZlodeiBaal 15 фев 2016 в 22:38

Ну, сами они говорят вот так:

Our model has several advantages over classifier-based systems. It looks at the whole image at test time so its predictions are informed by global context in the image. It also makes predictions with a single network evaluation unlike systems like R-CNN which require thousands for a single image. This makes it extremely fast, more than 1000x faster than R-CNN and 100x faster than Fast R-CNN. See our paper for more details on the full system.

По качеству не думаю, что всё так хорошо. Но видео с 30fps они обрабатывают вроде...

BelBES 15 фев 2016 в 23:25

Ну короче посмотрел я на этот darknet с yolo… по качеству он проигрывает faster-rcnn, причем на глаз весьма значительно (каких-либо cnhjub[ метрик не мерял), при этом по производительности ± тоже самое. На каком железе они 30fps получили — не знаю, но на моей далеко не самой хилой GPU получается ~90-120ms на кадр...

ZlodeiBaal 15 фев 2016 в 23:33

Круто.
Я его не запускал, только читал/примеры смотрел. Обидно, если врут, конечно. Мне их идея куда больше идеи r-cnn нравится. Всё же подавать на вход гипотезы — это скучно и неправильно по-моему.
Что у них точность ниже они не скрывал, а вот что скорость такая же — обидно.

Вообще они писали что у их есть 3 разных модели, для самой быстрой они даже 155fps заявляли, но маленькую точность. Для средней писали 50fps. Но это никак всё равно не укладывается.

BelBES 15 фев 2016 в 23:44

Мне их идея куда больше идеи r-cnn нравится. Всё же подавать на вход гипотезы — это скучно и неправильно по-моему.

Почитайте пэйпер по Faster-RCNN… авторы там отказались от Selective Search прочих пропозал генераторов, теперь там вместо этого специальная сетка тренируется, которая гипотезы выделяет)

Что у них точность ниже они не скрывал, а вот что скорость такая же — обидно.

ну, относительно RCNN и Fast-RCNN может быть спидапы и есть, я старые модели сам руками не крутил, только с Faster-RCNN игралсяю

Вообще они писали что у их есть 3 разных модели, для самой быстрой они даже 155fps заявляли, но маленькую точность. Для средней писали 50fps. Но это никак всё равно не укладывается.

Ну это не спортивно) У Faster-RCNN если оставить пару-тройку сверточных слоев при генерации фич, то он тоже летать наверно будет) По крайней мере при использовании ZF вместо VGG16 для первоначального сворачивания картинки, скорость вырастает вдвое и работает ~60ms на кадр, и по качеству все еще обходит yolo)