Как стать автором
Обновить

Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях

Время на прочтение 13 мин
Количество просмотров 92K
Всего голосов 21: ↑20 и ↓1 +19
Комментарии 9

Комментарии 9

Спасибо за статью. Отличный обзорный материал!
Хотелось бы отметить одну вещь насчет терминологии:
не приходилось встречать переводы их названий даже в русскоязычных источниках, поэтому на английском, чтобы не создавать путаницу

Но вы же даже дальше сами называете некоторые из них на русском.
Классификация, семантическая сегментация, детекция (локализация) объектов, сегментация объектов.
Называю их по русски дальше потому что мне показалось, что мои неформальные переводы будет легко связать по смыслу с той или иной задачей. Но если изначально дать собственные обозначения, кто-то потом может не связать их с общераспространёнными терминами в других местах.
Вы могли бы посоветовать что-то лучше? Черезмерное перемешивание русского текста с английским тоже не все любят, а его и так зачастую избежать не получается.
Лично меня не напрягает перемешивание русского текста с английским, но:
если изначально дать собственные обозначения, кто-то потом может не связать их с общераспространёнными терминами в других местах

Можно не давать собственные обозначения. Я же выше привёл общепринятые, в общем-то (кроме разве что instance segmentation, где перевод не особо устоявшийся).

Возможно, просто мне не попадались общепринятые на русском, поскольку большую часть материалов приходится на английском читать. Если вышеприведенные действительно часто встречаются, буду использовать их.

Спасибо.
nearest neighbor > ближайший сосед. это так и называется, мы это используем, но не в ml.
В ml есть ещё классификация k-nearest neighbors, k-NN. В таком контексте привычнее название выглядит.
Не очень ясен момент с производительностью такой сети. Это обработка в реальном времени видео-потока? Или выделение из статичных фото объектов?
Mask R-CNN в риалтайме на видео можно использовать разве что с очень уж неглубокой свёрточной частью типа MobileNetV2, и то FPS будет очень низким.

В pdf про Mask R-CNN пишут про 195ms — 400ms на изображение на Nvidia Tesla M40 GPU. Для видео это, наверно, многовато, но упоминается, что дальнейшая оптимизация возможна. Судя по тому, что эксперименты так же проводились на Cityscapes-датасете, об и пользовании модели в real-time задачах в будущем авторы задумывались.

Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации