Comments 14
Поэтому сети и делают глубокими. Если использовать свёртки 3×3, то выходы первого слоя будут оперировать информацией из области 3×3. А выходы второго слоя — из области 3×3 выходов первого, то есть будут использовать информацию из области 5×5 исходного изображения. И так далее.
Но что это туфли не соседа, случайно попавшего в кадр, и машина тоже не чужая — никакая CNN не поймет, пока не обучится всему тому, чему обучился человек.
Сети достаточно хорошо решают задачу instance segmentation, в которой выделяют на изображении пиксели, соответствующие разным людям.
Про «никакая CNN» — достаточно сильное утверждение. Можете подкрепить его ссылками на исследования или практическими примерами?
достаточно, чтобы достичь точности в 87%, войдя в top-5
На самом деле в оригинале речь о другом. Top-5 accuracy — это метрика, оценивающая точность сети. Сеть для каждого возможного класса (котики, автомобили и т.д.) выдаёт «вероятность», что на изображении именно этому классу принадлежит изображение. Предсказания затем упорядочиваются. И если в 87 % случаев правильный ответ оказывается среди первых пяти наиболее вероятных, то говорят о 87 % top-5 accuracy.
У нейросетей удивительно простая стратегия классификации изображений