Comments / Profile of DesertFlow / Habr

User

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 2)

DesertFlow Jul 10 2019 at 14:57

Что интересно, даже если нейросеть обучена детектировать только людей на фото (как на картинке с пешеходами в статье), на самом деле она «понимает» и все остальные объекты в сцене. Информация о них хранится в финальном слое features. Можно взять только этот слой (обрезав последние один-два слоя сети), добавить пару чистых слоев и дообучить эту нейросеть распознавать, скажем, скамейки на улице, не обучая всю сеть заново с нуля.

Это очень мощный инструмент, позволяющий использовать предобученные на Imagenet нейросети для совершенно разных задач. Например, обученную распознавать котиков сеть можно легко превратить в показывающую карту глубины, как дешевую альтернативу лидару (а что, раз есть информация обо всех объектах в сцене, то просто регрессируем их не в номер класса с котиком, а в числа глубины).

На практике, конечно, есть всякие ограничения вроде ёмкости сети (размера слоя с фичами в данном случае, который может просто не вмещать всю нужную нам информацию). Или нейросеть может переобучиться конкретно под детекцию людей. Так что лучшие результаты показывают специализированные архитектуры. Но такая способность сверточных нейросетей хранить внутри себя в слое фич информацию, не относящуюся непосредственно к обучаемой задаче (но помогающей ее выполнить, очевидно) открывает широкие возможности. Если как-нибудь более удачно сформулировать loss, например через любопытство, то теоретически можно обучить сеть распознавать вообще любые объекты на фото, а не только из ограниченного списка классов (хотя и непонятно, в каком виде задавать выходы сети для этого).

Другое дело, что в живых организмах классы выделяются ради выживания. Например, обязательно нужно выделить класс «тигр», чтобы он вас не съел. Или «дерево», «препятствие» для целей навигации, чтобы убегать от того же тигра. Как задать похожие задачи для нейросети, хороший вопрос ). Сейчас что-то подобное пытаются делать, когда не хватает размера датасета. Например, для карт глубины мало трехмерных данных, поэтому пытаются через такой unsupervised learning самообучиться на стерео снимках или из движения камеры в видео. Теоретически, это позволит дальше улучшать точность распознавания, а главное — уменьшать ошибочные распознавания, что сейчас, при достигнутой точности современных нейросеть, даже выходит на первый план.