Pull to refresh

Тренировочные наборы из видео — быстро и качественно

Reading time2 min
Views2K
Любой, не самый тривиальный (или просто редкий), объект с легкостью создаст массу проблем практически при каждой попытке применения нейронных сетей для решения реальных задач. Очевидно, отсутствие вменяемого тренировочного набора существенно усложняет подавляющее количество сценариев использования нейростевого подхода.

Как быть, например, с редким видом кузнечиков, распознавание представителей которого, по той или иной причине, стало очень важной задачей.


Все результаты/примеры получены самостоятельно (и быстро).

Нестандартные объекты


Реальный мир, как и реальные задачи, в подавляющем большинстве уникален, необычен, а часто просто очень специфичен, если говорить о цвете, форме, поведении и т.д.


Для успешного решения соответствующих задач необходимы данные (тренировочные наборы, в нашем случае). А поскольку не все пытаются строить «самый правильный» автопилот или искать улыбки на фотографиях — создание необходимых наборов становится основной проблемой.

Согласитесь, вероятность найти готовый и качественный набор для некоторого, очень специфичного, стиля раскраски стремится к нулю:


Кстати, кажется алгоритмы youtube чуть фейлят, когда дело касается «painted body». По крайней мере возвращаемый контент выглядит несколько спорным.

Обычный способ разметки


Хорошо, предположим, ручная разметка не выглядит очень страшной — вы не боитесь монотонной работы или crowd sourcing подходит и по качеству результата и по стоимости. Но это справедливо до тех пор, пока все сводится к bounding box (используется избитый пример, исключительно для наглядности):


Что делать, если специфика задачи требует нахождение точного контура? Mask RCNN вполне себе решение, но требует качественного и точного тренировочного набора. А контур отрисовать, как вы понимаете, это не прямоугольничек пометить и такая работа потребует несколько других усилий.

Автоматизированный подход


Извечный вопрос: «Что делать?». Ответ не мене тривиален — автоматизировать. Классические алгоритмы компьютерного зрения позволяют добиться приемлемых результатов при условии выполнение некоторых базовых условий.


Собственно, именно наложение дополнительных условий и не позволяет использовать данный подход в качестве основного решения.  Тем не менее, правильное стандартных алгоритмов позволяет очень быстро получить качественный, разнообразный и легко расширяемый набор.

Качественный настолько, что даже обычная замена цвета в выбранной области выглядит как практически готовое решение:


Детальнее о подходе в следующий раз.

Пример трейнинг сета


Подход с генерацией трейнинг сета из видео удобен тем, что финальный результат содержит исключительно «живые» и полностью реальные примеры, которые отображают вариативность и сложность реального мира. Например, губы:



Другие результаты





Следить за развитием проекта


   YouTube: RobotsCanSee
   Telegram: RobotsCanSeeUs
Tags:
Hubs:
+3
Comments8

Articles