Проблема однозадачности
В прошлой серии я поставил на танк Intel Neural Computer Stick 2 и перекинул на него все нейросетевые вычисления, отказавшись от Tensorflow и OpenCV-DNN.
Была проблема, с которой я столкнулся уже тогда — невозможность работать с NCS из нескольких процессов одновременно. Тогда это было не критично, а сейчас пришло время разобраться.
При попытке загрузить модель из второго процесса OpenVino начинало ругаться:
E: [ncAPI] [ 926029] resetAll:348 Failed to connect to stalled device, rc: X_LINK_ERROR E: [ncAPI] [ 933282] ncDeviceOpen:672 Failed to find suitable device, rc: X_LINK_DEVICE_NOT_FOUND
Поиском по форуму поддержки Интела удалось найти похожую проблему.
Оттуда нас перебросили на документацию где четко сказано:
Single device cannot be shared across multiple processes.
На этом эксперименты можно сворачивать и начинать делать многопроцессный доступ.
NCS Service
Совершенно логично вынести прямую работу с NCS в отдельный сервис, а всем клиентам раздать API через который они и будут работать.
Вообще, это должна была быть тема про робота и его новые достижения в плане нейросетей. Но оказалось, что материал по NCS API вполне себе тянет на отдельную статью.
NCS API
На низком уровне NCS API очень простой:
— загрузить модель
— запустить расчет
— получить список моделей
— получить свойства модели
Если с загрузкой модели все однозначно, то выхлоп расчета представляет собой контекстно-зависимый тензор, который клиенту может быть нужен и не весь.
Получение списка моделей тоже достаточно прозрачно, а из свойств сразу в голову приходит размерность входного тензора — в переводе на человеческий язык это означает, что картинки хорошо бы заранее подгонять под настройки сети.
Кроме того, низкий уровень это хорошо, но если поддержать специализированные операции, то это упрощает логику и данные.
Таким образом, кроме базы есть задача поддержать API для классификации, детектирования и сегментации.
К сожалению, самые интересные модели сегментации не поддерживаются на NCS, поэтому придется ограничиться простейшей, с дорогой и разметкой.
Любая из этих операций использует базовый расчет модели, но различаются они в интерпретации выходного тензора.
Основной интерфейс
Итак, в основной интерфейс входят методы:
- POST: /load — загрузить модель
- POST: /unload/$model — удалить модель (из сервиса, с девайса удалить невозможно)
- GET: /list — получить список моделей
- GET: /input/shape/$model — узнать размерность входного тензора
- POST: /inference/file/$model — сделать расчет с данными из памяти
- POST: /inference/path/$model — сделать расчет с данными в файловой системе
Здесь два слова про данным из памяти и файловой системы:
Если NCS сервис и его пользователь запущены на одной Raspberry, то есть смысл сэкономить на передаче картинки и вместо этого передать путь, чтобы сервис сам прочитал файл.
Если же картинка уже в памяти (или не существует в файловой системе), то передаем ее прямо оттуда.
Тесты показывают, что передача байтов из памяти существенно медленнее (измерение сделано на 1000 попыток):
Из памяти: 87.5 секунд
Путь к файлу: 63.3150 секунд
Тем не менее, эти два варианта поддержаны для любого метода, как для общего расчета, так и для специальных случаев ниже.
В целом метод inference принимает на вход картинку в виде numpy array и выдает тензор в этом же формате.
Как трактовать выхлоп — это уже проблема клиента.
Чтобы эту задачу облегчить, сервис поддерживает специализированные методы, которые извлекают из выходного тензора значимую информацию в человеческом виде.
Классификация
Для классификации заводим отдельный REST-метод, который преобразует выходной тензор в набор пар (class, score).
def get_class_tensor(data): ret = [] thr = 0.01 while(True): cls = np.argmax(data) if data[cls] < thr: break; logging.debug(("Class", cls, "score", data[cls])) c = {"class" : int(cls), "score" : int(100 * data[cls])} data[cls] = 0 ret.append(c) return ret def classify(model_id, img): rc, out = run_inference(model_id, img) if not rc: return rc, out return True, get_class_tensor(out)
Как и в случае с обычным выводом, поддерживаются два способа — через файл в памяти и путь на диске.
- POST: /classify/file/$model
- POST: /classify/path/$model
Детектирование
Выходной тензор детектора содержит набор (класс, вероятность, нормированные координаты) и выглядит довольно громоздко.
Превращаем его в понятный вид, одновременно отсекая маловероятные варианты:
def get_detect_from_tensor(t, rows, cols): score = int(100 * t[2]) cls = int(t[1]) left = int(t[3] * cols) top = int(t[4] * rows) right = int(t[5] * cols) bottom = int(t[6] * rows) return {"class" : cls, "score" : score, "x" : left, "y" : top, "w" : (right - left), "h" : (bottom - top)} def build_detection(data, thr, rows, cols): T = {} for t in data: score = t[2] if score > thr: cls = int(t[1]) if cls not in T: T[cls] = get_detect_from_tensor(t, rows, cols) else: a = T[cls] if a["score"] < score: T[cls] = get_detect_from_tensor(t, rows, cols) return list(T.values()) def detect(model_id, img): rc, out = run_inference(model_id, img) if not rc: return rc, out rows, cols = img.shape[:2] return True, build_detection(out[0], 0.01, rows, cols)
Как обычно, поддерживаются оба способа:
- POST: /detect/file/$model
- POST: /detect/path/$model
Сегментация
Тензор сегментации содержит вероятности по классам да еще и в размерности нейросети.
Преобразуем это просто в маску классов:
def segment(model_id, img): rc, out = run_inference(model_id, img) if not rc: return rc, out out = np.argmax(out, axis=0) out = cv.resize(out, (img.shape[1], img.shape[0]),interpolation=cv.INTER_NEAREST) return True, out
- POST: /segment/file/$model
- POST: /segment/path/$model
Заключение
Как уже говорил, изначально я планировал рассказать о сервисе в одной из глав статьи о его использовании, но оказалось что объем тянет на отдельный документ.
Опять же, сервис я использую на Raspberry Pi, но он может быть запущен на любой платформе, где есть питон и OpenVino с NCS.
