YOLO (первый пример) может и в видео потоке локализировать объекты. Хорошая подборка сам пробовал большую часть из этого. Вопрос еще в том на каком железе это все вертится.
Да, верно. Оптимизация алгоритмов под выбранное железо — шаг, который тоже будет необходимо пройти. Это может быть Cloud, Desktop или Mobile. Mobile может быть на базе Jetson, Snapdragon, FPGA и тп.
Обзор алгоритмов глубокого машинного обучения для роботов