Разобрался и заставил ползти график вверх. Похоже, дело было в грязной среде. Решилось всё тем, что я взял nvidia-docker, на нём запустил Digits 5.1, в котором обучение пошло. Стандартный docker образ от nvidia, содержащий digits, не подходит для новых видеокарт. (там cuda 7.5)
Мои шаги для установки digits в docker, быть может кому-то пригодится
Спасибо за статью. Я новичок в этой области, и в попытках повторить все шаги автора, наступил на некоторые грабли:
Долго разбирался с форматом KITTY. Было не очевидно, что начало координат: левый верхний угол с нулевого индекса. Готовую базу можно посмотреть и проверить через KITTI Object development kit
Для новых Pascal видеокарт необходима cuda 8, на 7.5 будет ошибка.
В итоге застрял на самом обучении. По разному изменял параметры сети, график остаётся на нуле. На моей GTX 1060 6Гб памяти, поэтому использовал Batch size 5 и Batch Accumulation 2. В параметрах ClusterDetections: 720, 480, 16, 0.05, 1, 0.02, 10, 1
При этом график обучения выглядит вот так
В какую сторону нужно копать, чтобы заставить его обучаться?
Потом запустить контейнер nvidia/cuda:8.0-cudnn5-devel-ubuntu16.04 командой:
Присоединиться к запущенному контейнеру:
Внутри контейнера следовать инструкциям по установке caffe и digits:
https://github.com/NVIDIA/DIGITS/blob/master/docs/BuildCaffe.md
https://github.com/NVIDIA/DIGITS/blob/master/docs/BuildDigits.md
В инструкциях указаны не все пакеты, при возникновение ошибок нужно смотреть и доустанавливать. История не сохранилась, из того что помню:
В итоге застрял на самом обучении. По разному изменял параметры сети, график остаётся на нуле. На моей GTX 1060 6Гб памяти, поэтому использовал Batch size 5 и Batch Accumulation 2. В параметрах ClusterDetections: 720, 480, 16, 0.05, 1, 0.02, 10, 1
В какую сторону нужно копать, чтобы заставить его обучаться?