Комментарии 3
А зачем считаем area и iscrowd, если не возвращаем их потом в target?
И не до конца понял зачем .to(torch.float) после permute в img… По идее после деления на 255. там и так уже float. Ну разве что там float64, а вы хотите оптимизации по памяти… Ну тогда да — возможно.
Возможно избыточный backbone для этой задачи: resnet50, как мне кажется при обучении не в каждую видеокарту поместится! По вашей же ссылке есть пример, как поменять на что-нибудь попроще/компактнее/быстрее, раз уж все равно pretrained=False).
Вообще, нормальная заметка для начинающих — поставил плюс. По аналогии можно легко модифицировать под свои задачи! )
И не до конца понял зачем .to(torch.float) после permute в img… По идее после деления на 255. там и так уже float. Ну разве что там float64, а вы хотите оптимизации по памяти… Ну тогда да — возможно.
Возможно избыточный backbone для этой задачи: resnet50, как мне кажется при обучении не в каждую видеокарту поместится! По вашей же ссылке есть пример, как поменять на что-нибудь попроще/компактнее/быстрее, раз уж все равно pretrained=False).
Вообще, нормальная заметка для начинающих — поставил плюс. По аналогии можно легко модифицировать под свои задачи! )
Не совсем эту конструкцию в def val понял:
with torch.no_grad():
loss_dict = model(images, targets)
loss_dict = model(images, targets)
Почему вы не используете model.eval() при валидации?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Обнаружение таблиц на сканах с использованием Fast-rcnn на Pytorch