Как стать автором
Обновить

Комментарии 3

А зачем считаем area и iscrowd, если не возвращаем их потом в target?

И не до конца понял зачем .to(torch.float) после permute в img… По идее после деления на 255. там и так уже float. Ну разве что там float64, а вы хотите оптимизации по памяти… Ну тогда да — возможно.

Возможно избыточный backbone для этой задачи: resnet50, как мне кажется при обучении не в каждую видеокарту поместится! По вашей же ссылке есть пример, как поменять на что-нибудь попроще/компактнее/быстрее, раз уж все равно pretrained=False).

Вообще, нормальная заметка для начинающих — поставил плюс. По аналогии можно легко модифицировать под свои задачи! )

Да, действительно опечатка. Переменные area и iscrowd здесь избыточны, т.к тут решается задача детекции без сегментации.

Не совсем эту конструкцию в def val понял:

with torch.no_grad():

loss_dict = model(images, targets)

loss_dict = model(images, targets)

Почему вы не используете model.eval() при валидации?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации