Обнаружение таблиц на сканах с использованием Fast-rcnn на Pytorch / Comments / Habr

Nehc Sep 21 2021 at 10:30

А зачем считаем area и iscrowd, если не возвращаем их потом в target?

И не до конца понял зачем .to(torch.float) после permute в img… По идее после деления на 255. там и так уже float. Ну разве что там float64, а вы хотите оптимизации по памяти… Ну тогда да — возможно.

Возможно избыточный backbone для этой задачи: resnet50, как мне кажется при обучении не в каждую видеокарту поместится! По вашей же ссылке есть пример, как поменять на что-нибудь попроще/компактнее/быстрее, раз уж все равно pretrained=False).

Вообще, нормальная заметка для начинающих — поставил плюс. По аналогии можно легко модифицировать под свои задачи! )

Comments 3

NewTechAudit Sep 22 2021 at 13:09

Да, действительно опечатка. Переменные area и iscrowd здесь избыточны, т.к тут решается задача детекции без сегментации.

MasterKenji Apr 4 2023 at 09:39

Не совсем эту конструкцию в def val понял:

with torch.no_grad():

loss_dict = model(images, targets)

Почему вы не используете model.eval() при валидации?