Хочу сказать спасибо за DPT, в нашей задаче раньше использовали Midas, попробывали DPT и результат шокировал, очень хорошее улучшение даже визуально. Осталось перенести ее на Tensorrt ) В процессе.
Хехе, но вся загвоздка и трудность вот тут «В OpenVINO можно сконвертировать, оптимизировать и запустить модели в форматах Caffe, TensorFlow, MXNet, ONNX» так как обычная сначала требуется обратная операция, а потому уже все эти оптимизации на уровне фьюзинга слоев. Хотелось бы видеть в подобных гайдах как например сделать такой трюк например с Vit. Сам порой трачу по паре недель чтоб написать подобные модельки с использованием tensorrt c++, где есть возможность отладиться по слоям, что уж тут говорить о различных конвертерах которые часто выплевывают абракадрабру и все на этом, иди гугли, пиши ишшью и жди ответа по неделе.
Приветствую автора. Подскажите пожалуйста, есть ли какие либо исследования детальные по neck (FPN,PAN,biFPN,FPN в YOLOv4), интересуют в большей степени case study по поводу количества блоков в пирамиде, оптимального числа fmaps которые нужно отправлять в fpn ( стандарт 256, тестил и 128, но супер сильной разницы не заметил) и по тому как сделать fpn более efficient с точки зрения forward pass затрат времени.Как я вижу вы проводили довольно большей ресерч по поводу комбинаций различных модулей и параметров, возможно вы и об этом знаете.
openaccess.thecvf.com/content_cvpr_2017_workshops/w41/papers/Bulling_Its_Written_All_CVPR_2017_paper.pdf'
Рекомендую данную статью, делал сам модель которая предсказывала одновременно и положение головы, глаз и классификацию открытые\закрытые(multitask learning), для глаз полагался на эту статью, использовал только 2 точки — x,y — общий вектор направления на 2 глаза. Работает это все кул кроме вариантов когда человек смотрит вверх и закатывает глаза, видимо нужно все же 3д координаты и большая вариативность датасета
Рекомендую данную статью, делал сам модель которая предсказывала одновременно и положение головы, глаз и классификацию открытые\закрытые(multitask learning), для глаз полагался на эту статью, использовал только 2 точки — x,y — общий вектор направления на 2 глаза. Работает это все кул кроме вариантов когда человек смотрит вверх и закатывает глаза, видимо нужно все же 3д координаты и большая вариативность датасета