Comments / Profile of dimatheslayer / Habr

User

Тихая революция и новый дикий запад в ComputerVision

dimatheslayer Apr 24 2021 at 17:36

Хочу сказать спасибо за DPT, в нашей задаче раньше использовали Midas, попробывали DPT и результат шокировал, очень хорошее улучшение даже визуально. Осталось перенести ее на Tensorrt ) В процессе.

Приемы повышения производительности инференса глубоких моделей с DL Workbench. Часть 1 — введение и установка

dimatheslayer Apr 12 2021 at 20:47

Хехе, но вся загвоздка и трудность вот тут «В OpenVINO можно сконвертировать, оптимизировать и запустить модели в форматах Caffe, TensorFlow, MXNet, ONNX» так как обычная сначала требуется обратная операция, а потому уже все эти оптимизации на уровне фьюзинга слоев. Хотелось бы видеть в подобных гайдах как например сделать такой трюк например с Vit. Сам порой трачу по паре недель чтоб написать подобные модельки с использованием tensorrt c++, где есть возможность отладиться по слоям, что уж тут говорить о различных конвертерах которые часто выплевывают абракадрабру и все на этом, иди гугли, пиши ишшью и жди ответа по неделе.

YOLOv4 – самая точная real-time нейронная сеть на датасете Microsoft COCO

dimatheslayer May 25 2020 at 19:33

Приветствую автора. Подскажите пожалуйста, есть ли какие либо исследования детальные по neck (FPN,PAN,biFPN,FPN в YOLOv4), интересуют в большей степени case study по поводу количества блоков в пирамиде, оптимального числа fmaps которые нужно отправлять в fpn ( стандарт 256, тестил и 128, но супер сильной разницы не заметил) и по тому как сделать fpn более efficient с точки зрения forward pass затрат времени.Как я вижу вы проводили довольно большей ресерч по поводу комбинаций различных модулей и параметров, возможно вы и об этом знаете.

MASK-RCNN для поиска крыш по снимкам с беспилотников

dimatheslayer May 25 2020 at 08:24

Посмотрите внимательно на такую вещь как PointRend head, вы будете приятно удивлены результатами которые будут с точки зрения точности контура

Мобильный eye-tracking на PyTorch

dimatheslayer May 15 2020 at 06:09

openaccess.thecvf.com/content_cvpr_2017_workshops/w41/papers/Bulling_Its_Written_All_CVPR_2017_paper.pdf'
Рекомендую данную статью, делал сам модель которая предсказывала одновременно и положение головы, глаз и классификацию открытые\закрытые(multitask learning), для глаз полагался на эту статью, использовал только 2 точки — x,y — общий вектор направления на 2 глаза. Работает это все кул кроме вариантов когда человек смотрит вверх и закатывает глаза, видимо нужно все же 3д координаты и большая вариативность датасета