Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Также в EfficientDet используется хитрая фунцкия вместо SoftMax, в основе которой лежит метод быстрой нормализации слияния,
out[i] = in1[i]*w1 + in2[i]*w2 + in3[i]*w3;
out[i+1] = in1[i+1]*w1 + in2[i+1]*w2 + in3[i+1]*w3; ...2 ReLU используется повсеместно (и уже не новая) как функция активации, потому что дает более быстрое обучение. Она не может служить заменой SoftMax. Вы что-то путаете
В моих собственных экспериментах на Jetson Nano вариант MobileNetv3-small показывает ещё несколько более впечатляющие результаты.
вот автор одной из недавних реализаций на PyTorch заявляет о более высоком уровне в его экспериментах.

5. Как можно судить, в титульной реализации EfficientDet, похоже, вообще не очень-то преисполнялись темой быстродействия,
Researchers at Xnor.ai developed an object detection model they called You Only Look Once (aka YOLO), which the company licensed to enterprise customers including internet-connected home security camera company Wyse.

4. На GPU (и Jetson) ещё больше проблем с Grouped/Depthwise-conv используемых в EfficientDet.Результаты на AGX Xavier, полагаю, для int8? В любом случае, конечно, впечатляюще.
— MobileNetv3-small — 16.1% AP arxiv.org/pdf/1905.02244v5.pdf
— YOLOv4-416 — 41.2% AP и 30 FPS на Jetson Xavier AGX если запустить на OpenCV или tkDNN-TesnorRT batch=1
Потому что тестируют с batch=64Очень любопытно, спасибо, что уточнили! Я, увидев FPS, сразу неявно предположил, что действительно с batch-size=1 указано, а так это, конечно, меняет дело.
Если YOLOv4 запустить хотя бы с batch=4, то мы уже получаем более 400 FPS на той же RTX 2080Ti, с гораздо большей точностью чем у D0Ну, в варианте выше, как я понимаю, mixed precision использовался, быстродействие в нём мне не известно, но всё-таки с fp16, наверное, напрямую трудно сравнивать. Хотя Вы правы, разница тут, в общем, очевидна.
— MobileNetv3 — оптимальна только для CPU / мобильных-CPU / устройств 5-летней давности
— YOLOv4 full/tiny — оптимальна для GPU и NPU/VPU/TPU
— EfficientDet — ни для чего не оптимальна
5. Google это коммерческая компания, с большими зарплатами, которые там не платят просто за написание статьи. Сказать что им не важна скорость — это сказать, что им не важны деньги.Без всякого сарказма: у Вас есть объяснение тому, что при всём при этом разработки архитектур EfficientDet и MobileNetv3 вообще покинули стены лаборатории? Я в своих оценках могу основываться только на результатах, приведённых в статьях, которые, по Вашим словам, местами, мягко говоря, не без предвзятости (о чём, в общем, и в других источниках время от времени упоминается), хотя архитектурные решения EfficientDet мне кажутся элегантными. Неужели NIH-синдром? И считаете ли Вы базовую модель, EfficientNet, также не совсем удачной или с ней дела лучше?
В гугле работают десятки команд (если не сотни конечно), причём многие параллельно над одними и теми же задачами. Конечно же, совершенно точно, что многие из них работают над перспективными направлениями, без ожидания вот прямо сейчас коммерческой отдачи. Многие вещи делают просто как proof of concept.Согласен, внешне подчас так всё и выглядит. Мой вопрос был связан с тем, что из оценок Алексея можно сделать вывод, что представляемые отличительные особенности последних MobileNet и EfficientDet выглядят не просто спорно, а и чем-то близким к тупиковому пути развития, что, следуя этой мысли, могло быть очевидно ещё в процессе работы над моделями. У меня нет возможностей и наработок проверить на практике приведённые результаты, поэтому было интересно узнать, чем, согласно этому мнению, вообще руководствовались авторы. Думаю, мы все видели и очень высокие оценки, к примеру, EfficientDet, многие взялись за реализацию и применение, но было бы неудивительно, если бы это оказалось лишь следствием популярности, мощи и авторитета Google в этой области, да и разговоры о правдивости результатов в публикациях в целом по-прежнему идут, поэтому и с критическими отзывами полезно подробно ознакомиться.
И, я готов поспорить, что с высоты гугла yolo (особенно с учётом того, как её исторически трудно было тренировать, и из-за использования, скажем так, специфического и редкого фреймворка даркнет) — это просто одна из редких сеточек для детекции, которой кто-то где-то далеко наверное пользуется, но которая не стоит усилий, чтобы с ней детально сравниваться.Я имею очень мало опыта работы с YOLO, и, честно говоря, не испытываю к ней особенного интереса, но мне она вовсе не кажется каким-то малозаметным изобретением, не говоря уже о том, что, если я не ошибаюсь, современная история однотактных моделей локализации объектов, фактически, с неё и началась. Но в сути Вы, наверное, правы: мы видим только результаты, которые было решено раскрыть для широкой общественности, а цели, которые перед собой ставят команды таких больших и авторитетных компаний могут быть совершенно различными.
4. На GPU (и Jetson) ещё больше проблем с Grouped/Depthwise-conv используемых в EfficientDet.
— MobileNetv3-small — 16.1% AP arxiv.org/pdf/1905.02244v5.pdf
— YOLOv4-416 — 41.2% AP и 30 FPS на Jetson Xavier AGX если запустить на OpenCV или tkDNN-TesnorRT batch=1
Результаты на AGX Xavier, полагаю, для int8?
Очень любопытно, спасибо, что уточнили! Я, увидев FPS, сразу неявно предположил, что действительно с batch-size=1 указано, а так это, конечно, меняет дело.
— MobileNetv3 — оптимальна только для CPU / мобильных-CPU / устройств 5-летней давности
— YOLOv4 full/tiny — оптимальна для GPU и NPU/VPU/TPU
— EfficientDet — ни для чего не оптимальна
5. Google это коммерческая компания, с большими зарплатами, которые там не платят просто за написание статьи. Сказать что им не важна скорость — это сказать, что им не важны деньги.
Без всякого сарказма: у Вас есть объяснение тому, что при всём при этом разработки архитектур EfficientDet и MobileNetv3 вообще покинули стены лаборатории? Я в своих оценках могу основываться только на результатах, приведённых в статьях, которые, по Вашим словам, местами, мягко говоря, не без предвзятости (о чём, в общем, и в других источниках время от времени упоминается), хотя архитектурные решения EfficientDet мне кажутся элегантными. Неужели NIH-синдром? И считаете ли Вы базовую модель, EfficientNet, также не совсем удачной или с ней дела лучше?
Новая архитектура нейросети — EfficientDet