Комментарии 1
Все правильно. Обучение в torch, экспорт в ONNX с квантизацией, инференс на GPU через TensorRT. Ускорение кратное. Стандартный продакшен пайплайн.
Единственное, я добавлю, что использование Python для работы с ONNX тоже имеет свой overhead. Самую большую производительность из ONNX получалось выжимать в C++ проекте, который статически линкуется с ONNX рантаймом, собираемым из сорцов на той же машине, с включенным LTCG и всеми оптимизациями.
Ускорение бывало до двух раз в сравнении с Python, особенно заметно на CPU. Но, и на GPU из-за отсутствия промежуточного слоя между Python и C++ тоже заметно. Сам ONNX то, - на С++ написан.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Ускоряем инференс в Python с ONNX