Обновить

Комментарии 1

Все правильно. Обучение в torch, экспорт в ONNX с квантизацией, инференс на GPU через TensorRT. Ускорение кратное. Стандартный продакшен пайплайн.

Единственное, я добавлю, что использование Python для работы с ONNX тоже имеет свой overhead. Самую большую производительность из ONNX получалось выжимать в C++ проекте, который статически линкуется с ONNX рантаймом, собираемым из сорцов на той же машине, с включенным LTCG и всеми оптимизациями.

Ускорение бывало до двух раз в сравнении с Python, особенно заметно на CPU. Но, и на GPU из-за отсутствия промежуточного слоя между Python и C++ тоже заметно. Сам ONNX то, - на С++ написан.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
otus.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
OTUS