AntonyZak 12 дек 2022 в 11:51

Ускорение инференса модели BERT с помощью ONNX и ONNX Runtime на примере решения задачи классификации текста

12 мин

7.8K

Блог компании РостелекомМашинное обучение*Искусственный интеллектNatural Language Processing*

Технотекст 2022

+22

Комментарии 8

Andriljo 13 дек 2022 в 00:28

Отличная статья. Но хотел бы поправить, что LaBSE - это language agnostic BERT sentence encoder и эта модель не с родни USE или LASER, это трансформер BERT с 3мя тасками (MLM, NSP, paraphrasing sentence representation) вместо только первых 2ух как у BERT.

AntonyZak 13 дек 2022 в 08:24

Спасибо большое за уточнение!

snakers4 15 дек 2022 в 10:18

Хорошая статья, таких мало на Хабре сейчас.

От себя добавлю чего не хватает / что делает исследование немного неполным:

У вас вроде процессор с 4 ядрами и 8 потоками. У обоих фреймворков могут быть разные значения доступных им "threads" по умолчанию. Надо запускать при прочих равных по идее;
У PyTorch тоже есть очень простая встроенная динамическая квантизация. По-хорошему с ней тоже стоит сравнивать. Иногда бывает, что с квантизацией разница по скорости несущественная;

Стандартная оговорка, что некоторые кастомные модели сложнее конвертировать в ONNX, чет просто сделать JIT script и иногда пакеты торча и JIT-пакеты торча (там есть просто условно компилятор, а есть еще прямо пакетирование кода) позволяют удобно упаковать и немного обфусцировать код.

В целом наблюдал похожие выводы, но у меня было четко видно, что ONNX быстрее работает с короткими последовательностями, но у меня модели были немного другие.

AntonyZak 15 дек 2022 в 10:59

Спасибо Вам за развернутые замечания по статье!

Для PyTorch и ONNX Runtime количество "threads" установлено было в значение 1 (видимо, при переносе кода забыл указать, что для PyTorch - "torch.set_num_threads(1)", для ONNX Runtime - "options.intra_op_num_threads = 1").

PyTorch-квантизацию и JIT попробую в будущих исследованиях.

AntonyZak 15 дек 2022 в 11:30

А какие Вы модели конвертировали в ONNX?

snakers4 15 дек 2022 в 11:32

Например эту - https://github.com/snakers4/silero-vad

Kirili4ik 1 фев 2023 в 10:41

Спасибо за хорошую статью.

Подскажите, а есть ли ощутимые изменения качества при квантизации? Одинаковы ли они при различных способах квантизации? Я так понимаю, вы не учитывали это при выборе модели?

AntonyZak 2 фев 2023 в 10:58

Спасибо за вопрос.

Да, не учитывал. Пробовал только один вид квантизации (динамическую из onnxruntime), максимальная величина ухудшения метрик была не более 1%.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий