Как вы используете BERT для такого большого объема запросов? как известно BERT требует больших вычислительных мощностей в том числе для инференса. Поэтому как это работает для примерно 700 запросов в минуту, а в пиковой нагрузке так и больше, не совсем очевидно. Расскажите пожалуйста.
Так а что насчет диалога то?