Скорее всего будет быстрее, а может это только с сортировкой так. Я на CUDA ничего ещё не писал, думаю пришло время что то попробовать. Наверное стоит добавить тесты разных функций.
Дело в том что в этой либе можно использовать так называемый хостовый вектор(в примерах из оригинальной доки они всегда используются), где будет хранится оригинал данных, но это не обязательно. Лично я использую его только чтоб использовать std::generate, но можно и переписать всё под себя для compute::vector, используя итераторы.
UPD: Для большей эффективности можешь вызвать все что в цикле асинхронно.