Tensorflow нынче единственный (насколько я знаю, поправьте меня если это не так) фреймворк, в котором интерфейс кернелов асинхронный. Из других я смотрел правда только на Chainer, Theano, DyNet.
XLA тоже очень интересный и правильный шаг здесь. Оптимизация с объединением операций пока что только тут. Но это инженерная база гугла помогает.
Трансляция TensorFlow Developer Summit