Search
Write a publication
Pull to refresh
0
0
Send message

Очень хорошая статья, спасибо. Кое c чем не согласен и пара замечаний:
1) у systolic array по мере увеличения размера не уменьшается частота (и он по площади занимает сильно меньше, чем эквивалентный набор SM'ов с Tensor Cores, хотя последние и гибче в итоге)
2) маленькие тензорные ядра порождают большую внутреннюю полосу (чем меньше ядра, тем меньше data reuse и толще шины/полосы)
3) GPGPU легко программировать в общем случае, это да. Но в Nvidia программисты написали десятки тысяч вручную оптимизированных кернелей: для них это преимущество, а для стартапов - недостаток, нет столько программистов

XOR содержит один NOT. XOR = "^"


D = A ^ B


!A = D & B
!B = D & A


!C = !C

Information

Rating
11,646-th
Registered
Activity