Comments / Bookmarks / Profile of nikolas

User

stanislavshwartsman Jan 24 2021 at 06:59

Иногда очень хочется отследить кто первым вбросил этот тезис про «x86 ограничивает количество декодируемых инструкций за такт» и преимущество ARM. Все его бездумно повторяют, потому что не имеют ни малейшего представления что это значит)

Реальное бутылочное горлышко в OOOE ядрах это не декодер, а Register Renaming. Представьте что нужно переименовать 8 инструкций за такт. Блок переименования видит все 8, ему нужно выяснить зависимости между всеми 8 коммандами, выделить все sources для всех комманд и прочитать таблицы переименования регистров для их всех. Сложность переименования как минимум квадратичная от количества комманд в такт. То есть блок переименования на 8 инструкций будет в 4 раза больше, чем блок переименования на 4 инструкции. И это еще в лучшем случае. Не забываем, что сама процедура переименования должна завершиться на один такт, потому в следующем такте будут новые инструкции.
И все это верно для любого OOOE и вообще не зависит от оригинального instruction set.

AMD сделали renaming шириной в 6 в Ryzen, Intel шириной в 5 в IceLake. Сделать его шириной в 8 и одновременно сохранить заоблачные частоты под 5Hgz физически невозмодно на данный момент. Даже на частотах, на которых работает M1 возникает много вопросов «как они это смогли?» Есть предположение, что Apple использует скрытые предположения в блок register renaming, например что их компилятор гарантирует что в блоке из 8 инструкций никогда не будет 8 взаимно зависимых. Это бы сильно облегчило работу register renaming. Он может даже поддерживать этот случай, но сбрасываться на 4 инструкции в такт, например. Тогда на хорошем коде (а Apple контролирует свой код) все будет хорошо, а у остальных будет просто все работать.

Есть еще несколько вопросов типа «как они это сделали» вроде Data Cache 128KB на 3 такта latency или 8 блоков выполнения комманд. Это конечно все возможно, но тоже может считаться великим технологическим достижением. Но самая богатая в мире кампания может себе позволить набрать самых крутых CPU инженеров и сделать самый крутой в мире процессор на пару поколений обгонящий всех конкурентов.
Но это еще не значит, что они смогут удержать пальму первенства надолго. M1 возможно самое мощной монолитное ядро которое вообще можно построить на нынешних технологиях. Дальше нужно что-то другое, например много-кластерное ядро. Но создать такое, чтобы работало лучше монолитного прошлого поколения пока никто не смог. Посмотрим если гипотетический M3 или M4 сможет. От M2 можно обидать разве что минорных изменений и увеличения частоты, они уже на пределе.