Comments / Profile of Armmaster / Habr

Максим Маслов @Armmaster

User

Profile Publications 16Comments 663Bookmarks

Архитектура процессора Эльбрус: стоит ли все это своих денег?

Armmaster Jul 19 2021 at 14:06

Уважаемый коллега,

Во-первых, будь я хоть земляным червяком или Хищником, от этого технические аргументы не изменятся и проблемы Эльбруса никуда не уйдут. Во-вторых, в профессиональной технической дискуссии перейти на личности в первом же предложении - это расписаться в собственной некомпетентности в вопросе. Учтите на будущее.

Что касается Ваших тезисов. Они страдают некоторой оторванностью от практики, давайте попробую объяснить чуть подробнее. В утверждении "Интел буквально каждый раз один и тот же код анализирует в рантайме" нет никаких цифр, сколько это стоит в реальности. Потому что если OoO движок в сумме добавляет грубо говоря, 20% TDP, но при этом ускоряет работу программы в 2 раза - значит он улучшает энергоэффективность. Оценка реальной стоимости OoO крайне сложна, но мы можем просто посмотреть на практике, что Эльбрусы на схожих нанометрах имеют худшие показатели и перфа, и даже TDP, что в итоге даёт крайне плохие показатели по энергоэффективности. Собственно говоря, мне понятно почему и я пытаюсь уже детально технически объяснить, в чём причина.

Дальше, ваше заблуждение в том, что если ALU не работает, то пауэр не потребляется. В реальности, непосредственная работа ALU потребляет мало энергии, на уровне единиц процентов (если не брать сложные команды вроде sqrt и т.д.). А вот если вы не можете заполнить ШК, то все цепи в процессоре работают вхолостую. Это как на машинe с оптимальным режимом 100 км/ч гонять на первой скорости в 10км/ч по пробкам - расход топлива резко увеличивается. Для VLIW незаполненность ШК критически влияет на энергоэффективность.

Что касается предикатного кода - тут у вас недостаточно понимания нюансов работы Эльбруса. Представьте у вас есть if-узел, где по одной альтернативе просто обход, а по второй маленький линейный участок, где просто делается инкремент значения в памяти - абсолютно типичный и крайне распространённый паттерн. Проблема в таком коде в том, что вам надо ставить код маленького ЛУ под предикат и сливать с if-узлом (иначе он будет исполняться минимум 5 тактов), но выработка предиката занимает 2-3 такта, и если в if-узле мало кода (а так чаще всего и бывает), то вам придётся ждать выработки его значения и в итоге сильно ухудшать производительность. Поэтому компилятору Эльбруса не остаётся ничего другого, как снимать предикат с Load'a и ADD'a (чтобы спланировать их как можно выше) и оставлять под предикатом только STORE в память, выигрывая таким образом 4 такта. Но при таком преобразовании вы начинает исполнять LOAD и ADD ВСЕГДА, даже если в реальности вероятность перехода на маленький ЛУ близка к нулю.

Собственно, куча такого рода проблем и нюансов приводит к тому, что в реальности количество микроархитектрных операций, исполненных на Эльбрусе будет существенно ВЫШЕ, чем на том же x86. И это также отрицательно влияет на энергоэффективность, хотя не уверен, что это главная проблема. Скорее всего главная проблема именно в сложности регистрового файла и куче разных фич, которые нужны, чтобы добиться приемлемой производительности . По сути в Эльбрусе реализовано куча ОоО фич, которые просто менеджатся программно, а не аппаратно. А всё это жрёт энергию.