All streams
Search
Write a publication
Pull to refresh
4
0.1
vladimir @code07734

Программист(хобби).

Send message
В упор не понимаю, как сложность схемы связана с частотой.

Чем больше схема тем меньше ее предельная частота. Слишком сложная схема не будет срабатывать за такт обычного ALU.
Потому не используют full hardware умножители в CPU.
а в ARM 32 регистра общего назначения вместо 16 в x64, это упрощает или усложняет жизнь?

В ARM это упрощает, но не значительно.

Физических регистров все равно сильно больше.

Хотя некоторые оценили.
superpowered.com/64-bit-arm-optimization-audio-signal-processing

Иногда упоминаются кейсы что возможность явного(руками) доступа к большему числу регистров лучше.
Иногда очень хочется отследить кто первым вбросил этот тезис про «x86 ограничивает количество декодируемых инструкций за такт»

Я не так выразился. Имею ввиду что нужно сделать 3+ операций чтобы выяснить следующее смещение и параллельно начать декодировать следующую инструкцию. Получется конвеер из инструкций с долгой задержкой между.

Но это еще не значит, что они смогут удержать пальму первенства надолго.

Ни разу не собирался такое заявлять.

Насчет ренэйминга отчасти да, O(n^2) это конечно плохо. Но в идеале код может быть построен компилятором так что это не потребуется.
В общем современные компиляторы неплохо с этим справляются, как минимум в простых случаях. И используют небольшое подмножество инструкций что тут(x86) что там(ARM).

Иногда очень хочется отследить кто первым вбросил этот тезис про «x86 ограничивает количество декодируемых инструкций за такт» и преимущество ARM. Все его бездумно повторяют, потому что не имеют ни малейшего представления что это значит)

Я не стал много расписывать, но думаю эта проблема имеет свое место. (Может я и не прав, но идем далее).
Декодеры отрабатывают немного транслируя код внутрь. И там уже программа выполняется. В случай интенсивного кода(какй-нибудь вычислительный цикл) декодеры вообще не играют роли. Расход на них стремится к нулю по мере длительности исполнения этого цикла.

Но например вэб, мне кажется один из тех случаев когда это влияет.
Веб — часто подгружаемый код на той же странице или в процессе постоянного браузинга.
По моей теории на вэб это влияет в смысле длительности прогрузки страницы.

Наверно еще не качественный код на скриптовом языке может попадать в этот кейс.

Интересен ваш вариант.

Edit:
Подумал еще про ренэйминг.

То есть блок переименования на 8 инструкций будет в 4 раза больше, чем блок переименования на 4 инструкции. И это еще в лучшем случае.

Не факт что блок этот — жесткий hardware. Может там простой(ые) процессор(ы) с ПЗУ. Хотя я точно не могу говорить как лучше.

Несмотря на такую сложность можно брать 8 micro uops за раз и начинать с нескольких мест… Может таким образом константа подрезается.
производительный процессор поменяли на дешевую арм затычку

ARM не значит медленно. Это просто набор инструкций. Уже сотни раз писали что x86 ISA ограничивает количество декодируемых инструкций за раз.

x86 ISA не меняется и это не предвидится. Да и смысла мало. Маленькие шаги наделают фрагментацию. И так куча разных векторных расширений.
Думаю они правильно сделали.

Брюзжу и буду брюзжать. А знаете почему? Потому что только так можно чего то добиться. Сломать донаты в батлфронт, перенести принятие новой политики приватности ватсап, удалить игру из каталога сони

Серьезно? Кто-то передумает из-за вашего мнения?
Я например смотрю тесты и все. Ну норм. Смотрю цены и… возможно беру. Как-то так наверно происходит обьективный выбор. Не?
>И никаких board support package, всё простое и открытое. Да, процессор без этих сложных конвейеров с предсказаниями, да, с производительностью в три раза ниже за ту же энергию, но простой, понятный, и открытый.

Да если современное железо упростить скорость и энергоэффективность только лучше станет
2 x ethernet то нахрена? Даже у x86 плат один обычно. Или я проспал что-то?
Что можно с двумя чего с одним нельзя? — Правда интересно.

>Посмотри на десктопный интел, прямо сейчас в днс 114 материнских плат, и 54 процессора. Из них я могу сложить 6156 компьютеров, и почти все будут работать. Кто еще так может?
Ну если считать процессоры с одинаковым числом ядер в пределах 500Mhz как за один(потому что разницы не чувствуется), то 6156 превратится в примерно 1000.
Да, у ARM все еще меньше будет выбор, но я с вами уже и согласился насчет периферии.

Я вижу кроме меня только вы не опускаете ARM в каждом комменте.
Решил с вами поделиться новостью.
Май настал)
www.anandtech.com/show/15813/arm-cortex-a78-cortex-x1-cpu-ip-diverging/4
>«покупаем асус и баста»
Я так не делаю. Да, пару тестов и все.
Можно самому проверить, иногда.
>Теперь остается узнать, что если ноуты, то каждый производитель реализует систему охлаждения в разных моделях по своему, а именно от неё зависит насколько задушат процессор.
В таблетах выбор на порядок меньше чем в ноутбуках.
Я взял cube mix plus. Не очень удачная вещь)
Но к нему оказалось легко приделать медную пластинку и процессор упал с 90 до 60 градусов. На полные 2.6 работает.
>от я не понимаю, внутри процессоров Intel всё равно используется ARM
Вы имели ввиду risc внутри? Там не arm.

>Qualcomm же выпустила ARM+x86 процессор, где можно на лету аппартаную архитектуру переключать.
Нет, там программная эмуляция и не от qualcomm а от microsoft
Причем тут бюджет? У меня выходит не больше 40 000 р раз в 3-4 года.
Может вы не так поняли.
1.Я УЖЕ знаю про эффективные zen 2 u-серии.
2.Я УЖЕ знаю что ice lake оказался не слабой печкой.
Покупал ноут на ice lake, мне вместо 2-ух 4 ядра достались.
Он вентилятор не заглушал вообще. Я сдал. Попутно узнал что и 2-ядерных вариантов все еще нет с пассивным охлаждением
3. К моменту покупки останется найти тесты Zen 3 и tiger lake.
Я уже предпочел zen 2 вместо ice lake, если новые не ждать. И все.
В утечках tiger lake было упоминание что intel займется эффективностью транзисторов, только не в смысле техпроцесса а в их количестве.
Самое важное:
Чтобы все это узнать — не нужно на форумах сидеть где люди это все обсуждают. Тесты SPEC в среднем по больнице — отличный показатель.
Я был там. Тогда я не понимаю как L3 занимает даже меньше чем x86.
Даже 64-битные умножители так много не занимают.
Про x86 часто говорят:
1.Кэши потребляют бОльшую часть энергии
2.Декодер требует мало энергии/площади.
И эти два противоречат.
Как я уже написал, сложность ISA вероятно имеет более глубокие последствия.
Нет, но сначала это скорее всего окажет приерно никакой эффект.

>Может быть, в выпиливании вообще нет никакого смысла?
А вот по такой логике их так и будет становиться все больше, а смысла выпиливать все так типа и не будет.
Я не могу дать точную оценку, но очень подозрительно что ядро больше чем L3
Мне кажется legacy имеет влияние сильно дальше чем область декодера.
Например, длина avx инструкций — не хорошо для кэша. А длина у них могла быть по меньше, будь больше свободных опкодов
>На хабре — про программирование
Отсюда следует что здесь некоторые люди и сами неплохие тесты проводят.
По железу лучше электронику почитать)
А так я поссылке почитал — и сразу нашел несколько сферически-логических выводов в вакууме.

Мне вот это не нужно даже
>На хоботе лучше про железо обсуждать или читать.

У меня сейчас tablet с клавиатурой на core m3 -7y30(kaby lake). Я знаю что zen2 и ice lake уже быстрее, следовательно когда я буду менять железо, то это будет zen2-3-4/ice-lake/tiger-lake. И не сильно важно какая там сторона на 5% быстрее.
О, нет. Я ошибся. Сами инструкции выполняются самим процессором.
Это только в случае с ARM эмуляция.
О, нет. Я знаю. Везде есть нормальные люди. Но хабр был полезнее для меня за все время. Практика по ассемблеру с помощью статьи, недавно. Например.
На ixbt я просто много насмотрелся когда люди спорят что лучше просто потому что. Без фактов. Оба.
Anandtech'ки довольно подробно делают тесты. На хабре тоже тесты часто качественные да еще и с фидбеком. Ну я тесты не особо часто читаю.
А ixbt чисто обзорный.
Не было у меня в ссылке ничего.
Мне жаль, но я не хочу столько читать.
Я бегло прошелся, тоже самое там что и здесь.
Одни говорят что arm крут, другие наоборот.
Как и у нас здесь с вами.
Один человек выразил странные сомнения что A76 слишком мал по площади чтобы быть таким быстрым. Все так привыкли к огромному по площади x86 что уже и не верят. Что тут поделать.
P.S.
Этот диалог превращается в бесполезный холивар.
Я поискал arm и graviton. Ничего не нашел или… не знаю.
Как тема называется?
Все равно впаянность такой роли уже не играет. У x86 уже такая экосистема что все материнские платы довольно функциональны. Если он станет распаянным, не составит труда найти нужную плату.
В то же время если одноплатники станут со сьемными процессорами — платы у них так и остануться без sata. На серверных платах у ARM как правило не так плохо с переферией.
По поводу gpu: Думаю одноплатники не предназначены пропускать 200 Вт. И с драйверами проблемы были бы.
А так — переходники ваше все)

Information

Rating
3,448-th
Location
Новосибирск, Новосибирская обл., Россия
Date of birth
Registered
Activity