mperepelitsyn Jun 3 2013 at 16:58

Путешествие через вычислительный конвейер процессора

16 min

144K

Programming *

From sandbox

+157

Comments 43

amarao Jun 3 2013 at 17:19

На практике HT увеличивает производительность примерно в 1.5 раза, а не в два (при условии хорошего параллелизма выполняемой задачи).

UFO landed and left these words here

amarao Jun 3 2013 at 20:09

Ну, я смотрел на чистую математику, то есть рассчёт чистой вычислительной задаче с идеальным (по алгоритму) параллелизмом. Там получалось 75% снижение скорости каждого ядра, итого — 150% рост по сравнению с не-HT ядрами.

Алсо, а java на увеличение числа ядер «ведётся» в принципе? Некоторые вещи вообще плохо масштабируются.

UFO landed and left these words here

VBart Jun 6 2013 at 20:49

iXBT — это такая мурзилка, которая пытается тестировать под Windows современные процессоры кодом, который был собран главным образом под i686 generic без всяких оптимизаций. Смешно.

This series of tests was again carried out on the Intel Core i7 970 «Gulftown» system with its six physical cores plus Hyper Threading to provide a total count of 12 threads.

UFO landed and left these words here

amarao Jun 3 2013 at 20:10

Давайте обобщим: «чертовски здорово не думать, пусть оно само работает».

x0wl Jun 4 2013 at 05:15

А не надо подобных обощений. Абстракции позволяют программисту сконцетрироваться на задаче, которую ему надо выполнить. И если это — задача, например, обработки данных, то ему определенно (по крайней мере, на первом этапе) незачем задумываться о том, что делает железо (понятно, что это очень важно для оптимизации в дальнейшем).
Художник же не задумывается, как работают белки в мышцах его рук, когда пишет картину. Тут то же самое.

amarao Jun 4 2013 at 06:47

Почему не надо? Если что-то работает само без усилий со стороны человека — что в этом плохого-то?

x0wl Jun 4 2013 at 07:13

Я просто «услышал» в вашем комментарии саркастические интонации. :)

Cooler_cool Jun 4 2013 at 15:37

Плохое может быть в том, что медленно работает. Но тут уже что именно делать с этим — от задачи зависит.

pascualle Jun 3 2013 at 23:42

Спасибо за статью. Очень интересно и доходчиво, жду продолжения.

alaev Jun 4 2013 at 03:12

Хорошая статья. Интересовался этим когда учился в институте.
Было приятно освежить свою память.
В документации которую я читал в прошлом, сброс конвеера был очень большой проблемой, и резко снижал производительность. Насколько вижу сейчас, вопрос решили довольно эффективно.

dmiceman Jun 4 2013 at 04:50

Кеш данных в i386? Я чего-то не знаю в этой жизни?

BarsMonster Jun 4 2013 at 20:37

Кеш там был только в поздних вариантах от сторонних производителей, и не в 85-м…

VBKesha Jun 4 2013 at 06:06

Спасибо! Интересно было почитать.

demoded Jun 4 2013 at 07:11

офигенно! сразу всплыла в памяти ностальгия по оптимизации U V pipeline у первого пентиума.

Walrus Jun 4 2013 at 15:41

«Сегодняшние процессоры (2008-2013) могут декодировать до четырёх инструкций за такт. » — правильный ответ 5.

BarsMonster Jun 4 2013 at 20:43

А если учесть, что в L1I кеше хранятся уже декодированные инструкции, этот параметр становится уже не так актуален :-)

Walrus Jun 5 2013 at 07:32

Так было в NetBurst (P4). В Core это убрали, и L1I хранит обычный x86 код.

BarsMonster Jun 5 2013 at 10:29

И затем добавили в виде L0-кеша в Sandy Bridge, в который влезает 1536 декодированный инструкций.

Walrus Jun 5 2013 at 13:52

Он не называется L0. :)
И с одной стороны часто весьма неплохо работает, снимает затык с декодера и поднимает настоящий IPC до 3-х. С другой стороны также много примеров когда его не хватает.

tyomitch Jun 4 2013 at 23:51

<зануда-mode>
Ещё один перевод, не оформленный как перевод.
</зануда-mode>

LANC Jun 5 2013 at 14:58

<капитан-mode>
Статья ведь из песочницы, первый пост.
При написании там нельзя выбрать что-либо
</капитан-mode>

vicnaum Jun 8 2013 at 08:51

Я бы вообще обязал в начале всех переводных статей писать хотя бы одно предложение наподобие:
«Перед вами перевод статьи из блога великого математика, программиста и инженера-микроархитектора интел Джона Джоновича об архитектуре x86-совместимых процессоров».
Это сразу бы снимало все комментарии и вопросы об авторстве, переводстве и проч. А то — то значок ищи, то ссылку, то еще что. А так — сразу, всё, и ясно.

tyomitch Jun 8 2013 at 17:04

Вовсе нет: значка в заголовке вполне достаточно, он уже вверху статьи и его не надо искать.

vicnaum Jun 8 2013 at 18:35

Точно не помню, но вроде бы в RSS его нет.

senia Jun 8 2013 at 18:39

В RSS к заголовку добавляют "[Перевод]" в начале. Не заметить сложно.

vicnaum Jun 8 2013 at 18:41

Значит я просто невнимательный )

EvilsInterrupt Jun 8 2013 at 18:56

Нет, недостаточно. Потому что если материал добротный и хочется еще чего-нибудь почитать от автора(не переводчика). Сейчас я это решаю только вопросом в личку, но не всегда отвечают быстро как хотелось бы

tyomitch Jun 8 2013 at 19:04

Ссылки на оригинал внизу текста недостаточно? Непосредственно рядом со ссылкой на переводчика.

EvilsInterrupt Jun 8 2013 at 19:56

Дамсссс… Слона-то я и не заметил. Достаточно! ;)

senia Jun 8 2013 at 19:04

(del) пара секунд разницы…

a5b Jun 5 2013 at 03:28

Картинка «OOO ядро с Hyper-Threading.» не внушает доверия. По данным Agner Fog How good is hyperthreading? 2009-09-29 ( Intel Core i7 ):

The following resources are shared between two threads running in the same core:

Cache
Branch prediction resources
Instruction fetch and decoding
Execution units

Т.е. дублирование «Instruction Cache, Fetch buffer, Decode» — не физическое, как нарисовано на картинке, а логическое (временное разделение, в каждом такте декодируется инструкция либо из одного треда, либо из другого).

Intel: Intel® Hyper-Threading Technology: Your Questions Answered, 2012

How is it implemented, under the covers?
The entire pipeline of the Nehalem-based processor core is set up to recognize 2 separate streams of instructions (one for each hardware thread). Various events cause the pipeline to switch from decoding and dispatching one stream to decoding/dispatching the other stream. All the resources in the pipeline are either shared or duplicated amongst the 2 hardware threads.

Подробное описание 1го поколения HT (Pentium 4), DT Marr, Hyper-Threading Technology Architecture and Microarchitecture, Intel Technology Journal Q1, 2002:

IA-32 Instruction Decode

The decode logic takes instruction bytes from the
streaming buffers and decodes them into uops. When
both threads are decoding instructions simultaneously,
the streaming buffers alternate between threads so that
both threads share the same decoder logic. The decode
logic has to keep two copies of all the state needed to
decode IA-32 instructions for the two logical processors
even though it only decodes instructions for one logical
processor at a time. In general, several instructions are
decoded for one logical processor before switching to
the other logical processor. The decision to do a coarser
level of granularity in switching between logical
processors was made in the interest of die size and to
reduce complexity.

Walrus Jun 5 2013 at 07:43

Ссылаться на NetBurst (P4) скользкий путь. Это тупиковая ветвь микроархитектуры, с появлением Core (который потомок Pentium M) ушла в утиль. У того же Fog прекрасно написано как работает HT в новых микроархитектурах — что продублировано, что шарится поровну, а что шарится «competitively»

Walrus Jun 5 2013 at 07:46

И вообще, перевод ужасен. Читайте оригиналы.

mperepelitsyn Jun 5 2013 at 14:34

Буду рад конструктивной критике в лс.

specx2 Jun 8 2013 at 22:55

Оригинальные регистры внутри процессора (AX, BX, CX, DX итд.) транслируются (или создаются псевдонимы) во внутренние, скрытые от программиста регистры.

Правильно ли я понимаю, что трансляция требуется из-за смены ядра CISC на RISC в Pentium Pro?

vanxant Aug 4 2013 at 20:38

Нет, она нужна, чтобы явно «развязать» инструкции, использующие одни и те же регистры для хранения разных величин.
Ну, например,

MOV EAX,1
PUSH EAX
MOV EAX,2
ADD EBX,EAX

Последние две инструкции можно выполнять параллельно с первыми двумя (как раз OOO, беспорядочное исполнение), хотя обе пары инструкций формально используют один и тот же регистр EAX.

valeriyk Aug 5 2013 at 15:57

en.wikipedia.org/wiki/Register_renaming

valeriyk Jul 26 2013 at 21:41

Конвейер в 486-ом вовсе не суперскалярный. Первый суперскаляр от Интел (не считая i960, который был несовместим с х86) — Pentium.

DenisSivtsev Oct 25 2016 at 10:59

Большое спасибо за статью, — очень познавательно