Мегагерцы против 64 бит: эпическая битва AMD и Intel, которая изменила всё / Хабр

В начале 2000-х годов AMD выпустила первый массовый 64-битный процессор для потребителей. В это же время Intel увязла в проблемах с архитектурой Pentium 4 NetBurst, где гонка за мегагерцами обернулась TDP до 115 Вт и производительностью ниже, чем у конкурентов.

Эта история о том, как AMD с Athlon 64 X2 доминировала на рынке, Pentium 4 Prescott превращал системные блоки в обогреватели, а Core 2 Duo вернул Intel лидерство на целое десятилетие. Разберем, почему концепция IPC стала важнее частоты и как это противостояние изменило индустрию.

Прорыв AMD: как Athlon 64 принес 64 бита в массы

В 2003 году, пока Intel топталась на месте со своим провальным Itanium, который требовал полной переработки софта, AMD предложила элегантное решение, которое изменило всю индустрию, — Athlon 64.

Историческая справка. В линейке Athlon 64 было несколько ключевых моделей. Топовая модель Athlon 64 FX-51 на Socket 940 была выпущена в сентябре 2003 года. Это был первый массовый 64-битный процессор, он поддерживал двухканальную регистровую память DDR и был оснащен кешем L2 объемом 1 МБ.

Для массового рынка параллельно вышли более доступные модели на Socket 754, которые работали с одноканальной небуферизованной памятью DDR. В апреле 2004 года для этого сокета появилось обновленное ядро Newcastle (CG), в котором кеш L2 был уменьшен до 512 КБ для снижения стоимости. Модели вроде Athlon 64 3200+ на этом ядре стали популярны благодаря балансу цены и производительности.

Ключевые различия между Socket 940 и Socket 754 заключались в количестве каналов памяти (два против одного) и в ее типе: флагманский Socket 940 требовал дорогой регистровой памяти, а массовый Socket 754 работал с обычной.

Позже, в июне 2004 года, AMD представила универсальный Socket 939, который поддерживал двухканальный режим с обычной памятью DDR. С ним высокая производительность стала доступной для широкой аудитории.

Главная фишка архитектуры x86-64 (AMD64) — полная обратная совместимость. Процессор мог работать как с новыми 64-битными приложениями, так и со старым 32-битным софтом. Никаких костылей, никаких проблем с запуском программ.

Это позволило системам использовать больше 4 ГБ оперативной памяти, чтобы можно было выполнять тяжелые задачи вроде рендеринга, работы с базами данных и профессиональными приложениями. Процессор получил дополнительные регистры и инструкции, что при переходе на 64 бита сразу ускоряло работу.

Но дело было не только в 64 битах. AMD встроила контроллер памяти прямо в процессор — шаг, который Intel повторил только через пять лет в Nehalem. Это решение убрало задержки при обращении к оперативной памяти, которые возникали у Intel из-за управления памятью через чипсет.

В тестах SiSoft Sandra 2004 Athlon 64 FX-51 показывал пропускную способность памяти около 5,6–5,7 ГБ/с, что было сопоставимо с Pentium 4 на шине FSB800 (6,4 ГБ/с теоретически), но с критически важной разницей. У AMD данные шли напрямую в процессор через встроенный контроллер памяти, а у Intel — через дополнительное звено в виде северного моста чипсета и общую шину FSB, которая обслуживала и память, и периферию, создавая узкие места.

Для связи с чипсетом AMD использовала отдельную шину HyperTransport с пропускной способностью до 6,4 ГБ/с. В играх эта разница была особенно заметна: в Quake III Arena процессор AMD уверенно обгонял Pentium 4. HyperTransport работала только для связи с чипсетом, память же подключалась напрямую к процессору. Увеличенный кеш L2 до 1 МБ и технология «точка-точка» с низкими задержками сделали архитектуру идеальной для многопроцессорных систем и серверов.

Провал NetBurst: как Intel поставила всё на мегагерцы

В конце 2000 года Intel представила архитектуру NetBurst. В ее основе лежала простая идея: побеждает тот, у кого больше гигагерц. Концепция выглядела логично: покупатели в магазинах выбирали процессор по одной цифре — чем больше мегагерц, тем лучше.

AMD была вынуждена ввести рейтинг п��оизводительности PR (Performance Rating), чтобы объяснить, почему их Athlon XP 3200+ на 2,2 ГГц быстрее Pentium 4 на 3 ГГц. Но Intel играла вдолгую: она планировала довести Pentium 4 до 10 ГГц и обогнать конкурентов за счет сверхвысоких частот.

Для достижения максимальных тактовых частот Intel пошла на гиперконвейеризацию. Первые Pentium 4 на ядре Willamette, выпущенные в 2000 году, имели 20-стадийный конвейер для целочисленных вычислений — вдвое больше, чем у Pentium III с его 10 стадиями. Это позволило разогнать процессоры до 2 ГГц и выше. Но когда в 2004 году вышел Prescott с еще более длинным конвейером, всё пошло не по плану.

Prescott получил прозвище PresHot — и он это заслужил. Его TDP доходил до 115 Вт, а реальное энергопотребление системы под нагрузкой могло взлетать до 192 Вт. Процессор требовал мощного кулера: тяжелого, шумного и дорогого. Любители экономии на охлаждении быстро сталкивались с термотроттлингом, когда процессор начинал душить сам себя, снижая частоту и производительность.

Переход Intel на 90-нм техпроцесс обернулся катастрофой. Вместо снижения энергопотребления начались массивные токи утечки в транзисторах, которые Intel не предвидела. Процессор жрал энергию даже в простое, а под нагрузкой превращался в обогреватель.

Intel попыталась ответить на успех Athlon 64 выпуском Pentium 4 Extreme Edition — процессора с 2 МБ кеша L3, позаимствованного у серверного Xeon MP. Это был откровенный маркетинговый ход, который дал прирост производительности всего на 3–10% в зависимости от задачи. Но цена была велика — 999 долларов. За эти деньги можно было купить флагманский Athlon 64 FX-51 и получить лучшую производительность во многих задачах.

А в мае 2005 года Intel совершила свою худшую ошибку — выпустила Pentium D. Это была склейка двух ядер Prescott на одном кристалле, и результат оказался катастрофическим. TDP моделей доходил до 130 Вт — это больше, чем у современных 16-ядерных процессоров. Два горячих ядра обменивались данными через оперативную память, а не напрямую, что убивало производительность. Когда AMD выкатила Athlon 64 X2, который был и быстрее, и холоднее, провал NetBurst стал очевиден всем.

IPC против гигагерц: почему эффективность важнее

Ключевая концепция, которая развенчала миф о мегагерцах, — это IPC, количество инструкций за такт. Процессор может работать на высоких частотах, но если за каждый такт он делает мало полезной работы — толку никакого. Реальная производительность складывается из трех компонентов: тактовой частоты, количества полезной работы за такт (IPC) и числа ядер. И тут Intel попала в собственную ловушку.

Чтобы разогнать Pentium 4 до 3,8 ГГц, конвейер для целочисленных вычислений растянули до 31 стадии. Каждая инструкция проходила через эти стадии одну за другой, и при ошибке предсказания переходов приходилось сбрасывать весь конвейер — терять десятки тактов впустую.

У Athlon 64 было всего 12 стадий. На практике это означало парадоксальные результаты. Pentium 4 1,7 ГГц уступал процессорам на 1,33 ГГц в неоптимизированных задачах. В большинстве задач ядро Prescott при той же частоте оказалось медленнее предыдущего Northwood, несмотря на удвоенный кеш L2 и добавление SSE3. А топовый Pentium D 940 с 3,2 ГГц и 4 МБ кеша с трудом обгонял младший Pentium E2140 с 1,6 ГГц и 1 МБ кеша. Хоть у E2140 было вдвое меньше частоты и в четыре раза меньше кеша, он всё равно показывал лучшие результаты в компиляции благодаря новой архитектуре Core.

Качество предсказания ветвлений и организация кеш-памяти оказались важнее мегагерц. У Athlon 64 встроенный контроллер памяти давал латентность 56,81 наносекунды против 63,75 у Pentium 4. Разница в 11% влияла на каждое обращение к оперативке. Короткий конвейер с эффективным предсказанием переходов ускорял реальные задачи сильнее, чем лишние 500 МГц частоты.

Энергоэффективность напрямую связана с архитектурной эффективностью. Каждая бесполезная стадия конвейера потребляет энергию. NetBurst с ее 31 стадией потребляла до 192 Вт под нагрузкой — энергия уходила на работу пустого конвейера после сброса, на ошибочно выполненные инструкции, на токи утечки в 90-нм кристалле. AMD Athlon 64 на тех же частотах потреблял вдвое меньше и делал больше работы.

Intel столкнулась с перегревом кристалла из-за невозможности отвести 115–130 Вт от процессора без ракетных систем охлаждения. Буквально уперлась в тепловую стену. Компания планировала в перспективе 10 ГГц. А максимум добралась до 3,8 ГГц, даже запланированный 4-гигагерцовый Pentium 4 был отменен. О Tejas и Jayhawk — процессорах с конвейером в 40–50 стадий для 7–10 ГГц — пришлось забыть.

Это заставило всю индустрию переосмыслить подход. Вместо наращивания частоты производители процессоров пошли на многоядерность и архитектурную эффективность. Эра мегагерц закончилась. Наступила эра эффективности.

Возвращение Intel: как Core 2 Duo вернул корпорации лидерство

В первом квартале 2006 года Intel представила архитектуру Core. Новая архитектура взяла лучшее от энергоэффективной мобильной линейки и полностью отказалась от провального NetBurst. Это был важный шаг — признать ошибку и вернуться к последней итерации микроархитектуры P6, к которой относился и Pentium III.

27 июля 2006 года вышел Core 2 Duo с кодовым именем Conroe — и это стало переломным моментом. Intel заявляла о смелых цифрах: на 40% больше производительности и на 40% меньшем энергопотреблении по сравнению с Pentium D. Действительно, TDP был снижен до 65 Вт, а в независимых тестах прирост производительности составлял 50–80% в зависимости от задачи. Core 2 Duo E6600 с частотой 2,4 ГГц уверенно обгонял Pentium D 945 с 3,4 ГГц.

Всё дело было в новом подходе. Intel Wide Dynamic Execution позволял каждому ядру обрабатывать до четырех инструкций за такт — это был успех в IPC после провальной NetBurst. Intel Advanced Digital Media Boost дал полноценные 128-битные SSE-блоки вместо 64-битных — теперь одну 128-битную SSE-инструкцию можно было выполнить за один такт, вдвое быстрее предыдущих поколений.

Intel Advanced Smart Cache стал еще одним козырем — общий кеш L2 от 2 до 4 МБ для обоих ядер, который динамически распределялся между ними в зависимости от нагрузки. Это повышало вероятность, что ядро найдет нужные данные в быстром кеше, а не побежит за ними в медленную оперативку. А самое главное — укороченный 14-стадийный конвейер против 31 у Prescott. Короче — эффективнее.

Core 2 Duo сразу обогнал Athlon 64 X2 по производительности и потреблял значительно меньше энергии. AMD, которая два года доминировала на рынке с X2, внезапно оказалась позади. А топовый Core 2 Extreme X6800 разгонялся до 3,6 ГГц на обычном кулере — о таком для Pentium D можно было только мечтать.

Как видим, гибкость и готовность признать ошибки спасают даже гигантов. Intel могла упереться в NetBurst и продолжать ее улучшать, но компания вовремя поняла, что тупик есть тупик. Спасением стали инвестиции в альтернативную архитектуру — энергоэффективный Pentium M для ноутбуков, представленный еще в 2003 году. Именно эта мобильная архитектура, а не провальная NetBurst, легла в основу Core 2 Duo и вернула Intel доминирование на рынке на целое десятилетие.

AMD же упустила момент для развития — и до появления AMD Ryzen в 2017 году ничего не могла противопоставить интеловским Core i7 и i5, которые были прямыми потомками той самой архитектуры Core. Но это уже совсем другая история.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

38.01%AMD65

56.14%Intel96

5.85%Другое10

Проголосовал 171 пользователь. Воздержались 5 пользователей.

Мегагерцы против 64 бит: эпическая битва AMD и Intel, которая изменила всё

Прорыв AMD: как Athlon 64 принес 64 бита в массы

Провал NetBurst: как Intel поставила всё на мегагерцы

IPC против гигагерц: почему эффективность важнее

Возвращение Intel: как Core 2 Duo вернул корпорации лидерство

Публикации

Информация