Обзор AMD Ryzen Threadripper 1950x и 1920x: CPU на стероидах / Хабр

В начале 2000 велась великая «Война Частот». Производитель, способный прогнать через свой процессор максимум циклов в секунду имел очевидное преимущество над конкурентами. Это привело к созданию некоторых весьма горячих чипов, чья архитектура была со временем позабыта во имя чего-то более разумного. Прошло 10-15 лет, вокруг нас гремит новая война: «Война Ядер». Как много ядер CPU со скоростным межпроцессорным взаимодействием можно поместить в процессор потребителя? Совсем недавно ответ был 10, и вот AMD врывается на рынок с новыми 16-ядерными процессорами Theadripper. Мы раздобыли оба — 1950x и 1920x, чтобы хорошенько поджарить их во имя свежего обзора.

Новый Мировой Порядок

В 2017 году AMD выпустила новую архитектуру микропроцессоров — Zen. Архитектура была применена в новой серии процессоров Ryzen с очевидной целью — оторвать часть рынка у хай-энд решений Intel для desktop PC. Трое представителей семейства Ryzen 7 имеют по 8 ядер с технологией hyperthreading и показывают очень хорошее соотношение производительности и цены, иногда показывая результат, сравнимый с вдвое более дорогими процессорами Intel. За ними следуют четыре Ryzen 5 процессора с ценой приблизительно равной линейке quad core i5. За те же деньги AMD предлагает процессор с двенадцатью потоками, что втрое больше, чем у Core i5. И наконец Ryzen 3 находится на ценовой позиции около $120, выступая прямым конкурентом Core i3, при этом имея вдвое больше ядер, чем продукт Intel. Теперь мы наблюдаем, что AMD официально представила семейство серверных процессоров AMD EPYC, предлагая до 32 ядер; в течение следующих нескольких месяцев продукт выйдет на рынок, а пока OEM-производители тестируют процессоры и определяют их производительность.

В стороне от перечисленных продуктов находится семейство AMD’s Ryzen Threadripper или попросту Threadripper. Эти процессоры имеют тот же дизайн, что и серверные AMD EPIC CPU, но адаптированы для настольных PC. Первые два процессора — 1950X и 1920X, имеющие 16 и 12 ядер соответственно. За ними последовал 8-ядерный 1900X, вышедший 31 августа, обещает появиться 1920, который правда пока еще не анонсирован. Все эти чипы устанавливаются в 4094-пиновый TR4 сокет LGA типа. Сокет идентичен SP3 сокету, используемому для EPIC (хотя сокеты не взаимозаменяемы), и на голову превосходит 1331-пиновый AM4 сокет PGA типа, используемый для процессоров Ryzen 7/5/3.

* Последняя информация от AMD, по нашим данным
** Неанонсированный продукт, технические характеристики могут быть изменены

Если Ryzen 7 нацелен на то, чтобы отобрать часть рынка у Интеловских хай-энд десктопных решений (HEDT), то Threadripper создан, чтобы задать новую планку производительности. Этот сегмент можно назвать «супер-хай-энд десктоп» (SHED). Количество ядер, которое AMD представило в процессорах Threadripper, раньше можно было наблюдать лишь в серверных решениях от Intel, компания предлагала 28 ядер за сумму равную почти $10 тыс. Предлагая чипы с большим количеством ядер, разумными частотами, мощностью и IPC, AMD стирает границы между пользователями, полупрофессионалами и корпоративными клиентами. Чтобы составить конкуренцию, Intel объявила о выходе платформы Skylake-X с 12, 14, 16 и 18 ядрами в течение следующих нескольких месяцев.

Как и самые быстрые чипы Intel, процессоры AMD наверняка будут востребованы теми, кто желает делать все и сразу. Для юзера домашнего ПК это может позволить совместить игровой процесс во время стрима (перекодировка и аплоад в рилтайме) с хостингом игрового сервера и параллельным выполнением каких-то дополнительных задач. Для полупрофессионального сегмента это означает обработку видео или проведение вычислений с использованием нескольких GPUs/FPGA. Суть идеи состоит в том, что если пользователю что-то нужно делать на компьютере, он может параллельно использовать систему для других задач, имея достаточный запас мощности CPU, PCI слоты, оперативную память и место в хранилище. Threadripper же, как уже сказано, унаследовал дизайн серверного процессора, и, соответственно, его аспекты высокой плотности производительности, которые определили сервера в последнее десятилетие.

Новый сокет, новые материнские платы

Опять же, подобно платформе Intel HEDT, AMD запускает платформу X399 под Threadripper, чтобы предоставить все необходимые инструменты новому процессору. Большой разъем TR4 и все его выводы обеспечивают четырехканальную память с двумя модулями DIMM на канал, а также до 60 линий PCIe для дополнительных плат (видеокарты, сетевые карты, SSD и т. д.). Эти материнские платы в настоящее время поддерживают два уже вышедших процессора Threadripper, плюс процессор, который будет запущен в конце месяца, и еще один процессор, который не был анонсирован, хотя получена инсайдерская информация о его выходе (дата выпуска неизвестна).

Новый сокет заметно отличается от предыдущих сокетов AMD, демонстрируя, как далеко шагнула технология. Вместо гнезда PGA с простой защелкой для надежной фиксации CPU в сокете разъем LGA TR4 имеет три винта Torx, которые необходимо откручивать в определенном порядке (как видно на рисунке выше), после чего фиксатор разъема просто открывается. Под ним находится кронштейн, в который и вставляется процессор. Каждый процессор Threadripper имеет несъемную рамку для удобного размещения CPU в кронштейне.

Из-за конструкции разъема и размера процессоров отверстия для крепления кулера CPU также различаются. Поскольку каждый представленный Threadripper рассчитан на 180 Вт, AMD рекомендует использовать как минимум жидкостное охлаждение и поставляет кронштейн процессора Asetek с каждым проданным процессором (также прилагается отвертка Torx).

Кронштейн более узкий с одной стороны, что указывает на «верх» сокета в традиционном расположении материнской платы.

Суть конструкции материнской платы сводится к тому, как каждая из доступных функций ввода-вывода маршрутизируется. Базовая блок-схема AMD выглядит следующим образом:

Предлагаемая конфигурация AMD дает 48 линий от CPU к слотам PCIe для 4-стороннего SLI / CFX-взаимодействия (16/16/8/8), 12 линий от CPU до слотов M.2 для 3-way x4 NVMe и 4 линии для чипсета. В таком случае чипсет может иметь два гигабитных порта Ethernet, слот PCIe x4, слот PCIe x1, PCIe x1 для Wi-Fi, порты SATA, USB 3.1 Gen 1 и USB 3.1 Gen 2 и порты USB 2.0.

Предположительно цены на материнские платы X399 будут варьироваться от $249 до $599 в зависимости от функционала. Системная плата, которую мы испытывали для написания этого обзора, была ASUS X399 ROG Zenith Extreme, у которой MSRP (рекомендуемая производителем розничная цена) составляет $549.

Конкуренты

Мы попросили как Intel, так и AMD разъяснить, кого они видят основным конкурентом процессоров Threadripper. С учетом того, что Threadripper является продуктом, ориентированным на потребителя, — что интересно, на самом деле не ориентированным на workstations — AMD ожидаемо заявила, что нынешний Core i9-7900X от Intel (10-ядерный процессор) – наиболее подходящий продукт на роль конкурента. Xeon же является корпоративным продуктом, который не будет продаваться в готовых системах, востребованных заказчикам Threadripper.

Intel удивила нас, сообщив в точности то же, что и AMD. Они заявили, что Core i9-7900X — главный конкурент Threadripper на момент выхода процессора. Ожидалось, что компаниями будет предложен какой-либо вариант более дешевого решения 2P, хотя, но выслушав мнение Intel, стало понятно, почему это не произошло. Есть две очевидных причины: во-первых, Intel Consumer и Intel Enterprise это практически две разные компании, которые мало пересекаются и участвуют в бизнесе друг друга. У них так же нет общей политики общения с прессой. Спросите Intel Consumer – получите ответ Consumer команды. Спросите команду Enterprise — и вы увидите, что они более сосредоточены на EPYC, а не Threadripper. Вторая причина заключается в том, что «дешевая система 2P» попросту не существует, если речь идет о покупке новых процессоров. В большинстве онлайн дискуссий на тему дешевых систем Intel 2P подразумевается покупка ЦП с серого рынка или у реселлеров.

Таким образом, реальный конкурент — это, по сути, Skylake-X (и Broadwell-E со скидкой). В итоге AMD Threadripper 1950X с 16 ядрами и 1920X с 12 ядрами противостоят Core i9-7900X с 10 ядрами и Core i7-7820X с 8 ядрами. Рассмотрим в роли соперников — Broadwell’s Core i7-6950X из-за его архитектуры, AMD Ryzen 7 1800X, Ryzen7 1700, который в список попал как пример неплохого соотношения производительность / цена.

Ключевым моментом здесь является то, что Threadripper имеет больше ядер и больше линий PCIe за ту же цену. ADM предлагает ЦП с более низким Turbo, но с более высокой базовой частотой, при немного большей мощности для подобных платформ. Это будет интересная битва.

Статьи в этом обзоре:

AMD Ryzen Theadripper 1950x и 1920x
Feeding the Beast и ключевые особенности процессоров
Чип, шина и NUMA
Creator Mode и Game Mode
Конфигурация тестового стенда
Набор тестов 2017
Benchmarking Performance: CPU System Tests
Benchmarking Performance: CPU Rendering Tests
Benchmarking Performance: CPU Web Tests
Benchmarking Performance: CPU Encoding Tests
Benchmarking Performance: CPU Office Tests
Benchmarking Performance: CPU Legacy Tests
Gaming Performance: Civilization 6 (1080p, 4K, 8K, 16K)
Gaming Performance: Ashes of the Singularity Escalation (1080p, 4K)
Gaming Performance: Shadow of Mordor (1080p, 4K)
Gaming Performance: Rise of the Tomb Raider (1080p, 4K)
Gaming Performance: Rocket League (1080p, 4K)
Gaming Performance: Grand Theft Auto V (1080p, 4K)
Энергопотребление, энергоэффективность
Анализ Creator Mode and Game Mode
Заключение

Дополнительные замечания

По причинам, от нас не зависящих, в этом обзоре нет тестов процессора Skylake-X. Возникли некоторые проблемы во время тестирования, которые отложили оный процесс на дату более позднюю. Мы запустили еще несколько тестов с использованием новейшего BIOS и с более серьезной системой охлаждения, но, после прибытия процессора Threadripper, SKL-X был аккуратно упакован, а его место подопытного занял Threadripper. Теперь, заглядывая назад на полученные результаты тестов SKL-X, очевидно, что возникшие проблемы были связаны с BIOS / прошивкой. В скором времени планируется усердно попотеть над поиском ошибки, для этого в планах заменить материнскую плату X299 на новую.

2. Feeding the Beast и ключевые особенности процессоров

Когда частота считалась важнейшей характеристикой процессоров, основная проблема заключалась в урегулировании таких характеристик как эффективность, тепловые характеристики и стоимость вычислений: чем выше поднимались частоты, тем больше напряжения требовалось, чем дальше от оптимального режима процессора, тем больше становилась потребляемая мощность на единицу работы. Для процессора, который занимал первое место в линейке продуктов, выполняя роль «чемпиона производительности», эти недостатки казались неважными — до тех пор, пока рабочая температура не достигла 90°C.

Теперь, с наступлением Войны Ядер, пришли другие проблемы. Когда ядро было только одно, предоставление данных для ядра через кэши и DRAM было относительно простой задачей. С 6, 8, 10, 12 и 16 ядрами главным камнем преткновения стала необходимость обеспечения каждого ядра потоком данных для непрерывной работы, чтобы избежать бессмысленного простоя ядер. Это непростая задача: каждое ядро процессора теперь нуждается в быстром способе обмена данными друг с другом и с основной памятью. Звучит это как «кормление зверя» (feeding the beast).

Ключевые особенности: 60 PCIe lanes vs 44 PCIe lanes

После долгих лет игры во второстепенных ролях, AMD с новыми процессорами займет одно из ведущих мест на рынке. У Ryzen 7 было только 16 PCIe линий (lane), и они могли частично конкурировать с процессорами Intel, имеющими 28/44 PCIe линий. Теперь же процессор Threadripper будет иметь доступ к 60 линиям для дополнительных плат PCIe. В некоторых случаях это можно назвать 64 линиями, однако четыре из них зарезервированы для чипсета X399. При цене $799 и $999 Threadripper конкурирует с 44 линиями PCIe на процессоре Intel Core i9-7900X по цене $999.

Причина такого количества линий PCIe – целевой рынок, на который эти процессоры ориентированы: потребители, выполняющие высокопроизводительные вычисления. Это пользователи, которые используют несколько графических процессоров, несколько устройств хранения PCIe, нуждаются в high-end сетях, high-end хранилищах данных и прочем разном hardware, которое можно использовать с помощью PCIe. В итоге мы, скорее всего, увидим материнские платы, имеющие 32 или 48 полосы для слотов PCIe (x16 / x16, x8 / x8 / x8 / x8, x16 / x16 / x16, x16 / x8 / x16 / x8), два или три слота PCIe 3.0 x4 для устройств хранения U.2 или M.2, и более быстрый Ethernet (5 Gbit, 10 Gbit). AMD позволяет каждый из корневых комплексов PCIe x16, разделить вплоть до x1 на максимум семь устройств. Четыре полосы PCIe, идущие на чипсет, также будут поддерживать несколько линий PCIe 3.0 и PCIe 2.0 для SATA или USB-контроллеров.

У Intel другая стратегия, позволяющая реализовать 44 полосы в x16 / x16 / x8 (40 полос) или x16 / x8 / x16 / x8 (40 полос) или x16 / x16 до x8 / x8 / x8 / x8 (32 полосы) с 4-12 полосами для хранения PCIe или более быстрых контроллеров Ethernet или Thunderbolt 3. У чипсета Skylake-X есть еще 24 шины PCIe для SATA, USB и гигабитных Ethernet контроллеров.

Ключевые особенности: DRAM и ECC

Продукты Intel разделены по нишам, поэтому если клиент хочет иметь процессор с большим количеством ядер с памятью ECC (error-correcting code memory, память с коррекцией ошибок), ему приходится покупать Xeon. Обычно Xeon поддерживает фиксированную скорость памяти в зависимости от количества заполненных каналов (1 DIMM на канал по DDR4-2666, 2 модуля DIMM на канал на DDR4-2400), а также технологии ECC и RDIMM. Однако потребительские платформы HEDT для Broadwell-E и Skylake-X не будут поддерживать эти технологии, и будут использовать только UDIMM Non-ECC.

AMD поддерживает ECC на своих процессорах Threadripper, предоставляя клиентам 16 ядер с ECC. Однако, они должны быть только UDIMM (unregistered DRAM), но с поддержкой разгона оперативной памяти, чтобы повысить скорость Infinity Fabric (для связи между отдельными блоками в процессорах AMD Ryzen используется внутреннее соединение Infinity Fabric, пришедшее на смену шине HyperTransport.). AMD официально заявила, что процессоры Threadripper могут поддерживать до 1 TB оперативной памяти, хотя для этого потребуются платы 128 GB UDIMM, максимальный размер которых составляет в настоящее время 16 GB. Intel же заявляет об ограничении в 128 GB для Skylake-X, при использовании 16 GB UDIMM.

Оба процессора поддерживают четырехканальную память на DDR4-2666 (1DPC — DIMM Per Channel) и DDR4-2400 (2DPC).

Ключевые особенности: кэш

Как AMD, так и Intel используют приватные кэши L2 для каждого ядра, затем кэш-память L3 (victim L3 cache) до того, как перейти в основную память. Victim cache — это кэш, который получает данные, удаленные из кэша под ним, и не может совершать предварительную выборку данных. Но размер этих кэшей и то, как AMD и Intel взаимодействует с ними, различны.

AMD использует 512 KB L2 кэша для каждого ядра, 8 MB L3 кэша на комплекс из четырех ядер. В 16-ядерном Threadripper таких комплексов из 4 ядер четыре, в итоге имеем 32 MB L3 кэша, однако каждое ядро может получить доступ только к данным, найденным в его локальном L3. Чтобы получить доступ к L3 другого комплекса, потребуется дополнительное время, что вызывает значительные задержки.

В Skylake-X от Intel получаем 1 MB L2 кэша на ядро, это означает более высокую вероятность попадания кэша L2, Кэш L3 был урезан до 1,375 MB на ядро. L3 перестал быть инклюзивным, а значит, содержимое кэша L2 не копируется в кэше L3, если ядру требуются данные другого ядра, находящиеся в кэше L2, то придется выполнять соответствующий запрос – этих данных в кэше L3 уже нет, соответственно требуется больше времени и возникает латенси, однако задержка несколько упорядочивается дизайном. Это заметно отличается от структуры кэша Broadwell-E, где 256 KB — L2 и 2,5 MB — L3 на ядро. В Broadwell-E кэши с инклюзивным архитектурным решением.

3. Чип, шина и NUMA

В линейке Ryzen AMD разработала 8-ядерную кремниевую микросхему, известную как чип Zeppelin. Он состоит из двух комплексов ядер (CCX) по четыре ядра каждый, причем каждый CCX имеет доступ к 8 МБ кэша L3. Чип Zeppelin имеет доступ к двум каналам DRAM и ограничение в 16 линий PCIe для дополнительных карт. С выходом Threadripper AMD удвоила эту матрицу.

Если бы вы разобрали процессор Threadripper, то увидели бы четыре кремниевых чипа, похожих на те, что и у процессора EPYC (Multi Core Module design MCM). Два из этих чипов — упрочняющие «прокладки», пустой кремний, не служащий ни для чего, кроме как для распределения веса кулера и охлаждения. Остальные два чипа (в противоположных углах, для улучшения тепловых характеристик и маршрутизации) — это по сути те же Zeppelin, что используются в Ryzen, каждый из которых содержит по восемь ядер и имеет доступ к двум каналам памяти. Они обмениваются данными через внутреннюю шину Infinity Fabric, для которой AMD заявляет пропускную способность в 102 GB/s (двунаправленный полный дуплекс) и задержку в 78 ns для доступа к ближайшей памяти (DRAM, подключенной к тому же чипу) и 133 ns для доступа к дальней памяти (DRAM на другом чипе). Мы проверили и можем подтвердить эти цифры для памяти DDR4-2400. При использовании DDR4-3200 достигается скорость доступа 65 ns и 108 ns соответственно.

Несмотря на то, что этот слайд AMD демонстрирует два чипа, в процессоре их четыре. Так как только два из них активны, AMD «упростила» диаграмму

Для сравнения, EPYC заявляет скорость обмена данными между чипами до 42,6 GB/s на DDR4-2666. Это связано с тем, что в EPYC есть три внутренние связи к чипам и одна внешняя (к другому сокету). Чипы в Threadripper должны взаимодействовать только с одним другим чипом, что дает некоторую гибкость. Создается впечатление, что Threadripper использует две связи из трех на скорости 10.4 GT/s (гигатранзакции в секунду):

Чип-к-чипу для EPYC ограничивается 42,6 GB/s при использовании DDR4-2667
Чип-к-чипу для Threadripper ограничивается 102,2 GB/s при использовании DDR4-3200
42,6 ГБ / с * 2 канала * 3200/2667 = 102,2 GB/s
42,6 ГБ / с * 3 канала * 3200/2667 при 8,0 GT/s = 115,8 GB/s (слишком много)
42,6 ГБ / с * 3 канала * 3200/2667 при 6.4 GT/s = 92,6 GB/s (слишком мало)

Эта конфигурация AMD именно то, что называется конфигурацией NUMA: неравномерный доступ к памяти (non-uniform memory access). Это означает, что код не может полагаться на постоянную (и низкую) задержку между запросом чего-либо из DRAM и его получением. Это может быть проблемой для высокопроизводительного кода, поэтому некоторые программы разработаны с поддержкой NUMA, позволяя привязывать память к ближайшему контроллеру DRAM, снижая потенциальную пропускную способность, но приоритизируя задержку.

NUMA не является чем-то новым в архитектуре x86. После того, как процессоры начали поставляться с контроллерами памяти на кристалле, вместо контроллеров вне чипа, на северном мосту материнской платы, NUMA стала неотъемлемой частью многопроцессорных систем. В этом отношении AMD была лидером с самого начала, они на годы опережали Intel в разработке контроллеров на чипе для x86 процессоров. Таким образом, AMD работает с NUMA в течение многих лет, и аналогичным образом NUMA уже почти десятилетие работает в многопроцессорных серверных системах Intel.

Новым в Threadripper является то, что наличие NUMA никогда не касалось потребителей. Пользовательские МСМ процессоры можно было пересчитать на пальцах, и нам пришлось бы вернуться к семейству Core 2 Quad, чтобы найти процессор с ядрами на нескольких кристаллах, что предшествовало контроллерам памяти для процессоров Intel. Таким образом, Threadripper стал первым процессором, который представил пользователям NUMA.

Но что более важно, потребительское программное обеспечение также не было подготовлено к NUMA, поэтому почти ни одна программа не может использовать его особенности. Хорошей новостью является то, что хотя NUMA и изменяет правила игры, но при этом не нарушает работу старого программного обеспечения. Операционные системы с поддержкой NUMA помогают неприспособленному программному обеспечению поддерживать потоки и работу с памятью на одном узле NUMA, чтобы обеспечить стандартные характеристики производительности.

Недостатком этого является то, что как сверхзаботливый родитель, ОС препятствует неприспособленному программному обеспечению использовать другие узлы NUMA, или, как в случае с Threadripper, запрещает приложениям использовать второй чип и его 8 ядер.

На аппаратном уровне Threadripper состоит из двух узлов NUMA

В идеальном мире все программное обеспечение было бы NUMA-совместимым, что устранило бы любые проблемы по данному вопросу. Но на практике все выглядит немного иначе: программное обеспечение меняется медленно, и весьма маловероятно, что в скором будущем процессоры в стиле NUMA станут обычным явлением. Кроме того, программировать под NUMA может быть достаточно сложно, особенно в случае рабочих нагрузок или алгоритмов, которые связаны с работой с «дальними» ядрами и памятью. Таким образом, причуды NUMA никогда не исчезнут полностью, именно поэтому AMD взяла на себя ответственность за решение этой проблемы.

AMD реализовала переключатели — как в BIOS, так и в приложении, чтобы поддерживать и контролировать NUMA у Threadripper. По умолчанию Threadripper фактически скрывает свою архитектуру NUMA. AMD вместо этого использует Threadripper в конфигурации UMA: унифицированная система доступа к памяти, в которой память отправляется на любую DRAM, а задержка является переменной (например, ~ 100 ns в среднем между 78 ns и 133 ns), но фокусируется на высокой пиковой пропускной способности. С помощью представления CPU для ОС в виде цельного дизайна, пропускная способность памяти увеличивается, и все приложения (NUMA-совместимые и нет) видят все 16 ядер как часть одного и того же CPU. Таким образом, для приложений, не поддерживающих NUMA (и, следовательно, их производительность была бы понижена операционной системой в режиме NUMA) — это позволяет максимизировать количество ядер, потоков и памяти, которые они могут использовать.

Все 32 потока представляются как часть одного монолитного CPU

Недостатком режима UMA является то, что, поскольку он скрывает, как работает Threadripper, он не позволяет ОС и приложениям принимать полностью обоснованные решения, и, следовательно, их производительность снижена. Приложения, являющиеся чувствительными к задержкам и не оптимизированные под NUMA, могут терять в производительности, если они используют ядра и память, прикрепленные к другому чипу. Именно поэтому AMD позволяет настраивать Threadripper для режима NUMA, отображая полностью его дизайн для ОС и получая в результате отдельные устройства NUMA для двух чипов. Это предписывает ОС держать приложения привязанными к одному кристаллу, по возможности. Такой режим жизненно важен для некоторого программного обеспечения и игр, и мы проверили это в нашем обзоре.

В целом, использование мульти-кристального дизайна имеет положительные и отрицательные стороны. Отрицательные представляют собой неравномерные задержки памяти, неравномерные задержки обращения ядро-к-ядру и избыточность в вычислениях на чипе, которые не нужно повторять. В результате AMD использует 400mm2+ кристаллы, что может увеличить затраты на уровне производства. Положительные же стороны в дизайне кристалла заключаются в возможности проектировать один кристалл и просто повторять его, вместо того, чтоб создавать несколько разных архитектур, которые умножают производственные затраты.

Intel использует единый монолитный кристалл в процессорах Skylake-X: LCC чип, содержащий до 10 ядер и HCC, содержащий от 12 до 18 ядер. Они используют прямоугольную сетку ядер (3x4 и 5x4 соответственно), причем два сегмента зарезервированы для контроллеров памяти. Для связи между ядрами Intel использует сетевое соединение, которое определяет, в каком направлении должны двигаться данные (вверх, вниз, влево, вправо или приниматься в ядро). В нашем обзоре Skylake-X мы рассмотрели методологию Intel в области модульной развязки (MODe-X) Intel, но основная концепция — постоянство. Эта связь работает на частоте 2,4 ГГц. До Skylake-X Intel реализовала кольцевую топологию, где данные должны были бы перемещаться вокруг кольца ядер, чтобы добраться до своего пункта назначения.

Что касается связи между ядрами, то для AMD это Infinity Fabric, которая проходит внутри чипа или выходит на другой кристалл, а для Intel — внутренняя шина MoDe-X.

4. Creator Mode и Game Mode

Из-за разницы в задержке между двумя парами каналов памяти, AMD реализовало стратегию «режимов», которые пользователи могут выбрать в зависимости от рабочего процесса. Эти два режима называются Creator Mode (по умолчанию) и Game Mode и управляют двумя переключателями, для настройки производительности системы.

Вот эти два переключателя:

Legacy Compatibility Mode, on or off (off by default)
Memory Mode: UMA vs NUMA (UMA by default)

Первый переключатель отключает ядра в одной из кремниевых матриц, но сохраняет доступ к каналам DRAM и линиям PCIe. Когда переключатель LCM выключен, каждое ядро может обрабатывать два потока, а 16-ядерный чип теперь имеет в общей сложности 32 потока. Когда LCM включается, система отключает половину ядер, оставляя 8 ядер и 16 потоков. Этот переключатель предназначен в первую очередь для обеспечения совместимости, поскольку определенные игры (например, DiRT) не могут работать с более чем 20 потоками в системе. С уменьшением количества потоков становится возможным запуск таких программ. Использование ядер одной матрицы также упрощает кросс-коммуникацию в основной микроархитектуре.

Второй переключатель, режим памяти, переводит систему в режим однородного доступа к памяти (UMA) или режим архитектуры с неравномерной памятью (NUMA). При настройках по умолчанию, память и ядра процессора рассматриваются системой как единый массив с максимальной пропускной способностью и средней задержкой. Это упрощает понимание кода, хотя фактическая задержка для одной инструкции может быть на 20% больше или меньше средней, в зависимости от того, какой банк памяти используется.

NUMA по-прежнему дает системе всю память, но разбивает память и ядра на два блока NUMA, в зависимости от того, какая пара каналов памяти находится ближе к какому ядру. Система будет сохранять данные для ядра как можно ближе к нему, обеспечивая минимальную задержку. Для одного ядра это означает, что оно заполняет вначале ближайшую к нему память, с низкой задержкой, но использует только половину пропускной способности, а затем другую половину памяти с той же половинной bandwidth и с более высокой задержкой. Этот режим предназначен для чувствительных к задержкам рабочих нагрузок, устраняя узкое место в рабочем процессе. Для некоторого кода это имеет значение, как и для игр — низкая латенси может повлиять на средний FPS или 99-й процентиль в игровых тестах.

Путаница в этом переключателе заключается в том, что AMD называет его «Режим доступа к памяти» в своей документации и маркирует две опции как «Локальная» и «Распределенная». Это проще понять, чем переключатель SMT, поскольку параметр «Локальная» фокусируется на латентности памяти, локальной по отношению к ядру (NUMA), а параметр Distributed фокусируется на пропускной способности ядра (UMA), при этом Distributed установлен по умолчанию.

When Memory Access Mode is Local, NUMA is enabled (Latency)
When Memory Access Mode is Distributed, UMA is enabled (Bandwidth, default)

С учетом вышесказанного, есть четыре способа организовать эти два переключателя. AMD дала двум конфигурациям имена, чтобы помочь пользователям выбрать режим использования системы. Режим Creator предназначен для предоставления как можно большего количества потоков и максимальной пропускной способности памяти. Игровой режим предназначен для оптимизации латентности и совместимости, чтобы повысить FPS в играх.

Есть два способа настроить каждый режим, что весьма запутывает ситуацию.

Настроить эти режимы можно через BIOS, однако в его настройках не указаны явно «Режим создателя» и «Режим игры». Там предоставлен непосредственный доступ к выбору режима памяти, которые ASUS назвал Local и Distributed, а не NUMA и UMA. Для режима Legacy Compatibility пользователям придется пробраться через несколько экранов в опции Zen, где настройка в конечном итоге станет доступной, и вручную отключить восемь ядер. Это делает Ryzen Master самым простым способом включения игрового режима.

Пока мы тестировали Threadripper, AMD обновляла Ryzen Master несколько раз, поэтому есть вероятность, что к тому моменту, когда вы это прочитаете, все снова поменяется. Но суть в том, что режим Creator и игровой режим здесь не являются отдельными настройками. Вместо этого AMD маркирует их как «профили». Пользователи могут выбрать профиль «Creator» или профиль «Game Mode», и в обоих профилях два переключателя, упомянутые выше (обозначенные как «Legacy Compatibility Mode» и «Memory Access Mode»), могут переключаться по мере необходимости.

Производительность кэша

Чисто теоретически, режимы Creator и Game Mode имеет смысл переключать в зависимости от рабочего процесса. Если вам не нужны потоки, но нужна низкая задержка, игровой режим – ваш выбор. Однако это странно, так как Threadripper нацелен на многопоточные рабочие нагрузки больше, чем игры, и потеря половины потоков в игровом режиме может нанести ущерб реализации рабочей станции. При этом пользователи могут оставить SMT включенным и по-прежнему изменить режим доступа к памяти самостоятельно, хотя AMD фокусируется именно на режимах Creator и Game Mode.

Для этого обзора мы протестировали оба режима на 16-ядерном Threadripper 1950X. В качестве академического упражнения мы рассматривали задержку памяти в обоих режимах, а также на более высоких частотах DRAM. Ниже показаны данные задержки для выбранного ядра (мы выбрали ядро 2 в каждом случае), а затем переходим к L1, L2, L3 и основной памяти. Для системы UMA, как в режиме Creator, результат латентности памяти будет средним между результатами ближней и дальней памяти. Мы также добавили здесь Ryzen 5 1600X в качестве примера одиночной матрицы Zeppelin и 6950X Broadwell для сравнения. Все процессоры работали на DDR4-2400, что является максимальным поддерживаемым ОЗУ при двух модулях DIMM на канал.

Для 1950X в двух режимах результаты по существу равны, пока мы не достигаем 8 МБ, что является пределом кэша L3 для CCX. После этого ядро задействует основную память, где задержка в режим Game около 79 нс, а в режиме Creator — 108 нс. Для сравнения, Ryzen 5 1600X, похоже, имеет более низкую задержку при 8 МБ (20 нс против 41 нс), а затем оказывается между режимами Creator и Game с показателем 87 нс. Похоже, что значительным недостатком режима Creator является тот факт, что доступ к основной памяти намного медленнее, чем у обычного Ryzen или в режиме Game.

Если мы поднимем частоту DRAM до DDR4-3200 для Threadripper 1950X, цифры примут более справедливый вид:

Пока не достигнута граница в 8 МБ, где L3 не попадет в основную память, все почти одинаково. Однако при 8 МБ латентность на DDR4-2400 составляет 41 нс по сравнению с 18 нс на DDR4-3200. Затем, при переходе на основную память, видим результат: режим Creator на DDR4-3200 близок к Game режиму на DDR4-2400 (87 нс против 79 нс), но переход с режима Game на DDR4-3200 снижает латентность до 65 нс.

Еще одним элементом, который мы тестировали в Game mode, была латентность для близкой памяти и дальней памяти (относительно одного ядра). Помните этот слайд от AMD?

В нашем тестировании мы достигли следующего:

At DDR4-2400, 79 нс ближняя память and 136 нс «дальняя» память (108 нс в среднем)
At DDR4-3200, 65 нс ближняя память and 108 нс «дальняя» память (87 нс в среднем)

Эти средние значения — то, что мы получаем в дефолтном режиме Creator, с учетом того, что режим UMA + Creator будет использовать память (дальнюю или ближнюю) случайным образом.

5. Конфигурация тестового стенда

В соответствии с нашей политикой тестирования процессора мы берем материнскую плату премиум-класса, подходящую для сокета, и оснащаем систему подходящим объемом памяти, работающим на максимальной поддерживаемой частоте. Так же, по возможности, выполняются предписания JEDEC. Мы знаем, что некоторые пользователи не согласны с таким подходом, заявляя, что иногда максимальная поддерживаемая частота весьма низкая или что более быстрая память доступна по аналогичной цене, или что скорости JEDEC могут препятствовать производительности. Хотя эти комментарии имеют смысл, в конечном итоге очень немногие пользователи используют профили памяти (XMP или другие), поскольку для этого требуется взаимодействие с BIOS. Большинство пользователей отказываются от использования поддерживаемых скоростей JEDEC — сюда относятся как домашние пользователи, так и производители, которые могут как захотеть сэкономить цент или два на стоимости, так и остаться в пределах, установленных производителем.

Там, где это возможно, мы расширим тестирование для применения более быстрых модулей памяти: либо одновременно с обзором, либо позже.

Благодарности

Мы должны поблагодарить следующие компании за любезное предоставление оборудования для наших многочисленных тестовых задач. Некоторые из этих аппаратных средств специально не используются в этом тестовом сетапе, но используются в других тестах.

Спасибо Sapphire за предоставление нескольких графических процессоров AMD. Мы встретились с Sapphire на Computex 2016 и обсудили платформу для нашего будущего тестирования на GPU AMD их производства для нескольких предстоящих проектов. В результате, они смогли предоставить нам новейший чип, который AMD может предложить. В верхней части списка была пара графических процессоров Sapphire Nitro R9 Fury 4 ГБ, основанная на первом поколении технологии HBM и платформе AMD Fiji. В качестве первого потребительского GPU c HDM, R9 Fury является ключевым моментом в истории графических карт, и эти супер-карты поставляются с 3584 SP, работающими на частоте 1050 МГц, и GPU с 4 гигабайтами 4096-битной памяти HBM на частоте 1000 МГц.

Вслед за Fury компания Sapphire также представила пару своих новейших карт Nitro RX 480 8GB, чтобы представить текущий высокопроизводительный процессор AMD на 14 нм (по состоянию на март 2017 года). Переход на 14нм привел к значительному улучшению энергопотребления у AMD, что в сочетании с последней версией GCN позволило создать VR-ready видеокарту по цене около $200. Графическая карта Sapphire Nitro RX 480 8GB OC задумана как премиум-класс семейства RX 480, имеющего полный набор 8 ГБ памяти GDDR5 со скоростью 6 Гбит/с, и 2304 SP работающих на тактовых частотах 1208/1342 МГц.

Вместе с R9 Fury и RX 480 — предназначены для гейм тестов — Sapphire передала пару RX 460, которые будут использоваться при тестировании процессора. Объем доступных мощностей GPU может напрямую влиять на производительность ЦП, особенно если процессор все время взаимодействует с видеокартой. RX 460 — отличная карта для такой цели, так как сочетает высокую производительность и низкое энергопотребление, не требуя каких-либо дополнительных разъемов питания. Sapphire Nitro RX 460 2GB следует философии Nitro — предоставляет хорошую мощность по низкой цене. Его 896 SP работают на частотах 1090/1216 МГц, он укомплектован 2 ГБ GDDR5 с эффективными 7000 МГц.

Мы также должны поблагодарить MSI за предоставление нам GPU GTX 1080 Gaming X 8GB. Несмотря на масштабы AnandTech, обеспечение тестов хай-энд графическими картами непростая задача. MSI решила задачу в лучших традициях и поддержала нас парой высококачественных видеокарт. Графическая карта MSI GTX 1080 Gaming X 8GB является продуктом премиум-класса с воздушным охлаждением, который на уровень ниже Seahawk, но превосходит Aero и Armor с водным охлаждением. Это большая карта с двумя вентиляторами Torx, индивидуальным дизайном печатной платы, технологией Zero-Frozr, улучшенной PWM и большой задней панелью для облегчения охлаждения. Карта использует кремниевую матрицу GP104-400 на 16-нм TSMC-процессе, содержит 2560 ядер CUDA и может работать на частоте до 1847 МГц в режиме OC (или 1607-1733 МГц в режиме Silent). На борту есть 8 ГБ GDDR5X, работающий на частоте 10010 МГц. Долгое время GTX 1080 была признанным чемпионом среди видеокарт.

Спасибо ASUS за предоставление GTX 1060 6GB Strix GPU. Чтобы завершить работу с высоким / низким сегментом как для графических процессоров AMD, так и для NVIDIA, мы смотрели на карты GTX 1060 6 ГБ, чтобы соблюсти баланс цены и производительности и получить возможность проверить игры на разрешении выше 1080p при одной видеокарте.

ASUS протянула руку помощи, поставив вариант Strix GTX 1060. Эта карта еще длиннее GTX 1080, с тремя вентиляторами и светодиодами. STRIX – лоу-кост игровой бренд ASUS, следующий за ROG, при этом Strix 1060 – это половина топовой карты 1080. Имеет 1280 ядер CUDA, работающих на базовой частоте 1506 МГц (до 1746 МГц в режиме OC), и 6 ГБ GDDR5 с частотой 8008 МГц на 192-битном интерфейсе памяти.

Спасибо Crucial за предоставленный SSD MX200. Критический момент в том, что наш список тестов растет с новыми бенчмарками и именами игр, а 1TБ MX200 – серьезная помощь. Созданный на контроллере 88S9189 от Marvell и использующий микросхему Micron с 16-нм 128-Гбит MLC, это 7-миллиметровый, 2,5-дюймовый прибор, рассчитанный на 100K случайных считываний IOPS и 555/500 МБ/с скорость чтения и записи. Модели 1TБ, которые мы используем здесь, поддерживают шифрование TCG Opal 2.0 и IEEE-1667 (eDrive) и имеют номинальную выносливость 320 ТБ с трехлетней гарантией.

Спасибо Corsair за предоставленный блок питания AX1200i. AX1200i был первым источником питания, предлагающим цифровой контроль и управление через систему Corsair Link. Он способен выдавать 1200 Вт при 50°C и имеет сертификацию 80 PLUS Platinum. Это позволяет обеспечить 89-92% эффективности при 115 В и 90-94% при 230 В. AX1200i полностью модульный, с более крупной 200-миллиметровой конструкцией, и с двойным шарикоподшипниковым 140-мм вентилятором для поддержки высокопроизводительной работы.

AX1200i спроектирован как рабочая лошадка с 8 разъемами PCIe с поддержкой four-way GPU. AX1200i также имеет режим вентилятора Zero RPM, который позволяет выключить вентилятор, если источник питания работает с нагрузкой менее 30%.

Спасибо G.Skill за предоставленную память. На протяжении многих лет G.Skill поддерживает AnandTech при тестировании CPU или материнских плат. Мы уже писали об их высокопроизводительных и высокочастотных чипах, и каждый год на Computex G.Skill проходит мировой турнир по оверклокингу на жидком азоте прямо на выставочном этаже.

6. Набор тестов 2017

Для настоящего обзора мы внедрили новый набор тестов процессора. Он использует наши новые скрипты, разработанные специально для этого тестирования. Это означает, что после установки свежей операционной системы, мы можем сконфигурировать ОС для максимальной совместимости, установить новые тесты, сохранить нужную версию ОС без случайных апдейтов и запустить серию тестов менее, чем за пять минут. После этого понадобится одно нажатие кнопки для запуска 8-10-часового теста (с высокопроизводительным ядром) с почти 100 соответствующими отметками данных в тестах, приведенных ниже для процессоров, за которыми следуют наши гейминг тесты, они отработают 4-5 часов на каждом из тестируемых графических процессоров. Тесты CPU охватывают широкий диапазон сегментов, многие из которых будут вам знакомы. Некоторые из тестов являются новыми для бенчмаркинга в целом, но не менее важны для ЦА.

Наши новые тесты CPU охватывают шесть основных областей. Мы охватываем Web (у нас есть необновляемая версия Chrome 56), общие системные тесты (открытие сложных PDF-файлов, эмуляция, brain simulation, AI, преобразование 2D-изображения в 3D-модели), рендеринг (трассировка лучей, моделирование), кодирование (сжатие, AES, h264 и HEVC), офисные тесты (PCMark и другие) и наши предыдущие тесты — атавизм из поколения плохого кода, интересный для сравнения.

Замечание по подготовке ОС. Поскольку мы используем Windows 10, есть большая вероятность внезапного обновления системы, что нарушит наше тестирование. В связи с такой угрозой мы приняли широкий спектр защитных мер: запретили обновления по максимуму, отключили Windows Defender, удалили OneDrive, отключили Cortana насколько возможно. Кроме того, включили высокопроизводительный режим в параметрах питания, и отключили часы внутренней платформы, которые могут давать погрешность, если базовая частота меняется (и, следовательно, тайминг будет неточным).

Web Tests on Chrome 56
Sunspider 1.0.2
Mozilla Kraken 1.1
Google Octane 2.0
WebXPRT15

System Tests
PDF Opening
FCAT
3DPM v2.1
Dolphin v5.0
DigiCortex v1.20
Agisoft PhotoScan v1.0

Rendering Tests
Corona 1.3
Blender 2.78
LuxMark v3.1 CPU C++
LuxMark v3.1 CPU OpenCL
POV-Ray 3.7.1b4
Cinebench R15 ST
Cinebench R15 MT

Encoding Tests
7-Zip 9.2
WinRAR 5.40
AES Encoding (TrueCrypt 7.2)
HandBrake v1.0.2 x264 LQ
HandBrake v1.0.2 x264-HQ
HandBrake v1.0.2 HEVC-4K

Office / Professional
PCMark8
Chromium Compile (v56)
SYSmark 2014 SE

Legacy Tests
3DPM v1 ST / MT
x264 HD 3 Pass 1, Pass 2
Cinebench R11.5 ST / MT
Cinebench R10 ST / MT

Гейминг-тесты ЦПУ

Что касается нашего нового набора тестов GPU, мы решили мыслить масштабно. В экосистеме множество пользователей, которые ставят на вершину приоритета игры, если речь идет о выборе процессора. И если есть шанс сэкономить $50 на процессоре и получить лучшую графическую карту без потери производительности, то это путь, который выберет большинство геймеров. Именно здесь нас ждут серьезные трудности — игры не только с разными требованиями, но и по разному нагружают систему, причем и видеокарты по разному «реагируют» на поток кода игры. К тому же пользователи имеют весьма широкий спектр суждений и предпочтений, определяющих, что именно является «нормой». С таким количеством степеней свободы тестирование можно растянуть до конца нашей жизни, при том, что результаты станут устаревшими уже через несколько месяцев после начала тестов – когда выйдет новая игра или новое GPU появится на рынке. Для хорошей точности позволим себе использовать игры под DirectX 12, который упрощает использование большего количества ядер процессора при игровом процессе.

Наш первоначальный список из девяти игр, выходящих в феврале, быстро стал шестью из-за отсутствия профессионального уровня настроек в играх Ubisoft. Если вы захотите увидеть на AnandTech тесты For Honor, Steep или Ghost Recon: Wildlands, подскажите Ubisoft Annecy или Ubisoft Montreal, где нас найти. Хотя эти игры имеют внутренний бенчмарк, достойный применения, к сожалению, он не предоставляет конечному пользователю достаточной покадровой детализации, несмотря на то, что используется при подготовке данных, которые и видит пользователь в конечном итоге (в результате он, как правило, бывает скрыт другим слоем). Вместо этого я бы предпочел автоматизировать эти тесты через входные данные, однако чрезвычайно непостоянное время загрузки является серьезным препятствием.

Итак, список тестов, входящих в наш скрипт 4/2, автоматизированный до однокнопочного запуска, и выдающий результаты четыре часа спустя по каждому графическому процессору. Также перечислены используемые разрешения и настройки:

Civilization 6 (1080p Ultra, 4K Ultra)
Ashes of the Singularity: Escalation* (1080p Extreme, 4K Extreme)
Shadow of Mordor (1080p Ultra, 4K Ultra)
Rise of the Tomb Raider #1 — GeoValley (1080p High, 4K Medium)
Rise of the Tomb Raider #2 — Prophets (1080p High, 4K Medium)
Rise of the Tomb Raider #3 — Mountain (1080p High, 4K Medium)
Rocket League (1080p Ultra, 4K Ultra)
Grand Theft Auto V (1080p Very High, 4K High)

Для каждого из графических процессоров при тестировании перечисленные игры (при каждой комбинации разрешения / настройки) выполняются по четыре раза, при этом резко отклоняющиеся значения отбрасываются. Средняя частота кадров, 99-й процентиль и данные «Time Under x FPS» сортируются, а исходные данные архивируются.

Четырьмя графическими процессорами, которые мы раздобыли для тестов, являются:

MSI GTX 1080 Gaming X 8G
ASUS GTX 1060 Strix 6G
Sapphire Nitro R9 Fury 4GB
Sapphire Nitro RX 480 8GB

В нашем тестовом скрипте мы приберегли кое-что особенное для GTX 1080. Также добавляются следующие тесты:

Civilization 6 (8K Ultra, 16K Lowest)

Этот бенчмарк, некоторыми ограничениями, может быть запущен, хотя и выходит за пределы характеристик используемого монитора, позволяя «будущее» тестирование графических процессоров на 8K и 16K с некоторыми любопытными результатами. Мы проводим эти тесты только на GTX 1080, потому что нет никакого смысла смотреть слайд-шоу более одного раза.

* Как указано в примечании к этому обзору, у нас нет данных об играх на процессоре Skylake-X. Мы провели серию тестов еще до получения Threadripper, используя последние апдейты и свежий BIOS. Однако сейчас, анализируя данные, мы видим ряд нерешенных проблем с производительностью, которые должны быть закрыты до публикации результатов.

7. CPU System Tests

Наш первый набор тестов — общие системные тесты. Этот набор тестов предназначен для эмуляции того, что люди обычно делают в операционной системе, как, например, открытие больших файлов или обработка небольших стеков данных. Он несколько отличается от нашего офисного тестирования, где используются промышленные стандарты, а некоторые из тестов здесь относительно новые и необычные.

Открытие PDF файлов

Первый в списке – написанный нами тест с использованием чудовищного PDF-документа, который мы когда-то получали перед посещением мероприятия. Хотя документ содержит всего одну страницу, он содержит такое количество высококачественных слоев, что моему ноутбуку среднего уровня требовалось 15 секунд, чтобы открыть файл и вернуть мне контроль над системой. Этот документ стал лучшим кандидатом для нашего теста «давайте-откроем-ужасный-PDF документ». Здесь мы использовали Adobe Reader DC с отключенным функционалом обновлений. Наш бенчмарк устанавливает разрешение экрана в 1080p, открывает PDF в режиме fit-to-screen и замеряет время между отправлением команды на открытие файла и временем, когда файл развернут на экране, а пользователь снова имеет контроль над софтом. Тест повторялся по 10 раз, после чего вычислялось среднее время. Результаты показаны в миллисекундах.

Этот тест – однопотоковый, поэтому высокочастотные чипы Intel получают очевидную победу. К тому же, на этом тесте незаметно особой разницы между чипами Threadripper.

FCAT Processing: link

Одна из наиболее интересных нагрузок, которые попадали в наши руки в последних кварталах, — это FCAT — инструмент, который мы используем для измерения и визуального анализа задержек в играх из-за упавших или испорченных кадров. Процесс FCAT требует включения цветного оверлея в игру, записи игрового процесса и последующего анализа видеофайла с помощью соответствующего программного обеспечения. Однако этот софт обычно однопоточный, поскольку видео в основном в RAW формате, что предполагает большой размер файла и требует перемещения большого количества данных. Для нашей проверки мы берем 90-секундную запись теста Rise of the Tomb Raider, работающего на GTX 980 Ti на 1440p, размер которой составляет около 21 ГБ и измеряем время, необходимое для обработки с помощью инструмента визуального анализа.

Подобно открытию PDF, однопоточная производительность на высоте.

Dolphin Benchmark: link

Многие эмуляторы связаны однопроцессорной производительностью процессора, а общие отчеты, как правило, предполагают, что Haswell значительно повысил производительность эмулятора. Этот бенчмарк запускает программу Wii, в которой луч отслеживает сложную трехмерную сцену внутри эмулятора Dolphin Wii. Результаты этого теста – вполне надежный показатель скорости процессорной эмуляции Dolphin, которая представляет собой интенсивную одноядерную задачу, использующую большинство аспектов процессора. Результаты приведены в минутах, где сам Wii показал результат 17,53 минуты.

Dolphin хорошо показывает себя там, где есть высокая производительность одного ядра, хотя, судя по тесту, многопоточность все же присутствует и дополнительные ядра задействованы.

3D Movement Algorithm Test v2.1: link

Это последняя версия написанного нами 3DPM бенчмарка. Цель 3DPM – симулировать частично оптимизированные научные алгоритмы, взятые непосредственно из моей докторской диссертации. Версия 2.1 отличается от 2.0 тем, что передает основные структуры частиц ссылкой, а не значением и уменьшает количество преобразований double->float->double, выполняемых компилятором. Это дает ускорение на 25% по сравнению с версией 2.0, что означает новые данные.

Итак, в нашем первом чисто многопоточном тесте, побеждает 1950X с 32 потоками. 1920X превосходит 1950X в режиме SMT-off, из-за 24 потоков, превосходящих 16 потоков.

DigiCortex v1.20: link

Хотя и устаревшее на пару лет, программное обеспечение DigiCortex является домашним проектом для визуализации активности нейронов и синапсов в мозге. Программное обеспечение поставляется с различными эталонными тестами, и мы берем небольшой бенчмарк, который запускает симуляцию мозга 32 тысячи нейронов / 1.8 миллиарда синапсов. Результаты теста обозначают способность системы вести эмуляцию в режиме реального времени, а значит, любой результат выше единицы подходит для эмуляции.

Для получения хорошего результата DigiCortex требует смесь из высокой частоты процессора и производительности DRAM, поэтому подойдет что угодно с четырехканальной памятью. 1950X в режиме SMT-off выигрывает здесь из-за быстрого обращения к основной памяти в сочетании с наличием 16 потоков для доступа к ней. Broadwell-E является ближайшим конкурентом и превосходит даже Skylake-X, скорее всего, из-за кольцевой топологии (ring) против сетевой (mesh) у Skylake. Показатели 1950X в режиме Creator, однако, намного ниже, чем у стандартных чипов Ryzen, показывая, что при единой архитектуре памяти может произойти значительное снижение производительности. 1920X провалил этот тест по неизвестной причине.

Agisoft Photoscan 1.0: link

Photoscan остается в нашем тестовом наборе из предыдущей версии тестов, однако теперь мы работаем в Windows 10, поэтому в игру вступают такие функции, как Speed Shift на новейших процессорах. Концепция Photoscan – преобразование множества 2D-изображений в 3D-модель — поэтому чем более детализированы изображения и чем больше таковых, тем лучше модель. Алгоритм состоит из четырех этапов: нескольких однопоточных и нескольких многопоточных, а также имеет некоторую зависимость от кэша и памяти. Для некоторых более разнообразных рабочих задач с многопоточными функциями такие опции, как Speed Shift и XFR, смогут использовать преимущества ожидания или простоев CPU, давая значительный прирост производительности на новых микроархитектурах.

Переменчивая одно-много-поточность Agisoft показывает, что в таком процессе решающим элементом победы является сочетание ядер, IPC и частоты. AMD занимает последние позиции, вероятно, из-за его реализации AVX.

8. CPU Rendering Tests

Рендеринг тесты – давно признанный фаворит обзоров и тестов, поскольку код, используемый пакетами рендеринга, обычно оптимизирован, чтобы выжать каждый бит производительности. Иногда рендеринг программ также сильно зависит от памяти — когда у вас есть много потоков, переносящих тонны данных, память с малой задержкой отклика может быть ключом ко всему. Здесь мы берем несколько обычных пакетов рендеринга под Windows 10, а также несколько новых интересных тестов.

Corona 1.3: link

Corona — это автономный пакет, предназначенный для поддержки программного обеспечения, такого как 3ds Max и Maya, фотореализмом с помощью трассировки лучей. Это просто – направляешь лучи, получаешь пиксели. Ладно, немного сложнее, но этот бенчмарк рендерит фиксированную сцену шесть раз и выдает результаты в разрезе времени и количества лучей в секунду. В официальных таблицах бенчмарка представлены результаты пользователей с точки зрения времени, однако я считаю, что «лучей в секунду» является лучшим показателем (да и в общем, результаты, где «больше означает лучше», проще объяснять). Corona любит нагромождать потоки, поэтому результаты оказываются в сильной зависимости именно от количества потоков.

Корона любит потоки.

Blender 2.78: link

Старик в мире рендеринг-тестов, Blender все еще очень популярный инструмент. Нам удалось запустить стандартную рабочую нагрузку на билде Blender от 5 февраля, и измерить время, необходимое для рендеринга первого кадра сцены. Блендер является одним из крупнейших инструментов с открытым исходным кодом, это означает, что как AMD, так и Intel работают активно, чтобы помочь улучшить кодовую базу, что может идти как на пользу, так и во вред их собственной микроархитектуре.

Blender любит потоки и пропускную способность памяти.

LuxMark v3.1: link

Как синтетический, LuxMark может показаться несколько ненадежным, как средство визуализации, учитывая, что он в основном используется для тестирования графических процессоров. Однако он предлагает как OpenCL, так и стандартный режим C ++. В этом случае, помимо сравнения в каждом варианте кодирования ядер и IPC, мы также видим, что код C ++ к OpenCL показывают разную производительность на одних и тех же процессорах.

Как и Blender, LuxMark полагается на количество потоков. Трассировка лучей — это почти учебник для легкого многопоточного масштабирования. Хотя интересно, насколько близок к вершине 10-ядерный Core i9-7900X в тесте CPU (C ++), несмотря на значительный недостаток количества ядер, вероятно, из-за комбинации более высоких IPC и частоты.

POV-Ray 3.7.1b4: link

Еще один регулярный бенчмарк в большинстве suit — POV-Ray. Еще один трассировщик лучей с многолетней историей. Как это часто случается, во время подготовки AMD к запуску Ryzen, база кода стала активно обновляться, так как разработчики вносят изменения в код и выпускают новые апдейты. Наша версия для тестов была взята как раз перед началом таких событий, но со временем мы видим, что код POV-Ray корректируется в соответствии с новыми требованиями.

Подобно LuxMark, POV-Ray также выигрывает за счет потоков.

Cinebench R15: link

Последняя версия CineBench также стала одной из тех программ, которые использовались везде, в частности, как индикатор производительности одного потока. Высокий уровень IPC и высокая частота дают производительность в ST, тогда как наличие хорошего масштабирования и многих ядер — это результат теста MT.

Недавно Intel объявила, что ее новый 18-ядерный чип набирает 3200 на Cinebench R15. Это означает прирост производительности на 6,7% по сравнению с Threadripper 1950X за вдвое большую цену.

9. CPU Web Tests

Одна из проблем при запуске веб-тестов — это привычка современных браузеров автоматически устанавливать обновления. Это означает, что в любой продолжительный период бенчмаркинга правило «обновляй это за пределами состояния сравнения» будет нарушено, особенно когда браузеры начинают обновляться. Несмотря на это, нам удалось найти ряд команд для создания не-обновляемой версии Chrome 56 для нашего тестового набора 2017. Хотя это и означает, что мы не шагаем в ногу со временем с последней версией браузера, это делает оценки сравнения процессоров сопоставимыми.

SunSpider 1.0.2: link

Самый старый веб-тест в этой части нашего обзора – SunSpider. Это очень простой инструмент на основе JavaScript-алгоритма, и в конечном итоге является более мерилом IPC и быстродействием памяти, чем что-либо еще, причем большинство высокопроизводительных процессоров показывают примерно равный результат. Базовый тест выполняет 10 циклов и выдает среднее значение. Мы выполняем этот базовый тест 4 раза.

Mozilla Kraken 1.1: link

Kraken — это еще один тест на основе Javascript, использующий тот же тестовый набор, что и SunSpider, но сосредоточенный на более строгих реальных случаях использования и библиотеках, таких как обработка звука и фильтры изображений. Опять же, основной тест зацикливается десять раз и мы выполняем базовый тест четыре раза.

Google Octane 2.0: link

Крупнейшие разработчики браузеров, такие как Google и Mozilla, знают, что максимальная производительность JS зачастую является критическим моментом при сравнении с другими разработчиками ОС. Точно так же, как SunSpider является очень ранним тестом JS, а Kraken немного новее, Octane стремится быть более релевантным для реальных рабочих нагрузок, особенно в устройствах с ограниченными возможностями, в таких как смартфоны и планшеты.

WebXPRT 2015: link

В то время как предыдущие три теста выполняют вычисления в фоновом режиме, а затем показывают набранные очки, WebXPRT предназначен для лучшей интерпретации визуальных рабочих нагрузок, которые могут иметь профессиональные пользователи. Например, приложения на основе браузера, графические изображения, редактирование изображений, сортировка и анализ данных, научный анализ и финансовые инструменты.

В целом, все наши веб-тесты показывают аналогичную тенденцию. Очень немногие веб-фреймворки предлагают многопоточность — сами браузеры не имеют многопоточности, поэтому количество потоков Threadripper's просто не используется. В итоге, герой дня в Интернете — несколько быстрых ядер с высокой однопоточной производительностью.

10. CPU Encoding Tests

Одним из интересных элементов современных процессоров является производительность кодирования. Это включает в себя шифрование / дешифрование, а также перекодирование видео из одного видеоформата в другой. В случае шифрования / дешифрования производительность по-прежнему актуальна для шифрования конфиденциальных данных «на лету» — процесса, с помощью которого современные устройства обычно обеспечивают безопасность программного обеспечения. Использование перекодирования видео для подгонки качества, размера файла и разрешения видеофайла испытывает настоящий бум в последнее время. Это необходимо для подгонки видео под девайс потребителя или для гейм-стримеров, которые желают выгружать перекодированный поток видео с камеры в режиме риал-тайм. По мере того, как мы переходим в живое 3D-видео, эта задача будет еще более приоритетной, и оказывается, что быстродействие определенных алгоритмов определяется функцией ввода / вывода содержимого.

7-Zip 9.2: link

Одним из фриварных архиваторов, позволяющих оценить производительность процессоров, является 7-Zip. Он работает под лицензией с открытым исходным кодом, является быстрым и простым в использовании инструментом для опытных пользователей. Мы запускаем тестовый режим через командную строку для четырех циклов и получаем результат.

По просьбе нескольких пользователей мы вернулись к нашим сохраненным тестовым данным и вытащили номера сжатия / декомпрессии для 7-zip. AMD явно выигрывает здесь в декомпрессии с огромным отрывом.

WinRAR 5.40: link

Для тестового пакета 2017 мы воспользуемся последней версией WinRAR в нашем тесте архиваторов. WinRAR в некоторых аспектах более удобен для пользователя, чем 7-Zip, поэтому мы решили включить его в пакет. Вместо использования бенчмарк режима, как в случае с 7-Zip, здесь мы берем набор файлов, представляющих общий стек (33 видеофайла в 1,37 ГБ, 2834 файла меньшего размера в 370 папках в 150 МБ) сжимаемых и несжимаемых форматов. Показанные результаты — это время, затраченное на кодирование файла. Из-за кэширования DRAM мы запускаем тест 10 раз и получаем среднее значение для последних пяти запусков, когда бенчмарк находится в устойчивом состоянии.

Кодирование WinRAR — еще один тест, который не особо масштабируется с ростом количества потоков. После всего лишь нескольких потоков большая часть его многопоточной производительности была достигнута. Это не позволяет использовать ресурсы Threadripper и это прямая помеха в режиме Creator.

AES Encoding

Алгоритмы, использующие AES-кодирование, широко распространились по всему миру в качестве вездесущего инструмента для шифрования. Однако, это еще один тест-для-ЦПУ, а современные ЦПУ имеют расширение системы команд AES для увеличения производительности шифрования. Мы часто рассматриваем масштабирование как по частоте, так и по ядрам с помощью этого бенчмарка. Мы используем последнюю версию TrueCrypt и запускаем его в бенчмарк-режиме с 1 ГБ данных в DRAM. Показанные результаты — это среднее значение GB / s для шифрования и дешифрования.

HandBrake v1.0.2 H264 and HEVC: link

Как упоминалось выше, перекодирование видео (как кодирование, так и декодирование) является горячей темой в показателях производительности, поскольку темпы создания нового контента нарастают. Первая идея – изменение стандарта форматирования видео, которое может происходить как с потерей, так и без потери качества. Так же возможно уменьшение качества видео в угоду размера файла. Наряду с любимым кодеком Google, VP9, есть еще два других часто используемых: H264, старый кодек, есть практически везде и оптимизирован для видео 1080p, и HEVC (или H265), целью которого является обеспечение того же качества, что и H264, но при более низком размере файла (или более высоком качестве для одного и того же размера). HEVC важен, поскольку способен передавать потоковое видео в качестве 4К, что означает передачу меньшего количества бит для одного и того же качественного контента.

Handbrake является предпочтительным инструментом для перекодирования, поэтому наш тестовый режим покрывает три области.

Низкое качество / разрешение H264: здесь мы перекодируем 2-часовую 640x266 H264 видеозапись и меняем кодировку с Main profile на High profile, используя very-fast предустановку.

Высокое качество / разрешение H264: аналогичный тест, но на этот раз мы берем десятиминутный двойной файл 4K (3840x4320), работающий на частоте 60 Гц и перекодированный с Main на High, используя very-fast предустановку.

Тест HEVC: используя то же видео в HQ, мы меняем разрешение и кодек исходного видео с 4K60 в H264 на 4K60 HEVC.

В тесте HQ H264 AMD показывает высокие результаты на обоих процессорах, а SMT-off сильно ограничивает 1950X из-за отсутствия потоков SMT. Когда мы переходим на HEVC, 1950X и 7900X показывают примерно одинаковую производительность.

11. CPU Office Tests

Офисные программы, которые мы используем для бенчмаркинга, — это не конкретные программы, а отраслевые стандартные тесты, которые имеют вес в профессиональной среде. Цель этих тестов — использовать набор программ и методов, с которыми может столкнуться обычный офисный пользователь, например, видеоконференции, редактирование документов, архитектурное моделирование и так далее, и тому подобное.

Chromium Compile (v56)

Наш новый тест компиляции использует Windows 10 Pro, VS Community 2015.3 с Win10 SDK для компиляции ночной сборки Chromium. Мы подготовили тест для сборки в конце марта 2017 года, и в нашем тесте мы запускаем новую полную компиляцию. Компиляция — типичный пример рабочей нагрузки с переменной многопоточностью — некоторые процессы компиляции и привязки линейны, тогда как другие части являются многопоточными.

Одним из интересных пунктов в нашем тесте является компиляция, и удивительно видеть, что 1920X оказался немного быстрее чипа Ryzen 7. Поскольку для этого теста требуется высокая скорость обмена данными между ядрами, чем меньше ядер в CCX комплексе, тем хуже результат. Поэтому 1950x обгоняет «3-ядра-в-CCX» 1920x процессор (а также благодаря меньшей скорости отклика памяти). Мы знаем, что этот тест нетребователен к кэшу тестируемых ЦПУ, однако, похоже, соотношение 2 МБ на ядро хорошо помогает 1950X и может объяснить разницу в производительности с 8 до 12 до 16 ядер на микроархитектуре Zen.

PCMark8: link

Несмотря на то, что PCMark впервые появился на свет в 2008/2009 году, Futuremark поддерживает PCMark8, и он остается актуальным и в 2017 году. В масштабах сложных задач PCMark больше ориентируется на низкопроцентный диапазон профессиональных нагрузок, что делает его хорошим индикатором того, что люди считают «офисной работой». Мы запускаем бенчмарк из командной строки в «традиционном» режиме, то есть C ++ поверх OpenCL, чтобы удалить графическую карту из уравнения и сосредоточиться исключительно на процессоре. PCMark8 предлагает Home, Work и Creative рабочую нагрузку, при этом некоторые тесты программного обеспечения являются общими, а другие уникальными для каждого набора тестов.

Как ни странно, Creative тест PCMark 8 терпит неудачу по всем направлениям. Мы пытаемся выяснить, в чем причина.

SYSmark 2014 SE: link

SYSmark разрабатывается Bapco, консорциумом производителей процессоров. Цель SYSmark состоит в том, чтобы взять набор популярных программ, таких как Photoshop и Onenote, и определить, сколько времени потребуется для выполнения определенных задач в этом программном обеспечении. Конечным результатом является оценка для каждого из трех сегментов (Office, Media, Data), а также общий балл. Здесь базовая система отсчета (Core i3-6100, 4 ГБ DDR3, 256 ГБ SSD, Интегрированная графика HD 530) используется для обеспечения базовой оценки 1000 в каждом тесте.

12. CPU Legacy Tests

Наши устаревшие тесты представляют собой контрольные показатели, которые когда-то были впереди своего времени. Некоторые из них являются синтетическими стандартами в промышленности, и у нас есть данные, приходящие в течение уже 10 лет. Все данные здесь были повторно запущены в Windows 10, и мы планируем вернуться к нескольким поколениям компонентов, чтобы узнать, как развилась производительность.

3D Particle Movement v1

3DPM — это написанный нами тест, применяющий базовые алгоритмы 3D-движения, используемые в симуляциях Brownian Motion, и их тестирование на скорость. Высокая производительность вычислений с плавающей точкой, МГц и IPC покажут себя в версии с одним потоком, тогда как многопоточная версия работает с потоками и «любит» наличие многих ядер. Это оригинальная версия, написанная в стиле типичного некомпьютерного студента, кодирующего алгоритм для теоретической проблемы. Она поставляется без каких-либо неочевидных оптимизаций, которые еще не выполняются компилятором, например false sharing.

CineBench 11.5 and 10

Cinebench — широко известный инструмент для измерения производительности, имеющий отношение к анимационному программному обеспечению MAXON Cinema 4D. Cinebench оптимизировался в течение десятилетия и фокусируется только на мощности процессора. Это означает, что если есть несоответствие характеристик пропускной способности, Cinebench, скорее всего, покажет это несоответствие. Возможно, другое программное обеспечение не использует все доступные инструменты для нагрузки процессора, поэтому релевантность теста для реального мира может быть чисто академической, но, учитывая нашу большую базу данных для Cinebench, трудно игнорировать небольшой пятиминутный тест. В этом тесте мы запускаем современную версию 15, а также старые 11,5 и 10.

x264 HD 3.0

Аналогично, пакет x264 HD 3.0, который мы здесь используем, также хранится для исторических регрессионных данных. Последняя версия 5.0.1, она кодирует видеоролик 1080p в высококачественный x264-файл. Версия 3.0 выполняет тот же тест в файле 720p, и в большинстве случаев производительность программного обеспечения достигает предела для high-end процессоров, но все еще хорошо работает для среднего и младшего уровня. Кроме того, эта версия выполняется всего несколько минут, тогда как последняя может занять более 90 минут.

1950X: первый процессор, который набрал более высокий результат на втором проходе этого теста, чем на первом.

13. Civilization 6

Итак, первая игра в наших процессорных гейм-тестах — Civilization 6. Изначально запущенная Sid Meier и его командой, Civ серия пошаговых стратегий стала культовой классикой. Было принесено много извинений за бессонные ночи игроков, которые не могли заставить Ганди начать войну из-за переполнения целых чисел. По правде говоря, я никогда не играл в первую версию, но зато играл в каждую часть со второй по шестую, в том числе четвертую, озвученную покойным Леонардом Нимоем. Это игра, в которую легко играть, но сложно играть хорошо.

Бенчмаркинг Цивилизация всегда была чем-то вроде оксиморона — для пошаговой стратегической игры частота кадров не особенно важна, и при правильном настроении, достаточно всего 5 кадров в секунду для хорошей игры. Однако с Civilization 6 Firaxis ударилась в хардкор и подняла планку визуализации, пытаясь вовлечь вас в игру. В результате, Civilization может потребовать от игрока новую видеокарту и процессор, особенно если играть с высокой детализацией под DirectX 12.

Возможно, более востребованный результат будет виден во время поздней игры, в более старых версиях Civilization могло потребоваться 20 минут, чтобы сделать ход игроков AI и передать контроль человеку. Новая версия Civilization имеет интегрированный «AI Benchmark», хотя в настоящее время она еще не входит в наш портфель тестов по техническим причинам, которые мы пытаемся решить. Вместо этого мы запускаем графический тест, который обеспечивает пример средних настроек игры в опциях.

Для разрешений 1920x1080 и 4K мы запускаем одинаковые настройки. Civilization 6 имеет слайдеры для MSAA, Использование Производительности и Использование Памяти. Последние два относятся к детализации и размеру текстур, соответственно, и оцениваются от 0 (самый низкий) до 5 (экстремальный). Мы запускаем наш Civ6-тест в четвертой позиции для производительности (ультра) и 0 в памяти, а MSAA — 2x.

Для обзоров, где мы используем тесты 8K и 16K (Civ6 позволяет сравнивать экстремальные разрешения на любом мониторе) на нашем GTX 1080, мы запускаем тесты 8K, такие же как 4K, но тесты 16K установлены на самый низкий вариант производительности.

MSI GTX 1080 Gaming 8G Performance

1080p

16K

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

В целом, процессоры Threadripper работают так же, как и у Ryzen на большинстве тестов, хотя анализ Time Under показывает худшие данные для Threadripper.

14. Shadow of Mordor

Следующее имя в нашей битве производительности – РПГ-экшн с открытым миром Middle Earth: Shadow of Mordor (коротко SoM). Игра создана Monolith на движке LithTech Jupiter EX с множеством дополнительных надстроек. SoM углубляется в детализацию и сложность. Основной сюжет игры был написан тем же автором, что и сюжет Red Dead Redemption, SoM получила награду Zero Punctuation's Game of the Year в 2014 году.

Игры 2014 года весьма устарели для современного тестирования, но SoM имеет стабильный код и множество поклонников, все еще может дать стрессовую нагрузку на компьютер геймера. В то время SoM был уникальным, предлагая динамическое разрешение экрана, позволяющее пользователям использовать настройки с высоким разрешением, которые затем уменьшаются до возможностей монитора. Эта форма естественной передискретизации была спроектирована так, чтобы позволить пользователю получить более полное представление о том, чего хотели разработчики, если у вас есть достаточно мощное графическое оборудование, но нет монитора под разрешение 4K.

В игре имеется встроенный бенчмарк, его мы запускаем с применением скрипта, который производит настройку графики, стартует бенчмарк и парсит результаты, которые тест сбрасывает на диск. Настройки графики включают стандартные параметры, такие как Graphical Quality, Lighting, Mesh, Motion Blur, Shadow Quality, Textures, Vegetation Range, Depth of Field, Transparency и Tessellation. Так же имеются стандартные предустановки.

Мы запускаем бенчмарк на 1080p и нативном 4K, используя наши 4K-мониторы, в настройках Ultra. Результаты усредняются по четырем прогонам и мы выводим средний FPS, 99 процентиль и time under анализ.

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

16. Rise of the Tomb Raider (1080p, 4K)

Одной из новейших игр в нашем наборе игровых тестов является Rise of the Tomb Raider (RoTR), разработанная компанией Crystal Dynamics, она же сиквел популярного Tomb Raider, который был любим за свой встроенный автоматический бенчмарк режим. Но не обманитесь: эталонный режим в RoTR сильно отличается на этот раз.

Визуально предыдущий Tomb Raider поднял планку реализма практически до уровня TressFX, и новый RoTR поднимается еще на ступеньку выше в плане достоверности графики. Это приводит к интересному набору требований к аппаратным средствам: некоторые разделы игры, как правило, ограничены графическим процессором, тогда как другие, с большим количеством физики на больших дистанциях могут быть ограничены ЦП, в зависимости от того, как драйвер распределит рабочую нагрузку DirectX 12.

Если для бенчмарка у старой игры была одна эталонная сцена, в новой игре есть три разных сцены с различными требованиями: Хребет Горы (1-Долина), Могила Пророка (2-Пророк) и Геотермальная Долина (3-Гора) — и мы проверяем все три (и да, мне нужно переименовать их — я ошибался, когда настраивал тесты).

Это три сцены должны были быть взяты из игры, однако было отмечено, что сцены, подобные 2-Пророк, используемые в бенчмарк, могут самыми быть требовательными к CPU элементами всего этого уровня, а показанная сцена представляет собой лишь малую часть этого уровня. Из-за этого мы сообщаем результаты для каждой сцены на каждой видеокарте отдельно.

Настройки графики для RoTR похожи на другие игры этого типа, предлагая некоторые пресеты или позволяя пользователю настраивать качество текстуры, уровни анизотропного фильтра, качество теней, мягкие тени, окклюзию, глубину резкости, тесселяцию, отражения, листву, блюм и фичи наподобие PureHair, которые позволяет использовать библиотека TressFX.

По-прежнему, мы тестируем игру на разрешении 1920x1080 и 4K, используя наши собственные 4K-дисплеи. На 1080p мы запускаем пресет High, а в 4K мы используем предварительную настройку Medium, которая по-прежнему наносит значительный удар по частоте кадров.

Стоит отметить, что тест RoTR немного отличается от наших других эталонных тестов тем, что игра сохраняет свои графические настройки в реестре, а не стандартный INI-файл, и в отличие от предыдущей игры встроенный бенчмарк TR не может быть вызван из командной строки. Тем не менее, несмотря на сложности, мы подготовили сценарий для автоматического запуска бенчмарка четыре раза и парсинга результатов. Из полученных данных мы выводим средний FPS, 99 процентиль и time under анализ.

#1 ~~Geothermal Valley~~ Spine of the Mountain

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

#2 Prophet’s Tomb

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

#3 ~~Spine of the Mountain~~Geothermal Valley

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

Из тестов очевидно, что 1950X не самый лучший игровой чип в дефолтном режиме.

17. Rocket League

Веселые простые игры в стиле «играй – подбирай» отличная забава. По этой причине я большой поклонник франшизы Katamari – просто жмешь старт на контроллере и катишься вперед, подбирая предметы, чтобы вырасти. Чрезвычайно просто. Ну а пока мы не получим версию Катамари на ПК, которую я могу протестировать, мы сосредоточимся на Rocket League.

Rocket League применяет элементы pick-up-and-play, позволяя пользователям вступать в игру с другими людьми (или ботами), чтобы сыграть в футбол без правил на автомобилях. Игра создана на движке Unreal Engine 3, который на данный момент хотя и устарел, но зато позволяет пользователям как запускать игру на низко-производительных системах, так и выжать все ресурсы из систем помощнее. С момента выпуска в 2015 году было продано более 5 миллионов копий игры, которая, похоже, стала звездой в локальных сетях и игровых шоу. Пользователи, которые тренируются играть, становятся очень серьезными, сражаясь в командах и лигах с очень небольшим количеством настроек, и все находятся на одном уровне. Rocket League уверенно становится одним из громких названий в мире киберспорта, а что особенно приятно — соревнования можно посмотреть прямо из игрового интерфейса.

Исходя из перечисленных факторов, а также потому, что эту игру приятно запустить и играть, мы решили найти «приятный» способ протестировать ее. К сожалению, большая часть автоматических тестов для игр здесь не подойдет. Кроме того, благодаря движку Unreal 3, Rocket League не имеет бенчмарк режима. В этом случае мы должны разработать плотный прогон и записать частоту кадров.

Как уже сказано, у Rocket League нет бенчмарк режима, поэтому мы должны выполнить серию автоматических действий, подобных гоночной игре с фиксированным числом кругов. Мы применяем следующий подход: используя Fraps для записи времени, затраченного на показ каждого кадра (и общей частоты кадров), мы применим инструмент автоматизации, чтобы запустить игру с ботами 4v4, при этом система должна выполнить серию действий во время матча, например, переключение углов камеры и движение.

Так вышло, что описанный метод весьма точно отображает данные по реальному матчу с ботами, включая движение, столкновения, усиления или даже получение внезапной помощи, как бы это ни странно звучало для автоматизированного набора команд. Чтобы поддерживать согласованность, применяемые нами команды не являются случайными, а так же фиксированны по времени. Мы также проводим тесты на одной и той же карте (Aquadome, которая, как известно, является тяжелой картой для графических процессоров из-за воды / прозрачности) и с постоянными настройками автомобиля. Мы начинаем запись сразу после начала матча и записываем в течение 4 минут игрового времени (думаю, 5 кругов DIRT: Rally benchmark), определяем среднюю частоту кадров, 99-й процентиль и time under.

Графические настройки для Rocket League представлены в четырех общих настройках: Low, Medium, High и High FXAA. Существуют расширенные настройки для теней и деталей; однако для этих тестов мы придерживаемся общих настроек. Для разрешений 1920x1080 и 4K мы тестируем на высоком пресете без ограничения FPS.

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

С Ryzen мы столкнулись с некоторыми странными проблемами при использовании видеокарт на базе NVIDIA, которые привели к значительному ухудшению производительности этих карт. Как ни странно, проблемы, которые мы имеем с Ryzen в Rocket League с графическими процессорами NVIDIA, практически исчезают при использовании Threadripper. Опять же, до сих пор нет очевидного победителя в этом тесте, поскольку Intel, похоже, лучше показывает себя в Rocket League в обычном режиме, но режим SMT-off все же поднимает наверх 1950X. Результаты Time Under вызывают обеспокоенность в отношении AMD, а 1950X стабильно находится внизу этого графика.

18. Grand Theft Auto

Долгожданная итерация франшизы Grand Theft Auto попала на полки 14 апреля 2015 года, и AMD, и NVIDIA приложили усилия для оптимизации игры. В GTA нет графических пресетов, но все же игра открывает новые возможности для пользователей и расширяет границы современной графики, нагружая даже самые мощные компьютеры до предела при помощи Advanced Game Engine от Rockstar под DirectX 11. Независимо от того, летает ли пользователь высоко в горах, где понадобится прорисовка мира на дальних дистанциях или имеет дело с сортированным мусором в городе, когда он сгибается до максимума, игра создает потрясающие визуальные эффекты, плюс напряженную работу как для процессора, так и для графической карты.

Для тестирования мы написали несколько скриптов для встроенного в игру бенчмарка. Внутренний бенчмарк включат пять сценариев: четыре коротких панорамных сцены с переменным освещением и погодными эффектами, плюс пятая – последовательность действий продолжительностью около 90 секунд. Мы решили использовать только последнюю сцену, которая включает полет на реактивном самолете, затем поездку на автомобиле через город через несколько перекрестков и в конце — столкновение с бензовозом, который взрывается, как и автомобили вокруг него. Это отличное сочетание рендеринга дальних дистанций, за которым следуют действия с рендерингом на ближней дистанции. И к счастью, игра выдает все необходимые результаты тестов.

В GTA нет графических предустановок, зато пользователь может вручную настраивать параметры, такие как плотность населения и дальность прорисовки с помощью слайдеров. Другие параметры, такие как текстура / тень / шейдеры / качество воды переключаются от низкого качества до очень высокого. Другие варианты настроек включают MSAA, мягкие тени, пост-эффекты, разрешение теней и расширенные настройки дистанционного рендеринга. В верхней части экрана есть удобная опция, который показывает, сколько видеопамяти будет потреблять игра при этих параметрах, с очевидными последствиями, если пользователь запрашивает больше видеопамяти, чем имеет на карте (хотя нет очевидной подсказки, если у вас слабая GPU с большим количеством видеопамяти, например, R7 240 4 ГБ).

В итоге, мы запускаем тесты в разрешении 1920x1080, используя значения Very High в настройках, а также на 4K с использованием значения High в большинстве из них. Результатом будут средние значения по четырем прогонам, средний показатель частоты кадров, 99-м процентиль и time-under анализ.

MSI GTX 1080 Gaming 8G Performance

1080p

ASUS GTX 1060 Strix 6G Performance

1080p

Sapphire Nitro R9 Fury 4G Performance

1080p

Sapphire Nitro RX 480 8G Performance

1080p

В зависимости от теста, в большинстве случаев Threadripper выдает результаты подобные Ryzen, а иногда и чуть ниже него.

19. Энергопотребление, энергоэффективность

Threadripper с системой охлаждения процессора, расчитаной на отвод тепловой мощности в 180 Вт TDP (thermal design power) – это большой скачок вперед, после предыдущих решений AMD, которые работают в диапазоне 40-95 Вт, или Интеловских платформ, где большинство процессоров имеют показатель TDP до 95 Вт, а хай-энд 140 Вт. Хотя не будем забывать, что AMD уже выпускала процессор с 220Вт TDP — это FX-9590, работающий на частоте 5 ГГц, который первоначально продавался в течение года в качестве продукта исключительно для OEM-производителей, чтобы быть уверенным, что у пользователей будет достаточно мощное охлаждение. В конце концов, он был выпущен как конечный продукт с кулером с жидкостной системой охлаждения и двумя вентиляторами.

AMD’s 5 GHz Turbo CPU in Retail: The FX-9590 and ASRock 990FX Extreme9 Review

Таким образом – TPD 180Вт все же не новая концепция для AMD. Для этого обзора я использовал жидкостное охлаждение AMD, полученное в свое время вместе с образцом FX-9590, потому что он был разработан для работы не менее 220 Вт. (AMD также предоставила кулер Thermaltake 3x120 вместе с Threadripper, но его было намного сложнее пристроить на нашем испытательном стенде.)

Для тестирования мощности мы запускаем Prime95 не менее 60 секунд, а затем используем программное обеспечение для опроса встроенных датчиков мощности на чипе для получения результатов. В зависимости от ЦПУ мы можем получить данные для всего чипа, на ядро, DRAM, uncore или интегрированного GPU – важно, чтобы наш инструмент имел последнее обновление, так как регистры для получения этих данных должны быть известны. Обычно этот способ чтения энергопотребления может быть недостаточно точным по сравнению с более инвазивными методами, он является быстрым и доступным для управления скриптами. Кроме того, именно эти данные определяют, когда центральный процессор достигает пределов мощности и ему необходимо увеличить скорость вращения вентилятора.

Для начала, посмотрим полное энергопотребление Threadripper.

В целом, Threadripper очень прожорлив даже на холостом ходу. Большая часть мощности здесь потребляется контроллером памяти и шиной PCIe, чтобы поддержать графический процессор со статическим дисплеем. Тот факт, что память 1950X, работающая на DDR4-3200, вытягивает еще 13 Вт + из CPU, показывает, какое влияние контроллер памяти оказывает на общее потребление энергии. Для всех чипов мы записываем 2 Вт мощности для ядер.

Когда мы загружаем процессор одним потоком, он запускает uncore / mesh, а также память и переходит в максимальный турбо-режим. В зависимости от того, как сконструирован процессор, это может нагрузить одно ядро или сразу несколько – и тогда, хотя лишь одно ядро будет выполнять работу, остальные всё равно увеличат потребление энергии.

По результатам видно, что разные процессоры Threadripper снова показывают примерно одинаковый результат, потребляя значительно больше процессоров Ryzen, и соответствуют CPU 10C/8C от Broadwell-E и Haswell-E соответственно. 1950X, работающий на DDR4-3200 по-прежнему тянет дополнительно + 13 Вт, но интересно, что потребление энергии у ядер Skylake-X подскочило примерно до той же величины. Похоже, что соединение MoDe-X, используемое в Skylake-X, также потребляет значительную мощность.

На следующем тесте загрузим процессор максимальным количеством потоков для этого дизайна чипа. Такой подход обеспечит максимальную нагрузку на все ядра, контроллер памяти и интерконнект.

Все процессоры Threadripper достигли отметки 177 Вт, чуть ниже 180 Вт TDP, а процессоры Skylake-X превысили их заявленное 140 Вт TDP. 1950X в Game Mode, похоже, потребляет немного меньше энергии, что может быть связано с запуском DRAM в среде NUMA.

Для некоторых чипов мы можем посмотреть потребление мощности только ядрами. И на полной загрузке мы получили любопытные результаты:

Ключевым элементом на этом графике является 1950X, работающий на DDR4-3200. Поскольку более быстрая DRAM требует, чтобы контроллер памяти потреблял больше энергии, он оставляет меньше энергии для ядер процессора, что может привести к более низкой частоте турбо режима. Поэтому, в то время как более быстрая память может гарантировать более высокую производительность в сценариях, зависящих от памяти, частота ядра при этом может оказаться ниже, выдавая худшую производительность в целом. Это интересное наблюдение, поэтому мы рассчитали мощность ядра в 1950X на DDR4-2400 и DDR4-3200.

На этом графике номер ядра на вертикальной оси – ядро, где измерялась мощность, а на горизонтальной – количество ядер которые нагружались, по два потока за раз.
Первоначально мы видим, при загрузке двумя потоками одного ядра, это одноядерное устройство потребляет 20.77 Вт. С момента, когда половина ядер чипа будет загружена, показатель опустится до 19 Вт, затем до 17 Вт, 16 Вт, и до 11 Вт. Как мы видим, при загрузке 8 ядер, ядра сами по себе потребляют 89 Вт — и если мы добавим потребление контроллера DRAM, результат, безусловно, будет больше, чем у процессора Ryzen. Тем не менее, по мере того, как мы нагружаем более 10 ядер, происходит что-то странное: общее энергопотребление ядер падает с 120 Вт до 116 Вт, и до 102 Вт, когда работает 24 потока. Это свидетельствует о том, что второй слой кремниевой матрицы потребляет меньше энергии на ядро. Затем потребление снова поднимается, причем полностью нагруженный чип дает каждому ядру около 8,2 Вт.

Переход на память DDR4-3200 показывает аналогичный сценарий:

Сначала одно ядро получает целых 21 Вт, а затем, по мере загрузки новых ядер, на отметке 4 ядра / 8 потоков, наблюдаем потребление меньше — 15 Вт на ядро на DDR4-3200 (сравните с 16 Вт на ядро на DDR4- 2400). Двигаясь дальше, мы наблюдаем небольшое колебание при 24-26 потоках, и в итоге, при полной нагрузке, — потребление 114 Вт всеми ядрами, что на 20 Вт меньше, чем на DDR4-2400.

Не все данные для Game Mode были получены должным образом, поэтому мы не рискнем сделать глубокие выводы из полученных результатов, хотя стоит сделать интересное замечание. В игровом режиме, когда система требует небольшого количества потоков, скажем, от 2 до 8, поскольку SMT отключен, эти потоки должны выполняться на разных CCX. В режиме Creator эти потоки группируются в 1-4 ядра по одному CCX и потребляют меньше энергии. Для DDR4-2400 это означает 65 Вт в режиме Creator для 8 потоков (4 ядра) по сравнению с 89 Вт в режиме Game для 8 активных ядер.

20. Анализ Creator Mode и Game Mode

Как говорилось на странице 3 этого обзора, что AMD предлагает два режима: режим Creator со всеми включенными ядрами и архитектурой uniform memory access (UMA), и режим Game, где отключена одна из матриц и архитектура скорректирована на non-uniform memory architecture (NUMA). Идея в том, чтобы в режиме Creator в вашем распоряжении были все потоки и пропускная способность, в то время как Game Mode фокусируется на совместимости с играми, которые не готовы работать с таким количеством ядер, при этом повышая скорость передачи данных к памяти и от ядра к ядру, и поддерживая потоки в пределах одного и того слоя кремния.

Оба метода имеют свои положительные и отрицательные стороны. И хотя они могут переключаться путем нажатия кнопки в Ryzen Master и последующей перезагрузки, большинство пользователей, которых интересуют эти настройки, наверняка, выберут нужный режим один раз и забудут о нем (А здесь обратите внимание, что если BIOS сбрасывается, то и настройки тоже...)

21. Заключение

В этом обзоре мы рассмотрели несколько важных тем касательно процессоров с большим количеством ядер: мощность, частота и «кормление зверя». Запуск процессора похож на обратную диету — вам нужно поместить как можно больше данных, чтобы получить хоть что-то на выходе и понять, что же спрятано «под капотом».

AMD и Intel используют разные подходы для достижения цели. Мы видим решение с несколькими матрицами против монолитного решения. Комплексы ядер и Infinity Fabric против mesh на основе MoDe-X. Единый доступ памяти против неравномерного доступа к памяти. И те, и другие борются за высокую частоту и низкое энергопотребление. AMD поддерживает ECC и больше PCIe-полос, в то время как Intel предоставляет более полный чипсет и специальные инструкции AVX-512. Оба конкурента сражаются за рынок high-end prosumer и workstations, что способствует высокопроизводительным многозадачным сценариям в качестве ключа к раскрытию потенциала их процессоров.

Вот что мы видим в спецификации: по сравнению с Core i9-7900X, AMD Ryzen Threadripper 1950X имеет на 6 ядер больше, плюс дополнительно 16 линий PCIe и поддержку ECC за ту же цену. По сравнению с выходящим 16-ядерным Core i9-7960X, Threadripper 1950X по-прежнему имеет преимущество — 16 линий PCIe, поддержка ECC, заметно дешевле конкурента.

Процессор 1920X предлагает пользователю больше ядер, поддержку ECC и более чем вдвое больше дорожек PCIe по сравнению с Core i7-7820X за разницу в $100. Проще говоря, если есть железо, требующие PCIe-полосы, у AMD есть что предложить.

Что касается тестов производительности, есть несколько ракурсов для описания полученных нами результатов. AMD по-прежнему отстает, когда дело доходит до сырого IPC, но показывает достойные результаты по частоте. Intel по-прежнему выигрывает в однопоточных задачах, особенно те, которые зависят от задержки DRAM. AMD вырывается вперед, когда задача требует серьезных потоков, зачастую распределение памяти не так проблемно, как могло показаться. Если у пользователя есть масштабируемая рабочая нагрузка, AMD даст ядра, чтобы позволить ей масштабироваться как можно шире.

Несмотря на то, что дизайн Threadripper, возможно, лучше подходит для высоконагруженных рабочих задач, его высокая частота по сравнению с Ryzen 7 означает, что гейминг станет частью «уравнения». В своем дефолтном Creative mode игровая производительность Threadripper в лучшем случае занимает средние позиции: очень мало игр могут использовать все эти потоки, а переменная задержка DRAM означает, что ядра иногда, грубо говоря, спотыкаются друг об друга, пытаясь «пообщаться» и предсказать, когда будет выполнена работа. Чтобы решить эту проблему, AMD предлагает игровой режим, который сокращает количество ядер и фокусирует выделение памяти в DRAM, ближайший к ядру (в ущерб максимальной пропускной способности DRAM). Это оказывает наибольшее влияние именно на минимальную частоту кадров, а не на средний FPS и влияет на 1080p больше, чем на 4K, что, возможно, является противоположностью ожиданиям высококлассного геймера. На некоторые игры Game mode не оказывает влияния, в то время как в других он может открыть новые возможности.

Если бы я взял и сказал, что процессоры Threadripper не являются, в целом, процессорами, это вызвало бы раздражение у технической аудитории. Более верный ответ — это не лучший игровой процессор. Но AMD освещает все это с другой стороны: процессор позволяет пользователю играть, передавать стрим, смотреть и обрабатывать все одновременно.

Вам придется делать много и сразу, чтобы заполнить 16 ядер до максимума, а значит для тех, кто это делает, AMD потенциальный победитель. Для тех, кому нужна хардкорная пропускная способность, перекодирование, декодирование; рендеринг, такой как Blender, Cinema 4D или трассировка лучей — это отличный процессор. Для обладателей нескольких GPU или поклонников мульти-хранилищ, или тех, кто хочет втиснуть в систему шесть штук ПЛИС PCIe 3.0 x8, AMD предлагает хороший продукт.

С дугой стороны, как бы круто не смотрелись 16 ядер в потребительском процессоре (и в этом смысле весь Threadripper выглядит круто — в стиле хардкора 90-х), — потоки Threadripper далеко не всегда полезны при потребительских нагрузках. Всего несколько известных рабочих нагрузок могут полностью насытить чип: кодирование видео — лучший тому пример. Остальные попросту не могу использовать более нескольких потоков. Этот факт во многом вызван тем, что за последние 8 лет образцом высокопроизводительных потребительских процессоров были четырехъядерные чипы Intel. Однако, надоедливый закон Амдаля всегда поблизости, и количество ядер в процессорах продолжает расти.

Здесь есть и непредсказуемый фактор – это область, где AMD выступает первопроходцем: неравномерное распределение ядер. NUMA до сих пор никогда не ориентировалась на потребителей, поэтому AMD и сталкивается с проблемами, рассмотренными в нашем обзоре.

Наличие нескольких режимов — очень умный выбор, тем более, что там есть достаточно много программного обеспечения, которое «не знает» о NUMA, но может хорошо нагрузить CPU, если NUMA вывести из уравнения, а процессор рассматривать, как полностью монолитное устройство. Несколько неприятным, однако, является тот факт, что режимы переключения требуют перезагрузки; вы можете получить хорошую отдачу благодаря переключению режимов, но для этого понадобятся лишние движения. В долгосрочной перспективе код с поддержкой NUMA уберет эту проблему и будет автоматически использовать память с наименьшей задержкой. Но даже в этом случае AMD создала не только решение, но и проблему, так как даже в идеальном варианте NUMA создаст ряд проблем с программированием, и маловероятно, что каждая программа в будущем сможет правильно его использовать.

С учетом сказанного, процессор с NUMA в настоящее время является несколько избыточным в потребительском пространстве. Он очень хорош для определенных экстремальных нагрузок, но не так хорошо сбалансирован, как Ryzen. Отбросив лишнее, это означает, что Threadripper не всегда дает заметный прирост производительности по сравнению с Ryzen. И это не особенность, уникальная для AMD — в течение долгого времени продукты Intel HEDT требовали выбора между количеством ядер и однопотоковой производительностью верхнего уровня, но подсчитать производительность CPU стало еще более сложной задачей с Threadripper. Существуют трудности при масштабировании процессора на столько ядер, и Threadripper несет эту ношу. Поэтому для потребителей (а это рынок, куда нацелен процессор), важно, как никогда, рассмотреть свои запланированные рабочие нагрузки. Вам нужна более быстрая кодировка Handbrake или более плавный геймплей? Можете ли вы бросить достаточное количество ядер на Threadripper, чтобы держать «зверя» занятым, или вам только изредка нужно больше, чем существующие 8 ядер Ryzen?

AMD пообещала, что сокет будет жить как минимум в течение двух поколений, поэтому серия Threadripper 2000, когда она появится, должна прийти сразу после обновления BIOS. Интересно, что с учетом размера сокета и конфигурации матрицы AMD может легко превратить эти два «мертвых» кремниевых пакета в «реальные» кремниевые пакеты и предложить 32 ядра. (Хотя эти дополнительные ядра — узкое местом в вопросе скорости доступа).

Это Войны Ядер. Мы приближаемся к первому чипу, который сможет сделать Kessel run меньше двенадцати парсеков (отсылка к «Звездным Войнам» — прим. перев.)

На правах рекламы. В канун зимних праздников акции становятся еще актуальнее! Успейте воспользоваться новогодним предложением и получить скидку в размере 25% на первый платеж при заказе на 3 или 6 месяцев!

Это не просто виртуальные серверы! Это VPS (KVM) с выделенными накопителями, которые могут быть не хуже выделенных серверов, а в большинстве случаев — лучше! Мы сделали VPS (KVM) c выделенными накопителями в Нидерландах и США (конфигурации от VPS (KVM) — E5-2650v4 (6 Cores) / 10GB DDR4 / 240GB SSD или 4TB HDD / 1Gbps 10TB доступными по уникально низкой цене — от $29 / месяц, доступны варианты с RAID1 и RAID10), не упустите шанс оформить заказ на новый тип виртуального сервера, где все ресурсы принадлежат Вам, как на выделенном, а цена значительно ниже, при гораздо более производительном «железе»!

Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки? Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США!