Часть 1 → Часть 2 → Часть 3
В соответствии с нашей политикой тестирования процессора, мы берем материнскую плату премиум-класса, с подходящим сокетом, и оснащаем систему достаточным объемом памяти, работающей на максимальной поддерживаемой производителем частоте. Так же тестирование выполняется, когда возможно, с настройками JEDEC.
Отмечается, что некоторые пользователи оспаривают такой подход, упоминая, что иногда максимальная поддерживаемая частота является довольно низкой, или более быстрая память доступна по аналогичной цене, или что использование поддерживаемых частот может снижать показатели производительности. Хотя эти комментарии имеют смысл, в конечном итоге очень немногие потребители используют профили памяти (XMP или другие), поскольку они требуют взаимодействия с BIOS, и большинство пользователей отказываются от поддерживаемых скоростей JEDEC — сюда относятся как домашние пользователи, так и поставщики, которые могут захотеть снизить наценку на пару центов или остаться в пределах, установленных производителем. Там, где это возможно, мы расширим тестирование, чтобы добавить более быстрые модули памяти — либо в этом обзоре, либо позднее.
Большое спасибо…
Мы должны поблагодарить указанные ниже компании за любезно предоставленное оборудование для наших тестовых стендов. Некоторые из этих аппаратных средств не включены в эту тестовую систему, но используются в других тестах.
Для того, чтобы идти в ногу со временем, нам приходится снова обновлять наше программное обеспечение. В обновлениях мы обычно применяем новейшую операционную систему, последние исправления, новейшие версии программного обеспечения и графические драйверы, а также добавляем новые тесты или удаляем старые. Как знают постоянные читатели, наше тестирование процессора состоит из набора автоматизированных тестов, и в зависимости от того, как работает новейшее программное обеспечение, пакет приходится изменять: обновлять или удалять тесты, или полностью переделывать. В прошлый раз, когда мы переписывали тесты с нуля, это заняло большую часть месяца, включая регрессионное тестирование (тестирование старых процессоров).
Одним из ключевых элементов нашего обновления тестов для 2018 (и 2019) года является тот факт, что наши скрипты и системы подготовлены для защиты от Specter и Meltdown. Это означает, что наши BIOS должны быть обновлены с использованием новейшего микрокода, и все шаги выполняются на операционной системе с обновлениями безопасности. В данном случае мы используем Windows 10 x64 Enterprise 1709 с апрельскими обновлениями безопасности, которые обеспечивают смягчение угрозы Smeltdown (так мы называем две уязвимости одним словом). Пользователи могут спросить, почему мы не используем Windows 10 x64 RS4, последнее серьезное обновление. Это связано с некоторыми новыми функциями, которые дают неоднозначные результаты. Вместо того, чтобы потратить несколько недель на изучение возможности их отключения, мы продолжим работу с RS3, которое сейчас широко используется.
Наш предыдущий набор бенчмарков был разделен на несколько сегментов в зависимости от того, к чему относится и как воспринимается тест. Наш новый набор тестов следует аналогичным правилам, и мы запускаем тесты, основанные на:
В зависимости от направленности обзора порядок этих ориентиров может меняться, а некоторые из них могут остаться за рамками обзора. Все результаты тестирований будут храниться в нашей базе данных Bench, в которой теперь есть новый раздел «CPU 2019».
В каждом разделе мы проведем такие тесты:
Наши тесты питания заключаются создании максимальной рабочей нагрузки для каждого потока в системе, и проверки регистров питания на чипе, чтобы выяснить такие детали, как потребляемая мощность ядер, мощность всего чипа, DRAM, блока ввода-вывода, и мощность каждого ядра. Результат зависит от того, сколько информации дает производитель чипа: иногда действительно много, иногда почти ничего.
В настоящее время мы используем POV-Ray в качестве основного Power теста, так как он, похоже, глубоко проникает в систему и очень последовательный. Чтобы ограничивать количество ядер при тестировании, мы используем affinity mask, управляемую из командной строки.
Эти тесты проводятся с отключением всех турбо-режимов в системе, заставляя ее работать на базовой частоте, и реализуют как проверку задержки памяти (Intel Latency Checker работает одинаково хорошо для обеих платформ), так и AIDA64 для проверки пропускной способности кэша.
Недавно мы автоматизировали около десятка игр с четырьмя различными уровнями производительности. У большинства игр будут данные о времени кадра, однако из-за сложностей с автоматизацией не у всех. Идея в том, чтобы получить хороший обзор подборки различных жанров и движков для тестирования. На данный момент мы автоматизировали следующие игры:
Набор тестов CPU Gaming мы будем использовать NVIDIA GTX 1080. Для чистого тестирования CPU мы используем RX460, так как теперь у нас имеется несколько устройств для параллельного тестирования.
В предыдущие годы мы тестировали несколько графических процессоров на небольшом количестве игр. На этот раз, благодаря проведенному мной опросу в Твиттере, который дал результат ровно 50:50, мы делаем наоборот: больше игр, меньше графических процессоров.
Время от времени мы получаем один и тот же комментарий: автоматизация — не лучший способ тестирования. Существует высокий барьер для входа, и это ограничивает возможности проведения тестов. С нашей точки зрения, несмотря на то, что требуется потратить время для правильного программирования (и правильного составления теста), автоматизация позволяет такие преимущетсва:
Наш тестовый софт сопоставляет все результаты, и отправляет все данные запущенных тестов в центральное хранилище, и я могу анализировать данные по мере их поступления. Это также действует как ручная проверка в случае, если какие-либо данные выглядят аномально.
У нас есть одно основное ограничение, оно касается наших игровых тестов. Мы запускаем несколько тестов через одну учетную запись Steam, и некоторые игры (например, GTA) доступны только онлайн. Поскольку Steam позволяет одной учетной записи запускать игру только на одной системе, наш игровой скрипт проверяет Steam API, чтобы определить, являемся ли мы «онлайн» или нет, и запускает автономные тесты, если аккаунту разрешен вход в систему. В зависимости от количества игр, которые категорически требуют онлайн-режим, эта необходимость может быть узким местом.
Как всегда, мы выполняем запросы на применение бенчмарков. Это помогает нам понять рабочие нагрузки, с которыми работают пользователи, и планировать их тестирование соответственно.
Замечание по программным пакетам: у нас были запросы на тесты на программное обеспечение, такое как ANSYS или другое программное обеспечение профессионального уровня. Недостатком тестирования этого программного обеспечения является лицензирование и масштабирование. Большинство из этих компаний не особо заботятся о том, чтобы мы проводили тесты, и заявляют, что это не входит в их планы. Другие, такие как Agisoft, более чем готовы помочь. Если вы участник разработки этих пакетов программного обеспечения, лучший способ увидеть, как мы используем их, — это протянуть нам руку. У нас есть специальные версии программного обеспечения для некоторых тестов, и если мы сможем получить что-то, что работает, и важно для нашей аудитории, то нам будет несложно добавить его в пакет тестов.
В разделе «Системные тесты» основное внимание уделяется тестированию в реальных условиях, с которыми сталкивается потребитель, с небольшим уклоном в пропускную способность. В этом разделе мы рассмотрим время загрузки приложения, обработку изображений, простую физику, эмуляцию, нейронное моделирование, оптимизированные вычисления и разработку трехмерных моделей, с использованием легкодоступного и настраиваемого программного обеспечения. Хотя не которые из тестов попроще перекрываются возможностями больших пакетов, таких как PCMark, (мы публикуем эти значения в разделе офисных тестов), различные перспективы всё же стоит рассмотреть. Во всех тестах мы подробно объясним, что тестируется, и как именно мы тестируем.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Одним из наиболее важных аспектов пользовательского опыта и рабочего процесса является скорость реакции системы. Хорошим тестом здесь является проверка времени загрузки приложений. Большинство программ в наши дни, когда они хранятся на SSD, загружаются почти мгновенно, однако некоторые офисные инструменты требуют предварительной загрузки активов, прежде чем они будут готовы к работе. В большинстве операционных систем также используется кэширование, поэтому, когда определенное программное обеспечение загружается часто (веб-браузер, офисные инструменты), его можно инициализировать гораздо быстрее.
В предыдущем пакете тестов мы проверяли, сколько времени потребуется для загрузки большого PDF-документа в Adobe Acrobat. К сожалению, этот тест был кошмаром в смысле программирования, и отказывался переходить на Win10 RS3 без боя. Тем временем мы обнаружили приложение, которое способно автоматизировать этот тест, и мы решили использовать GIMP, популярное и бесплатное приложение для редактирования фотографий. Это редактор с открытым исходным кодом, и главная альтернатива Adobe Photoshop. Мы настроили его для загрузки большого дизайнерского шаблона размером 50 МБ, и выполнили нагрузку 10 раз с интервалом 10 секунд между ними. Из-за кэширования первые 3-5 результатов часто медленнее, чем остальные, и время для кэширования может быть непоследовательным, поэтому мы принимаем среднее из последних пяти результатов, чтобы показать обработку ЦП при кэшированной загрузке.
Даже разогнанный, 2600K не может достигнуть производительности 7700K, в то время как 9700K с более высокой однопоточной частотой занимает достойное первое место.
Программное обеспечение FCAT было разработано для обнаружения микро-залипаний, упавших кадров, и запуска графических тестов, когда две видеокарты объединены вместе для рендеринга сцены. Из-за игровых движков и графических драйверов не все комбинации GPU работали идеально, в результате чего программное обеспечение фиксировало цвета для каждого визуализированного кадра и динамически производило RAW запись данных с помощью устройства захвата видео.
Программное обеспечение FCAT принимает записанное видео, в нашем случае это 90 секунд 1440p игры Rise of the Tomb Raider, и преобразовывает данные о цвете в данные времени кадра, поэтому система может отображать «наблюдаемую» частоту кадров и коррелировать с энергопотреблением видео ускорителей. Этот тест, в силу того, насколько быстро он был составлен, является однопоточным. Мы запускаем процесс, и получаем время завершения как результат.
FCAT — это еще один однопоточный тест, поэтому мы видим те же различия в производительности: разогнанный 2600K не вполне может сравниться со стоковым 7700K, а 9700K вырывается вперед.
Наш 3DPM-тест — это кастомный бенчмарк, разработанный для моделирования шести различных алгоритмов движения частиц в трехмерном пространстве. Алгоритмы были разработаны как часть моей кандидатской диссертации и, в конечном счете, лучше всего работают на графическом процессоре, и дают хорошее представление о том, как потоки команд интерпретируются различными микроархитектурами.
Ключевой частью алгоритмов является генерация случайных чисел — мы используем относительно быструю генерацию, которая завершает реализацию цепочек зависимостей в коде. Главное обновление по сравнению с примитивной первой версией этого кода — была решена проблема False Sharing в кэшах, что было основным узким местом. Мы также рассматриваем применение версий AVX2 и AVX512 этого теста для будущих обзоров.
Для этого теста мы запускаем стоковый набор частиц, используя шесть различных алгоритмов, в течение 20 секунд, с 10-секундными паузами, и сообщаем об общей скорости движения частиц в миллионах операций (движений) в секунду.
3DPM v2.1 можно загрузить с нашего сервера: 3DPMv2.1.rar (13,0 МБ)
Поскольку 2600K не имеет AVX2, он сильно отстает от 7700K / 9700K, когда программа оптимизирована для новых инструкций.
Один из популярных запрошенных тестов в нашем пакете — это эмуляция консоли. Возможность выбрать игру из устаревшей системы и запустить ее очень привлекательна, и зависит от усилий эмулятора: требуется значительно более мощная система x86, чтобы иметь возможность точно эмулировать старую консоль, отличную от x86. Особенно если код для этой консоли была сделан с учетом некоторых физических недоработок и багов оборудования.
Для нашего теста мы используем популярное программное обеспечение для эмуляции Dolphin, и запускаем через него вычислительный проект, чтобы определить, насколько точно наши процессоры могут эмулировать консоль. В этом тесте работа под эмуляцией Nintendo Wii будет длиться около 1050 секунд.
Последнюю версию Dolphin можно скачать тут
Dolphin добился значительных результатов в эру Haswell / Broadwell, что привело к невероятному увеличению производительности от 2600K до 7700K. К сожалению, по разным причинам разогнанный процессор провалил этот тест.
Этот бенчмарк был первоначально разработан для моделирования и визуализации активности нейронов и синапсов в мозге. Программное обеспечение поставляется с различными предустановленными режимами, и мы выбрали малый бенчмарк, который выполняет симуляцию мозга из 32 тысячи нейронов / 1,8 миллиардов синапсов, что эквивалентно мозгу морского слизня.
Мы сообщаем результаты теста как возможность эмулировать данные в режиме реального времени, поэтому любые результаты выше «единицы» подходят для работы в реальном времени. Из двух режимов, режим «без запуска синапсов», который является тяжелым для DRAM, и режим «с запуском синапсов», в котором нагружается процессор, мы выбираем последний. Несмотря на наш выбор, на тест по-прежнему влияет скорость DRAM.
DigiCortex можно загрузить тут
Для тестов, связанных с памятью, мы запускали системы на их поддерживаемых частотах, определенных Intel, за исключением «оверклоченой» системы, которая справедливо получила значительное ускорение с DDR3-1333 до DDR3-2400. Результаты показывают увеличение производительности, но даже дефолтный 7700K оказывается быстрее. А переход на 9700K показывает прирост производительности за счет дополнительных ядер.
Я как-то слышал об y-Cruncher как об инструменте, помогающем вычислять различные математические константы. Но после того, как я начал говорить с его разработчиком, Alex Yee, исследователем из NWU и теперь разработчиком оптимизации программного обеспечения, я понял, что он оптимизировал программное обеспечение просто невероятным образом, чтобы получить лучшую производительность. Естественно, любая симуляция, которая занимает 20+ дней, получит выгоду от 1% прироста производительности! Алекс начал работу с y-Cruncher в качестве проекта в средней школе, и сейчас проект находится в актуальном состоянии. Алекс постоянно работает над ним, чтобы воспользоваться новейшими наборами инструкций, даже прежде чем они станут доступны на аппаратном уровне.
Для нашего теста мы запускаем y-Cruncher v0.7.6 через все возможные оптимизированные варианты двоичных, однопоточных и многопоточных вычислений, включая оптимизированные для AVX-512 бинарные файлы. Тест заключатся в том, чтобы вычислить 250 миллионов знаков числа Pi, и мы используем однопоточные и многопоточные версии этого теста.
Пользователи могут скачать y-cruncher с сайта Алекса
y-cruncher — это еще один бенчмарк, который использует для ускорения как можно больше функций AVX, демонстрируя, что современные потомки Sandy Bridge имеют дополнительные преимущества.
Один из ISV, с которым мы работаем в течение нескольких лет, — это Agisoft. Кампания разрабатывает программное обеспечение под названием PhotoScan, которое преобразует ряд 2D-изображений в 3D-модель. Это важный инструмент в разработке и архивировании моделей, и опирается на ряд однопоточных и многопоточных алгоритмов для перехода от одной стороны вычисления к другой.
В нашем тесте мы берем версию 1.3.3 программного обеспечения с набором данных большого размера — фотографии 84 x 18 мегапикселей. Мы прогоняем тест по довольно быстрому набору алгоритмов, но все же более строгому, чем наш тест 2017 года. В результате мы сообщаем об общем времени завершения процесса.
Веб-сайт Agisoft Photoscan можно найти здесь
Так как это тест с переменной многопоточностью, разгон 2600K дает значительный скачок производительности по сравнению с стоковой версией. Однако дефолтный 7700K делает ещё один скачок почти такого же размера. А 9700K, благодаря большому количеству ядер, просто смеется над остальными чипами в этом сравнении.
В профессиональной среде рендеринг часто является основной рабочей нагрузкой процессора. Он используется в разных форматах: от 3D-рендеринга до растеризации, в таких задачах как игры или трассировка лучей, и использует способность программного обеспечения управлять мешами, текстурами, коллизиями, алиасами и физикой (в анимации). Большинство рендереров предлагают код для ЦП, в то время как некоторые из них используют графические процессоры и выбирают окружение, использующее FPGA или специализированные ASIC. Однако для крупных студий процессоры по-прежнему являются главным аппаратным обеспечением.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Улучшенный рендерер, оптимизированный для производительности для программного обеспечения, такого как 3ds Max и Cinema 4D, тест Corona рендерит сгенерированную сцену стандарта версии 1.3. Обычно реализация GUI бенчмарка показывает процесс построения сцены, и позволяет пользователю видеть результат как «время для завершения».
Мы связались с разработчиком, который дал нам версию командной строки теста, которая обеспечивает прямой вывод результатов. Вместо того, чтобы сообщать время построения сцены, мы сообщаем среднее количество лучей в секунду в течение шести прогонов, так как соотношение выполненных действий к единицам времени визуально легче понять.
Мы видим заметную разницу в производительности между 7700K и 2600K, обусловленную обновлениями микроархитектуры и частотой, однако разгон 2600K только вдвое уменьшает этот разрыв.
Высококлассный инструмент для рендеринга, Blender — продукт с открытым исходным кодом, имеющий множество настроек и конфигураций, используется многими высококлассными анимационными студиями по всему миру. Недавно организация выпустила тестовый пакет Blender, через пару недель после того, как мы решили уменьшить использование теста Blender в нашем новом пакете, однако новый тест может занять более часа. Для получения наших результатов мы запускаем один из подтестов в этом пакете через командную строку — стандартную сцену «bmw27» в режиме «только CPU», и измеряем время завершения рендеринга.
Blender можно скачать по адресу.
Ту же картину мы наблюдаем и с тестом Blender: разгон лишь вдвое сокращает разрыв производительности между 2600K и стоковым 7700K. Добавьте разгон к 7700K, и этот разрыв станет больше.
Как указано выше, существует много разных способов обработки данных рендеринга: CPU, GPU, Accelerator и другие. Кроме того, существует множество фреймворков и API, в которых можно программировать, в зависимости от того, как будет использоваться программное обеспечение. LuxMark, бенчмарк, разработанный с использованием механизма LuxRender, предлагает несколько различных сцен и API.
В нашем тесте мы запускаем простую сцену «Ball» на коде C ++ и OpenCL, но в режиме CPU. Эта сцена начинается с грубого рендеринга и медленно улучшает качество в течение двух минут, давая окончательный результат в показателе, который можно обозвать «среднее количество тысяч лучей в секунду».
POV-Ray 3.7.1: трассировка лучей
Движок трассировки лучей Persistence of Vision — еще один известный инструмент бенчмаркинга, который какое-то время находился в спячке, пока AMD не выпустила свои процессоры Zen, когда внезапно оба Intel и AMD стали пушить код в основную ветку проекта с открытым исходным кодом. Для нашего теста мы используем встроенный тест для всех ядер, вызываемый из командной строки.
POV-Ray можно скачать тут
POV-Ray выделяется на фоне предыдущих тестов, и показывает, какую роль AVX2 играет в современных процессорах. POV-Ray также предпочитает ядра, а не потоки, поэтому наличие восьми реальных ядер даёт 9700K неплохое преимущество.
Набор тестов Office предназначен, чтобы сосредоточиться на более стандартных отраслевых тестах, которые фокусируются на офисных рабочих процессах. Это больше синтетические тесты, но мы также проверяем производительность компилятора в этом разделе. Для пользователей, которым важно оценивать оборудование в целом, обычно это самые важные критерии, которые стоит принимать во внимание.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Futuremark, теперь известный как UL, разрабатывал тесты, которые стали отраслевыми стандартами, в течение двух десятилетий. Последним набором системных тестов является PCMark 10, где по сравнению с PCMark 8 улучшены несколько тестов, и больше внимания уделено OpenCL, конкретно в таких случаях, как потоковая передача видео.
PCMark разбивает свои оценки на примерно 14 различных областей, включая запуск приложений, веб-страницы, электронные таблицы, редактирование фотографий, рендеринг, видеоконференции и физику. Мы публикуем все эти данные в нашей базе данных Bench, однако ключевым показателем для текущего обзора является общий балл.
Такой инструмент, как PCMark, на самом деле не показывает реальный масштаб различий, за исключением основных тестов, которые являются полностью многопоточными, и в которых 9700K получает преимущество. 7700K превосходит обычный 2600K лишь на 17%, и разрыв снижается до 5% по сравнению с разогнанной версией. Возможно, это еще и показатель того, как часто вы чувствуете разницу между новым 7700K и разогнанным 2600K: 5% времени. Конечно, это зависит от вашего баланса нагрузки.
Большое количество читателей AnandTech — это инженеры-программисты, которые смотрят, как работает аппаратное обеспечение. Хотя компиляция ядра Linux является «стандартным» для рецензентов, которые компилируют часто, наш тест немного более разнообразен — мы используем инструкции Windows для компиляции Chrome, в частности, сборки Chrome 56 марта 2017 года, так как это было тогда, когда мы создали тест. Google довольно подробно дает инструкции о том, как скомпилировать под Windows, после загрузки 400 000 файлов из репозитория.
В нашем тесте, следуя инструкциям Google, мы используем компилятор MSVC, и ninja для управления компиляцией. Как и следовало ожидать, это тест с переменной многопоточностью, и с переменными требованиями к DRAM, которые получают выгоду от более быстрых кешей. Результаты, полученные в нашем тесте, — это время, затраченное на компиляцию, которое мы конвертируем в количество компиляций в день.
Этот тест компиляции предпочитает ядра 9700K вместо SMT, и мы снова видим, что разогнанный 2600K находятся посредине между стоковыми 7700K и 2600K. Даже без разгона, 7700K оказывается сильнее.
Наряду с PCMark существует бенчмарк 3DMark, Futuremark (UL) – набор игровых тестов. Каждый игровой тест состоит из одной или двух сцен, тяжелых для графического процессора, а также физического теста, зависящего от того, когда был написан тест и на какую платформу он нацелен. Основными испытуемыми, в порядке приростания сложности, являются Ice Storm, Cloud Gate, Sky Diver, Fire Strike и Time Spy.
Некоторые из подтестов предлагают другие варианты, такие как Ice Storm Unlimited, который предназначен для мобильных платформ с внеэкранным рендерингом, или Fire Strike Ultra, который предназначен для высокопроизводительных систем 4K с большим количеством добавленных функций. Стоит заметить, что Time Spy в настоящее время имеет режим AVX-512 (который мы можем использовать в будущем).
Что касается наших тестов, мы отправляем в Bench результаты каждого физического теста, но для обзора мы придерживаемся результатов только самых требовательных сцен: Ice Storm Unlimited, Cloud Gate, Sky Diver, Fire Strike Ultra и Time Spy,
Общий инструмент для межплатформенного тестирования на мобильных устройствах, ПК и Mac, GeekBench 4 — это идеальное синтетическое испытание системы по целому ряду алгоритмов, требующих максимальной пропускной способности. Тесты включают в себя шифрование, сжатие, быстрое преобразование Фурье, операции с памятью, физику n-тела, операции с матрицами, манипуляцию с гистограммой и парсинг HTML.
Я включаю этот тест по причине популярности запроса, хотя результаты его очень уж синтетические. Многие пользователи часто придают большое значение его результатам из-за того, что он скомпилирован на разных платформах (хотя и разными компиляторами).
Мы записываем оценки основных подтестов (Crypto, Integer, Floating Point, Memory) в нашу базу результатов тестирований, но для обзора публикуем только общие однопоточные и многопоточные результаты.
С ростом количества стримов, видеоблогов и видеоконтента в целом, тесты кодирования и транскодирования приобретают всё большее значение. Мало того, что становится всё больше домашних пользователей и геймеров, занятых преобразованием видеофайлов и видеопотоков, но и сервера, обрабатывающие потоки данных, нуждаются в шифровании на лету, а также компрессии и декомпрессии логов. Наши тесты кодирования нацелены на такие сценарии, и учитывают мнение комьюнити, чтобы обеспечить самые актуальные результаты.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Популярный инструмент с открытым исходным кодом, Handbrake — программное обеспечение для преобразования видео любым возможным способом, которое, в некотором смысле, является эталоном. Опасность здесь кроется в номерах версии и в оптимизации. Например, последние версии программного обеспечения могут использовать преимущества AVX-512 и OpenCL для ускорения некоторых типов транскодирования и определенных алгоритмов. Версия, которую мы используем, представляет собой чистую работу с CPU, со стандартными вариантами транскодирования.
Мы разделили Handbrake на несколько тестов, используя запись с нативной веб-камеры Logitech C920 1080p60 (по существу, запись стрима). Запись будет преобразована в два типа потоковых форматов и в один для архивирования. Используемые параметры вывода:
Из всех наших тестов архивации / разархивации 7-zip является наиболее востребованным, и обладает встроенным бенчмарком. В наш тестовый набор мы внесли последнюю версию этого софта, и мы запускаем бенчмарк из командной строки. Результаты архивации и разархивации выводим как единый общий балл.
В этом тесте хорошо видно, что современные процессоры с несколькими матрицами имеют большое различие в производительности между сжатием и декомпрессией: хорошо проявляют себя в одном, и плохо в другом. Кроме того, у нас ведутся активные дискуссии о том, как Windows Scheduler реализует каждый поток. Когда мы получим больше результатов, с удовольствием поделимся своими соображениями на этот счет.
Пожалуйста, обратите внимание, если вы планируете где-либо публиковать данные сжатия, пожалуйста, включите и результаты разархивирования. В противном случае вы представите лишь половину результата.
Когда мне нужен инструмент для сжатия, обычно я выбираю WinRAR. Многие пользователи моего поколения использовали его более двух десятилетий назад. Интерфейс почти не изменился, хотя интеграция с командами right-click в Windows весьма приятный плюс. Он не имеет встроенного бенчмарка, поэтому мы запускаем сжатие каталога, содержащего более 30 60-секундных видеофайлов и 2000 небольших веб-файлов, с нормальной скоростью сжатия.
WinRAR имеет переменную многопоточность, и требователен к кэшированию, поэтому в нашем тесте мы запускаем его 10 раз, и вычисляем среднее значение за последние пять прогонов, что про проверять только производительность процессора.
WinRAR наконец-то позволяет разогнанному 2600K почти сравняться со стоковым 7700K. Это тест с переменной многопоточностью, и он, похоже, не использует ни одну из новых инструкций, предлагаемых 7700K. Тем не менее, большее количество ядер в 9700K в противовес потокам приносит большой бонус, как и модернизированный DRAM.
Ряд платформ, особенно мобильные устройства, по умолчанию шифруют файловые системы для защиты содержимого. У устройств на базе Windows шифрование часто применяется BitLocker или сторонним программным обеспечением. В тесте шифрования AES мы использовали discontinued TrueCrypt в бенчмарке, который проверяет несколько алгоритмов шифрования непосредственно в памяти.
Данные, полученные в результате этого теста, — комбинированная производительность AES для шифрования / дешифрования, измеренная в гигабайтах в секунду. Программное обеспечение использует команды AES если процессор это позволяет, но не использует AVX-512.
Ввиду направленности на low-end системы, или small form factor системы, веб-тесты, как правило, трудно стандартизировать. Современные веб-браузеры часто обновляются, не давая возможности отключить эти обновления, поэтому трудно поддерживать какую-то общую платформу. Быстрый темп развития браузера означает, что версии (и показатели производительности) могут меняться с недели на неделю. Несмотря на это, веб-тесты часто являются важным показателем для пользователей: многие из современных офисных работ связаны с веб-приложениями, особенно с электронными и офисными приложениями, а также с интерфейсами и средами разработки. Наш набор веб-тестов включает несколько тестов, являющихся индустриальным стандартом, а также несколько популярных, но несколько устаревших тестов.
Мы также включили наши устаревшие, но всё ещё популярные тесты в этот раздел.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Компания, стоящая за тестовым пакетом XPRT, Principled Technologies, недавно выпустила новейший веб-тест, и вместо того, чтобы добавить год выпуска к названию, его просто назвали «3». Этот новейший (по крайней мере, сейчас) тест разработан на основании таких предшественников: тесты взаимодействия с пользователем, офисных вычислений, построения графиков, сортировки списков, HTML5, манипулирования изображениями, и в некоторых случаях даже тесты ИИ.
Для нашего бенчмарка мы запускаем стандартный тест, который отработает контрольный список семь раз и дает конечный результат. Мы проводим такой тест четыре раза, и выводим среднее значение.
Пользователи могут получить доступ к тесту WebXPRT по адресу
Более старая версия WebXPRT — издание 2015 года, в котором внимание уделяется немного другому набору веб-технологий и фреймворков, которые, впрочем, используются сегодня. Это по-прежнему актуальный тест, особенно для пользователей, которые взаимодействуют с не самыми последними веб-приложениями на рынке, и таких пользователей много. Разработка веб-фреймворков движется очень быстро и обладает высокой текучестью. Фреймворки быстро разрабатываются, встраиваются в приложения, используются, и тут же разработчики переходят к следующему. А адаптация приложения под новый фреймворк — сложная задача, особенно с такой скоростью циклов развития. По этой причине множество приложений «застряли во времени», и остаются актуальными для пользователей в течение многих лет.
Как и в случае с WebXPRT3, основной бенчмарк отрабатывает контрольный набор семь раз, выводя окончательный результат. Мы повторяем это четыре раза, выводим среднее и показываем окончательные результаты.
Наш новейший веб-тест — Speedometer 2, который проходит по целому ряду фреймворков javascript, чтобы сделать всего три простых вещи: построить список, включить каждый элемент в списке, и удалить список. Все фреймворки реализуют одни и те же визуальные сигналы, но, что очевидно, делают это по-разному.
Наш тест проходит весь список фреймворков и дает окончательный балл под названием «rpm», один из внутренних показателей бенчмарка. Мы выводим этот показатель как окончательный результат.
Популярный веб-тест в течение нескольких лет, но теперь уже не обновляемый, — Octane от Google. Версия 2.0 выполняет пару десятков задач, связанных с вычислениями, таких как регулярные выражения, криптография, трассировка лучей, эмуляция и вычисление уравнений Навье — Стокса.
Тест дает каждому из подтестов оценку, и возвращает среднее геометрическое в качестве конечного результата. Мы проводим полный бенчмарк четыре раза и оцениваем окончательные результаты.
Еще более старый, чем Octane, перед нами Kraken, на этот раз разработанный Mozilla. Это старый тест, который выполняет относительно однообразную вычислительную механику, такую как обработка звука или фильтрация изображений. Похоже, что Kraken производит очень нестабильный результат, зависящий от версии браузера, поскольку этот тест сильно оптимизирован.
Основной бенчмарк проходит через каждый из подтестов десять раз, и возвращает среднее время завершения для каждого цикла в миллисекундах. Мы запускаем полный бенчмарк четыре раза, и замеряем средний результат.
Первый «наследованный» тест в пакете — первая версия нашего теста 3DPM. Это конечная нативная версия кода, как если бы она была написана ученым без знания того, как работает компьютерное оборудование, компиляторы или оптимизация (как это и было в самом начале). Тест представляет собой большой объем научного моделирования в дикой природе, где получение ответа более важно, чем скорость вычислений (получение результата за 4 дня приемлемо, если оно правильно; год учится программировать и получив результат через 5 минут – не приемлемо).
В этой версии единственная реальная оптимизация была в флагах компилятора (-O2, -fp: fast): компиляция в релиз режиме и включение OpenMP в основных циклах вычислений. Циклы не были подогнаны под размеры функций, а самым серьезным замедлением работы является false sharing в кеше. Код также имеет длинные цепи зависимостей, основанные на генерации случайных чисел, что приводит к снижению производительности на некоторых вычислительных микроархитектурах.
3DPM v1 как и 3DPM v2 можно загрузить здесь: 3DPMv2.1.rar (13,0 МБ)
Этот тест перекодирования очень стар, им пользовался Anandtech еще во времена процессоров Pentium 4 и Athlon II. В нем стандартизованное видео 720p перекодируется с двойным преобразованием, а бенчмарк показывает кадры в секунду каждого прохода. Тест является однопоточным, и в некоторых архитектурах мы упираемся в ограничение IPC — instructions-per-clock.
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Оборудование для тестирования
В соответствии с нашей политикой тестирования процессора, мы берем материнскую плату премиум-класса, с подходящим сокетом, и оснащаем систему достаточным объемом памяти, работающей на максимальной поддерживаемой производителем частоте. Так же тестирование выполняется, когда возможно, с настройками JEDEC.
Отмечается, что некоторые пользователи оспаривают такой подход, упоминая, что иногда максимальная поддерживаемая частота является довольно низкой, или более быстрая память доступна по аналогичной цене, или что использование поддерживаемых частот может снижать показатели производительности. Хотя эти комментарии имеют смысл, в конечном итоге очень немногие потребители используют профили памяти (XMP или другие), поскольку они требуют взаимодействия с BIOS, и большинство пользователей отказываются от поддерживаемых скоростей JEDEC — сюда относятся как домашние пользователи, так и поставщики, которые могут захотеть снизить наценку на пару центов или остаться в пределах, установленных производителем. Там, где это возможно, мы расширим тестирование, чтобы добавить более быстрые модули памяти — либо в этом обзоре, либо позднее.
Большое спасибо…
Мы должны поблагодарить указанные ниже компании за любезно предоставленное оборудование для наших тестовых стендов. Некоторые из этих аппаратных средств не включены в эту тестовую систему, но используются в других тестах.
Наш новый набор тестов на 2019 и 2020 годы:
Закаленные в борьбе со Spectre и Meltdown
Для того, чтобы идти в ногу со временем, нам приходится снова обновлять наше программное обеспечение. В обновлениях мы обычно применяем новейшую операционную систему, последние исправления, новейшие версии программного обеспечения и графические драйверы, а также добавляем новые тесты или удаляем старые. Как знают постоянные читатели, наше тестирование процессора состоит из набора автоматизированных тестов, и в зависимости от того, как работает новейшее программное обеспечение, пакет приходится изменять: обновлять или удалять тесты, или полностью переделывать. В прошлый раз, когда мы переписывали тесты с нуля, это заняло большую часть месяца, включая регрессионное тестирование (тестирование старых процессоров).
Одним из ключевых элементов нашего обновления тестов для 2018 (и 2019) года является тот факт, что наши скрипты и системы подготовлены для защиты от Specter и Meltdown. Это означает, что наши BIOS должны быть обновлены с использованием новейшего микрокода, и все шаги выполняются на операционной системе с обновлениями безопасности. В данном случае мы используем Windows 10 x64 Enterprise 1709 с апрельскими обновлениями безопасности, которые обеспечивают смягчение угрозы Smeltdown (так мы называем две уязвимости одним словом). Пользователи могут спросить, почему мы не используем Windows 10 x64 RS4, последнее серьезное обновление. Это связано с некоторыми новыми функциями, которые дают неоднозначные результаты. Вместо того, чтобы потратить несколько недель на изучение возможности их отключения, мы продолжим работу с RS3, которое сейчас широко используется.
Наш предыдущий набор бенчмарков был разделен на несколько сегментов в зависимости от того, к чему относится и как воспринимается тест. Наш новый набор тестов следует аналогичным правилам, и мы запускаем тесты, основанные на:
- Power
- Memory
- Office
- System
- Render
- Encoding
- Web
- Legacy
- Integrated Gaming
- CPU Gaming
В зависимости от направленности обзора порядок этих ориентиров может меняться, а некоторые из них могут остаться за рамками обзора. Все результаты тестирований будут храниться в нашей базе данных Bench, в которой теперь есть новый раздел «CPU 2019».
В каждом разделе мы проведем такие тесты:
Power
Наши тесты питания заключаются создании максимальной рабочей нагрузки для каждого потока в системе, и проверки регистров питания на чипе, чтобы выяснить такие детали, как потребляемая мощность ядер, мощность всего чипа, DRAM, блока ввода-вывода, и мощность каждого ядра. Результат зависит от того, сколько информации дает производитель чипа: иногда действительно много, иногда почти ничего.
В настоящее время мы используем POV-Ray в качестве основного Power теста, так как он, похоже, глубоко проникает в систему и очень последовательный. Чтобы ограничивать количество ядер при тестировании, мы используем affinity mask, управляемую из командной строки.
Memory
Эти тесты проводятся с отключением всех турбо-режимов в системе, заставляя ее работать на базовой частоте, и реализуют как проверку задержки памяти (Intel Latency Checker работает одинаково хорошо для обеих платформ), так и AIDA64 для проверки пропускной способности кэша.
Office
- Chromium Compile: Windows VC++ Compile of Chrome 56 (как и в 2017 году)
- PCMark10: Общие данные будут в результатах обзора, а результаты сабтестов можно увидеть в Bench
- 3DMark Physics: Мы заносим каждый саб-тест Bench, но сообщаем о самых важных (новинка)
- GeekBench4: По требованию (новинка)
- SYSmark 2018: недавно выпущенный BAPCo, сейчас работаем над внесением его в наш автоматический набор тестов (новинка, пока недоступен)
System
- Загрузка приложений: GIMP 2.10.4 (новинка)
- FCAT: обработка 90-секундной записи ROTR 1440p (как и в 2017 году)
- 3D Particle Movement: Тест распределения частиц (как и в 2017) – а ещё у нас есть версии для AVX2 и AVX512, которые мы постараемся добавить позднее;
- Dolphin 5.0: Симулятор консоли (как и в 2017)
- DigiCortex: Симулятор мозга морского слизня (как и в 2017)
- y-Cruncher v0.7.6: Вычисление Пи с оптимизированным набором инструкций новых CPU (новинка)
- Agisoft Photoscan 1.3.3: Инструмент преобразования 2D изображения в 3D (обновлённый)
Render
- Corona 1.3: Производительность рендеринга в 3dsMax, Cinema4D (как и в 2017)
- Blender 2.79b: Рендеринг bmw27 на CPU (обновлённый до 2.79b)
- LuxMark v3.1 C++ и OpenCL: Тестирование различных путей кода рендеринга (как и в 2017)
- POV-Ray 3.7.1: Встроенный benchmark (обновлён)
- CineBench R15: Устаревший Cinema4D тест, скорее всего останется в Bench (такой же как и в 2017)
Encoding
- 7-zip 1805: встроенный benchmark (обновлён до v1805)
- WinRAR 5.60b3: Тест сжатия папки, содержащей видео и веб-файлы (обновлён до 5.60b3)
- AES Encryption: проезводительность AES в памяти. Несколько устаревший тест. (остался с 2017)
- Handbrake 1.1.0: начальный файл Logitech C920 1080p60 перекодируется в три формата, для стриминга/хранения:
- 720p60, x264, 6000 kbps CBR, Fast, High Profile
- 1080p60, x264, 3500 kbps CBR, Faster, Main Profile
- 1080p60, HEVC, 3500 kbps VBR, Fast, 2-Pass Main Profile
Web
- WebXPRT3: Последний WebXPRT тест (обновлён)
- WebXPRT15: Аналогичен 3, но несколько устарел. (остался с 2017)
- Speedometer2: Javascript Framework test (новинка)
- Google Octane 2.0: Устаревший но популярный веб-тест (остался с 2017)
- Mozilla Kraken 1.1: Устаревший но популярный веб-тест (остался с 2017)
- Legacy (набор не изменился с 2017 года)
- 3DPM v1: Старая версия 3DPM
- x264 HD 3.0: Старый бенчмарк транскодирования
- Cinebench R11.5 и R10: представители различных методологий кодирования
Integrated and CPU Gaming
Недавно мы автоматизировали около десятка игр с четырьмя различными уровнями производительности. У большинства игр будут данные о времени кадра, однако из-за сложностей с автоматизацией не у всех. Идея в том, чтобы получить хороший обзор подборки различных жанров и движков для тестирования. На данный момент мы автоматизировали следующие игры:
Набор тестов CPU Gaming мы будем использовать NVIDIA GTX 1080. Для чистого тестирования CPU мы используем RX460, так как теперь у нас имеется несколько устройств для параллельного тестирования.
В предыдущие годы мы тестировали несколько графических процессоров на небольшом количестве игр. На этот раз, благодаря проведенному мной опросу в Твиттере, который дал результат ровно 50:50, мы делаем наоборот: больше игр, меньше графических процессоров.
Scale Up против Scale Out: преимущества автоматизации
Время от времени мы получаем один и тот же комментарий: автоматизация — не лучший способ тестирования. Существует высокий барьер для входа, и это ограничивает возможности проведения тестов. С нашей точки зрения, несмотря на то, что требуется потратить время для правильного программирования (и правильного составления теста), автоматизация позволяет такие преимущетсва:
- Гарантирует постоянные перерывы между тестами для охлаждения, а не случайное время восстановления, основанное на «если я смотрю на экран»;
- Позволяет нам одновременно тестировать несколько систем. В настоящее время я использую пять систем в своем офисе (ограничено количеством мониторов 4K и свободным местом), что означает, что мы можем проверять больше оборудования одновременно;
- Мы можем оставить тесты для запуска на ночь, что очень помогает успеть вовремя;
- С правильным подходом добавлять новые тесты очень легко
Наш тестовый софт сопоставляет все результаты, и отправляет все данные запущенных тестов в центральное хранилище, и я могу анализировать данные по мере их поступления. Это также действует как ручная проверка в случае, если какие-либо данные выглядят аномально.
У нас есть одно основное ограничение, оно касается наших игровых тестов. Мы запускаем несколько тестов через одну учетную запись Steam, и некоторые игры (например, GTA) доступны только онлайн. Поскольку Steam позволяет одной учетной записи запускать игру только на одной системе, наш игровой скрипт проверяет Steam API, чтобы определить, являемся ли мы «онлайн» или нет, и запускает автономные тесты, если аккаунту разрешен вход в систему. В зависимости от количества игр, которые категорически требуют онлайн-режим, эта необходимость может быть узким местом.
Обновления комплекта Benchmark
Как всегда, мы выполняем запросы на применение бенчмарков. Это помогает нам понять рабочие нагрузки, с которыми работают пользователи, и планировать их тестирование соответственно.
Замечание по программным пакетам: у нас были запросы на тесты на программное обеспечение, такое как ANSYS или другое программное обеспечение профессионального уровня. Недостатком тестирования этого программного обеспечения является лицензирование и масштабирование. Большинство из этих компаний не особо заботятся о том, чтобы мы проводили тесты, и заявляют, что это не входит в их планы. Другие, такие как Agisoft, более чем готовы помочь. Если вы участник разработки этих пакетов программного обеспечения, лучший способ увидеть, как мы используем их, — это протянуть нам руку. У нас есть специальные версии программного обеспечения для некоторых тестов, и если мы сможем получить что-то, что работает, и важно для нашей аудитории, то нам будет несложно добавить его в пакет тестов.
Системные тесты
В разделе «Системные тесты» основное внимание уделяется тестированию в реальных условиях, с которыми сталкивается потребитель, с небольшим уклоном в пропускную способность. В этом разделе мы рассмотрим время загрузки приложения, обработку изображений, простую физику, эмуляцию, нейронное моделирование, оптимизированные вычисления и разработку трехмерных моделей, с использованием легкодоступного и настраиваемого программного обеспечения. Хотя не которые из тестов попроще перекрываются возможностями больших пакетов, таких как PCMark, (мы публикуем эти значения в разделе офисных тестов), различные перспективы всё же стоит рассмотреть. Во всех тестах мы подробно объясним, что тестируется, и как именно мы тестируем.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Загрузка приложений: GIMP 2.10.4
Одним из наиболее важных аспектов пользовательского опыта и рабочего процесса является скорость реакции системы. Хорошим тестом здесь является проверка времени загрузки приложений. Большинство программ в наши дни, когда они хранятся на SSD, загружаются почти мгновенно, однако некоторые офисные инструменты требуют предварительной загрузки активов, прежде чем они будут готовы к работе. В большинстве операционных систем также используется кэширование, поэтому, когда определенное программное обеспечение загружается часто (веб-браузер, офисные инструменты), его можно инициализировать гораздо быстрее.
В предыдущем пакете тестов мы проверяли, сколько времени потребуется для загрузки большого PDF-документа в Adobe Acrobat. К сожалению, этот тест был кошмаром в смысле программирования, и отказывался переходить на Win10 RS3 без боя. Тем временем мы обнаружили приложение, которое способно автоматизировать этот тест, и мы решили использовать GIMP, популярное и бесплатное приложение для редактирования фотографий. Это редактор с открытым исходным кодом, и главная альтернатива Adobe Photoshop. Мы настроили его для загрузки большого дизайнерского шаблона размером 50 МБ, и выполнили нагрузку 10 раз с интервалом 10 секунд между ними. Из-за кэширования первые 3-5 результатов часто медленнее, чем остальные, и время для кэширования может быть непоследовательным, поэтому мы принимаем среднее из последних пяти результатов, чтобы показать обработку ЦП при кэшированной загрузке.
Даже разогнанный, 2600K не может достигнуть производительности 7700K, в то время как 9700K с более высокой однопоточной частотой занимает достойное первое место.
FCAT: обработка изображений
Программное обеспечение FCAT было разработано для обнаружения микро-залипаний, упавших кадров, и запуска графических тестов, когда две видеокарты объединены вместе для рендеринга сцены. Из-за игровых движков и графических драйверов не все комбинации GPU работали идеально, в результате чего программное обеспечение фиксировало цвета для каждого визуализированного кадра и динамически производило RAW запись данных с помощью устройства захвата видео.
Программное обеспечение FCAT принимает записанное видео, в нашем случае это 90 секунд 1440p игры Rise of the Tomb Raider, и преобразовывает данные о цвете в данные времени кадра, поэтому система может отображать «наблюдаемую» частоту кадров и коррелировать с энергопотреблением видео ускорителей. Этот тест, в силу того, насколько быстро он был составлен, является однопоточным. Мы запускаем процесс, и получаем время завершения как результат.
FCAT — это еще один однопоточный тест, поэтому мы видим те же различия в производительности: разогнанный 2600K не вполне может сравниться со стоковым 7700K, а 9700K вырывается вперед.
3D Particle Movement v2.1: Броуновское движение
Наш 3DPM-тест — это кастомный бенчмарк, разработанный для моделирования шести различных алгоритмов движения частиц в трехмерном пространстве. Алгоритмы были разработаны как часть моей кандидатской диссертации и, в конечном счете, лучше всего работают на графическом процессоре, и дают хорошее представление о том, как потоки команд интерпретируются различными микроархитектурами.
Ключевой частью алгоритмов является генерация случайных чисел — мы используем относительно быструю генерацию, которая завершает реализацию цепочек зависимостей в коде. Главное обновление по сравнению с примитивной первой версией этого кода — была решена проблема False Sharing в кэшах, что было основным узким местом. Мы также рассматриваем применение версий AVX2 и AVX512 этого теста для будущих обзоров.
Для этого теста мы запускаем стоковый набор частиц, используя шесть различных алгоритмов, в течение 20 секунд, с 10-секундными паузами, и сообщаем об общей скорости движения частиц в миллионах операций (движений) в секунду.
3DPM v2.1 можно загрузить с нашего сервера: 3DPMv2.1.rar (13,0 МБ)
Поскольку 2600K не имеет AVX2, он сильно отстает от 7700K / 9700K, когда программа оптимизирована для новых инструкций.
Dolphin 5.0: эмуляция консоли
Один из популярных запрошенных тестов в нашем пакете — это эмуляция консоли. Возможность выбрать игру из устаревшей системы и запустить ее очень привлекательна, и зависит от усилий эмулятора: требуется значительно более мощная система x86, чтобы иметь возможность точно эмулировать старую консоль, отличную от x86. Особенно если код для этой консоли была сделан с учетом некоторых физических недоработок и багов оборудования.
Для нашего теста мы используем популярное программное обеспечение для эмуляции Dolphin, и запускаем через него вычислительный проект, чтобы определить, насколько точно наши процессоры могут эмулировать консоль. В этом тесте работа под эмуляцией Nintendo Wii будет длиться около 1050 секунд.
Последнюю версию Dolphin можно скачать тут
Dolphin добился значительных результатов в эру Haswell / Broadwell, что привело к невероятному увеличению производительности от 2600K до 7700K. К сожалению, по разным причинам разогнанный процессор провалил этот тест.
DigiCortex 1.20: Моделирование мозга морского слизня
Этот бенчмарк был первоначально разработан для моделирования и визуализации активности нейронов и синапсов в мозге. Программное обеспечение поставляется с различными предустановленными режимами, и мы выбрали малый бенчмарк, который выполняет симуляцию мозга из 32 тысячи нейронов / 1,8 миллиардов синапсов, что эквивалентно мозгу морского слизня.
Мы сообщаем результаты теста как возможность эмулировать данные в режиме реального времени, поэтому любые результаты выше «единицы» подходят для работы в реальном времени. Из двух режимов, режим «без запуска синапсов», который является тяжелым для DRAM, и режим «с запуском синапсов», в котором нагружается процессор, мы выбираем последний. Несмотря на наш выбор, на тест по-прежнему влияет скорость DRAM.
DigiCortex можно загрузить тут
Для тестов, связанных с памятью, мы запускали системы на их поддерживаемых частотах, определенных Intel, за исключением «оверклоченой» системы, которая справедливо получила значительное ускорение с DDR3-1333 до DDR3-2400. Результаты показывают увеличение производительности, но даже дефолтный 7700K оказывается быстрее. А переход на 9700K показывает прирост производительности за счет дополнительных ядер.
y-Cruncher v0.7.6: Вычисления, оптимизированные для микроархитектуры
Я как-то слышал об y-Cruncher как об инструменте, помогающем вычислять различные математические константы. Но после того, как я начал говорить с его разработчиком, Alex Yee, исследователем из NWU и теперь разработчиком оптимизации программного обеспечения, я понял, что он оптимизировал программное обеспечение просто невероятным образом, чтобы получить лучшую производительность. Естественно, любая симуляция, которая занимает 20+ дней, получит выгоду от 1% прироста производительности! Алекс начал работу с y-Cruncher в качестве проекта в средней школе, и сейчас проект находится в актуальном состоянии. Алекс постоянно работает над ним, чтобы воспользоваться новейшими наборами инструкций, даже прежде чем они станут доступны на аппаратном уровне.
Для нашего теста мы запускаем y-Cruncher v0.7.6 через все возможные оптимизированные варианты двоичных, однопоточных и многопоточных вычислений, включая оптимизированные для AVX-512 бинарные файлы. Тест заключатся в том, чтобы вычислить 250 миллионов знаков числа Pi, и мы используем однопоточные и многопоточные версии этого теста.
Пользователи могут скачать y-cruncher с сайта Алекса
y-cruncher — это еще один бенчмарк, который использует для ускорения как можно больше функций AVX, демонстрируя, что современные потомки Sandy Bridge имеют дополнительные преимущества.
Agisoft Photoscan 1.3.3: преобразование 2D-изображения в 3D-модель
Один из ISV, с которым мы работаем в течение нескольких лет, — это Agisoft. Кампания разрабатывает программное обеспечение под названием PhotoScan, которое преобразует ряд 2D-изображений в 3D-модель. Это важный инструмент в разработке и архивировании моделей, и опирается на ряд однопоточных и многопоточных алгоритмов для перехода от одной стороны вычисления к другой.
В нашем тесте мы берем версию 1.3.3 программного обеспечения с набором данных большого размера — фотографии 84 x 18 мегапикселей. Мы прогоняем тест по довольно быстрому набору алгоритмов, но все же более строгому, чем наш тест 2017 года. В результате мы сообщаем об общем времени завершения процесса.
Веб-сайт Agisoft Photoscan можно найти здесь
Так как это тест с переменной многопоточностью, разгон 2600K дает значительный скачок производительности по сравнению с стоковой версией. Однако дефолтный 7700K делает ещё один скачок почти такого же размера. А 9700K, благодаря большому количеству ядер, просто смеется над остальными чипами в этом сравнении.
Rendering Tests
В профессиональной среде рендеринг часто является основной рабочей нагрузкой процессора. Он используется в разных форматах: от 3D-рендеринга до растеризации, в таких задачах как игры или трассировка лучей, и использует способность программного обеспечения управлять мешами, текстурами, коллизиями, алиасами и физикой (в анимации). Большинство рендереров предлагают код для ЦП, в то время как некоторые из них используют графические процессоры и выбирают окружение, использующее FPGA или специализированные ASIC. Однако для крупных студий процессоры по-прежнему являются главным аппаратным обеспечением.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Corona 1.3: Performance Render
Улучшенный рендерер, оптимизированный для производительности для программного обеспечения, такого как 3ds Max и Cinema 4D, тест Corona рендерит сгенерированную сцену стандарта версии 1.3. Обычно реализация GUI бенчмарка показывает процесс построения сцены, и позволяет пользователю видеть результат как «время для завершения».
Мы связались с разработчиком, который дал нам версию командной строки теста, которая обеспечивает прямой вывод результатов. Вместо того, чтобы сообщать время построения сцены, мы сообщаем среднее количество лучей в секунду в течение шести прогонов, так как соотношение выполненных действий к единицам времени визуально легче понять.
Мы видим заметную разницу в производительности между 7700K и 2600K, обусловленную обновлениями микроархитектуры и частотой, однако разгон 2600K только вдвое уменьшает этот разрыв.
Blender 2.79b: 3D Creation Suite
Высококлассный инструмент для рендеринга, Blender — продукт с открытым исходным кодом, имеющий множество настроек и конфигураций, используется многими высококлассными анимационными студиями по всему миру. Недавно организация выпустила тестовый пакет Blender, через пару недель после того, как мы решили уменьшить использование теста Blender в нашем новом пакете, однако новый тест может занять более часа. Для получения наших результатов мы запускаем один из подтестов в этом пакете через командную строку — стандартную сцену «bmw27» в режиме «только CPU», и измеряем время завершения рендеринга.
Blender можно скачать по адресу.
Ту же картину мы наблюдаем и с тестом Blender: разгон лишь вдвое сокращает разрыв производительности между 2600K и стоковым 7700K. Добавьте разгон к 7700K, и этот разрыв станет больше.
LuxMark v3.1: LuxRender через различные кодовые пути
Как указано выше, существует много разных способов обработки данных рендеринга: CPU, GPU, Accelerator и другие. Кроме того, существует множество фреймворков и API, в которых можно программировать, в зависимости от того, как будет использоваться программное обеспечение. LuxMark, бенчмарк, разработанный с использованием механизма LuxRender, предлагает несколько различных сцен и API.
В нашем тесте мы запускаем простую сцену «Ball» на коде C ++ и OpenCL, но в режиме CPU. Эта сцена начинается с грубого рендеринга и медленно улучшает качество в течение двух минут, давая окончательный результат в показателе, который можно обозвать «среднее количество тысяч лучей в секунду».
POV-Ray 3.7.1: трассировка лучей
Движок трассировки лучей Persistence of Vision — еще один известный инструмент бенчмаркинга, который какое-то время находился в спячке, пока AMD не выпустила свои процессоры Zen, когда внезапно оба Intel и AMD стали пушить код в основную ветку проекта с открытым исходным кодом. Для нашего теста мы используем встроенный тест для всех ядер, вызываемый из командной строки.
POV-Ray можно скачать тут
POV-Ray выделяется на фоне предыдущих тестов, и показывает, какую роль AVX2 играет в современных процессорах. POV-Ray также предпочитает ядра, а не потоки, поэтому наличие восьми реальных ядер даёт 9700K неплохое преимущество.
Office Tests
Набор тестов Office предназначен, чтобы сосредоточиться на более стандартных отраслевых тестах, которые фокусируются на офисных рабочих процессах. Это больше синтетические тесты, но мы также проверяем производительность компилятора в этом разделе. Для пользователей, которым важно оценивать оборудование в целом, обычно это самые важные критерии, которые стоит принимать во внимание.
Все наши результаты тестов также можно найти на нашей страничке Bench.
PCMark 10: Стандарт индустрии
Futuremark, теперь известный как UL, разрабатывал тесты, которые стали отраслевыми стандартами, в течение двух десятилетий. Последним набором системных тестов является PCMark 10, где по сравнению с PCMark 8 улучшены несколько тестов, и больше внимания уделено OpenCL, конкретно в таких случаях, как потоковая передача видео.
PCMark разбивает свои оценки на примерно 14 различных областей, включая запуск приложений, веб-страницы, электронные таблицы, редактирование фотографий, рендеринг, видеоконференции и физику. Мы публикуем все эти данные в нашей базе данных Bench, однако ключевым показателем для текущего обзора является общий балл.
Такой инструмент, как PCMark, на самом деле не показывает реальный масштаб различий, за исключением основных тестов, которые являются полностью многопоточными, и в которых 9700K получает преимущество. 7700K превосходит обычный 2600K лишь на 17%, и разрыв снижается до 5% по сравнению с разогнанной версией. Возможно, это еще и показатель того, как часто вы чувствуете разницу между новым 7700K и разогнанным 2600K: 5% времени. Конечно, это зависит от вашего баланса нагрузки.
Chromium Compile: Windows VC ++ Компиляция Chrome 56
Большое количество читателей AnandTech — это инженеры-программисты, которые смотрят, как работает аппаратное обеспечение. Хотя компиляция ядра Linux является «стандартным» для рецензентов, которые компилируют часто, наш тест немного более разнообразен — мы используем инструкции Windows для компиляции Chrome, в частности, сборки Chrome 56 марта 2017 года, так как это было тогда, когда мы создали тест. Google довольно подробно дает инструкции о том, как скомпилировать под Windows, после загрузки 400 000 файлов из репозитория.
В нашем тесте, следуя инструкциям Google, мы используем компилятор MSVC, и ninja для управления компиляцией. Как и следовало ожидать, это тест с переменной многопоточностью, и с переменными требованиями к DRAM, которые получают выгоду от более быстрых кешей. Результаты, полученные в нашем тесте, — это время, затраченное на компиляцию, которое мы конвертируем в количество компиляций в день.
Этот тест компиляции предпочитает ядра 9700K вместо SMT, и мы снова видим, что разогнанный 2600K находятся посредине между стоковыми 7700K и 2600K. Даже без разгона, 7700K оказывается сильнее.
3DMark Physics: вычисление физики в играх
Наряду с PCMark существует бенчмарк 3DMark, Futuremark (UL) – набор игровых тестов. Каждый игровой тест состоит из одной или двух сцен, тяжелых для графического процессора, а также физического теста, зависящего от того, когда был написан тест и на какую платформу он нацелен. Основными испытуемыми, в порядке приростания сложности, являются Ice Storm, Cloud Gate, Sky Diver, Fire Strike и Time Spy.
Некоторые из подтестов предлагают другие варианты, такие как Ice Storm Unlimited, который предназначен для мобильных платформ с внеэкранным рендерингом, или Fire Strike Ultra, который предназначен для высокопроизводительных систем 4K с большим количеством добавленных функций. Стоит заметить, что Time Spy в настоящее время имеет режим AVX-512 (который мы можем использовать в будущем).
Что касается наших тестов, мы отправляем в Bench результаты каждого физического теста, но для обзора мы придерживаемся результатов только самых требовательных сцен: Ice Storm Unlimited, Cloud Gate, Sky Diver, Fire Strike Ultra и Time Spy,
GeekBench4: Синтетический тест
Общий инструмент для межплатформенного тестирования на мобильных устройствах, ПК и Mac, GeekBench 4 — это идеальное синтетическое испытание системы по целому ряду алгоритмов, требующих максимальной пропускной способности. Тесты включают в себя шифрование, сжатие, быстрое преобразование Фурье, операции с памятью, физику n-тела, операции с матрицами, манипуляцию с гистограммой и парсинг HTML.
Я включаю этот тест по причине популярности запроса, хотя результаты его очень уж синтетические. Многие пользователи часто придают большое значение его результатам из-за того, что он скомпилирован на разных платформах (хотя и разными компиляторами).
Мы записываем оценки основных подтестов (Crypto, Integer, Floating Point, Memory) в нашу базу результатов тестирований, но для обзора публикуем только общие однопоточные и многопоточные результаты.
Encoding Tests
С ростом количества стримов, видеоблогов и видеоконтента в целом, тесты кодирования и транскодирования приобретают всё большее значение. Мало того, что становится всё больше домашних пользователей и геймеров, занятых преобразованием видеофайлов и видеопотоков, но и сервера, обрабатывающие потоки данных, нуждаются в шифровании на лету, а также компрессии и декомпрессии логов. Наши тесты кодирования нацелены на такие сценарии, и учитывают мнение комьюнити, чтобы обеспечить самые актуальные результаты.
Все наши результаты тестов также можно найти на нашей страничке Bench.
Handbrake 1.1.0: потоковое и архивное транскодирование видео
Популярный инструмент с открытым исходным кодом, Handbrake — программное обеспечение для преобразования видео любым возможным способом, которое, в некотором смысле, является эталоном. Опасность здесь кроется в номерах версии и в оптимизации. Например, последние версии программного обеспечения могут использовать преимущества AVX-512 и OpenCL для ускорения некоторых типов транскодирования и определенных алгоритмов. Версия, которую мы используем, представляет собой чистую работу с CPU, со стандартными вариантами транскодирования.
Мы разделили Handbrake на несколько тестов, используя запись с нативной веб-камеры Logitech C920 1080p60 (по существу, запись стрима). Запись будет преобразована в два типа потоковых форматов и в один для архивирования. Используемые параметры вывода:
- 720p60 at 6000 kbps constant bit rate, fast setting, high profile
- 1080p60 at 3500 kbps constant bit rate, faster setting, main profile
- 1080p60 HEVC at 3500 kbps variable bit rate, fast setting, main profile
7-zip v1805: популярный архиватор с открытым исходным кодом
Из всех наших тестов архивации / разархивации 7-zip является наиболее востребованным, и обладает встроенным бенчмарком. В наш тестовый набор мы внесли последнюю версию этого софта, и мы запускаем бенчмарк из командной строки. Результаты архивации и разархивации выводим как единый общий балл.
В этом тесте хорошо видно, что современные процессоры с несколькими матрицами имеют большое различие в производительности между сжатием и декомпрессией: хорошо проявляют себя в одном, и плохо в другом. Кроме того, у нас ведутся активные дискуссии о том, как Windows Scheduler реализует каждый поток. Когда мы получим больше результатов, с удовольствием поделимся своими соображениями на этот счет.
Пожалуйста, обратите внимание, если вы планируете где-либо публиковать данные сжатия, пожалуйста, включите и результаты разархивирования. В противном случае вы представите лишь половину результата.
WinRAR 5.60b3: Архиватор
Когда мне нужен инструмент для сжатия, обычно я выбираю WinRAR. Многие пользователи моего поколения использовали его более двух десятилетий назад. Интерфейс почти не изменился, хотя интеграция с командами right-click в Windows весьма приятный плюс. Он не имеет встроенного бенчмарка, поэтому мы запускаем сжатие каталога, содержащего более 30 60-секундных видеофайлов и 2000 небольших веб-файлов, с нормальной скоростью сжатия.
WinRAR имеет переменную многопоточность, и требователен к кэшированию, поэтому в нашем тесте мы запускаем его 10 раз, и вычисляем среднее значение за последние пять прогонов, что про проверять только производительность процессора.
WinRAR наконец-то позволяет разогнанному 2600K почти сравняться со стоковым 7700K. Это тест с переменной многопоточностью, и он, похоже, не использует ни одну из новых инструкций, предлагаемых 7700K. Тем не менее, большее количество ядер в 9700K в противовес потокам приносит большой бонус, как и модернизированный DRAM.
Шифрование AES: защита файлов
Ряд платформ, особенно мобильные устройства, по умолчанию шифруют файловые системы для защиты содержимого. У устройств на базе Windows шифрование часто применяется BitLocker или сторонним программным обеспечением. В тесте шифрования AES мы использовали discontinued TrueCrypt в бенчмарке, который проверяет несколько алгоритмов шифрования непосредственно в памяти.
Данные, полученные в результате этого теста, — комбинированная производительность AES для шифрования / дешифрования, измеренная в гигабайтах в секунду. Программное обеспечение использует команды AES если процессор это позволяет, но не использует AVX-512.
Веб-тесты и устаревшие тесты
Ввиду направленности на low-end системы, или small form factor системы, веб-тесты, как правило, трудно стандартизировать. Современные веб-браузеры часто обновляются, не давая возможности отключить эти обновления, поэтому трудно поддерживать какую-то общую платформу. Быстрый темп развития браузера означает, что версии (и показатели производительности) могут меняться с недели на неделю. Несмотря на это, веб-тесты часто являются важным показателем для пользователей: многие из современных офисных работ связаны с веб-приложениями, особенно с электронными и офисными приложениями, а также с интерфейсами и средами разработки. Наш набор веб-тестов включает несколько тестов, являющихся индустриальным стандартом, а также несколько популярных, но несколько устаревших тестов.
Мы также включили наши устаревшие, но всё ещё популярные тесты в этот раздел.
Все наши результаты тестов также можно найти на нашей страничке Bench.
WebXPRT 3: веб-задачи современного мира, включая ИИ
Компания, стоящая за тестовым пакетом XPRT, Principled Technologies, недавно выпустила новейший веб-тест, и вместо того, чтобы добавить год выпуска к названию, его просто назвали «3». Этот новейший (по крайней мере, сейчас) тест разработан на основании таких предшественников: тесты взаимодействия с пользователем, офисных вычислений, построения графиков, сортировки списков, HTML5, манипулирования изображениями, и в некоторых случаях даже тесты ИИ.
Для нашего бенчмарка мы запускаем стандартный тест, который отработает контрольный список семь раз и дает конечный результат. Мы проводим такой тест четыре раза, и выводим среднее значение.
Пользователи могут получить доступ к тесту WebXPRT по адресу
WebXPRT 2015: тестирование HTML5 и Javascript Web UX
Более старая версия WebXPRT — издание 2015 года, в котором внимание уделяется немного другому набору веб-технологий и фреймворков, которые, впрочем, используются сегодня. Это по-прежнему актуальный тест, особенно для пользователей, которые взаимодействуют с не самыми последними веб-приложениями на рынке, и таких пользователей много. Разработка веб-фреймворков движется очень быстро и обладает высокой текучестью. Фреймворки быстро разрабатываются, встраиваются в приложения, используются, и тут же разработчики переходят к следующему. А адаптация приложения под новый фреймворк — сложная задача, особенно с такой скоростью циклов развития. По этой причине множество приложений «застряли во времени», и остаются актуальными для пользователей в течение многих лет.
Как и в случае с WebXPRT3, основной бенчмарк отрабатывает контрольный набор семь раз, выводя окончательный результат. Мы повторяем это четыре раза, выводим среднее и показываем окончательные результаты.
Speedometer 2: Javascript Frameworks
Наш новейший веб-тест — Speedometer 2, который проходит по целому ряду фреймворков javascript, чтобы сделать всего три простых вещи: построить список, включить каждый элемент в списке, и удалить список. Все фреймворки реализуют одни и те же визуальные сигналы, но, что очевидно, делают это по-разному.
Наш тест проходит весь список фреймворков и дает окончательный балл под названием «rpm», один из внутренних показателей бенчмарка. Мы выводим этот показатель как окончательный результат.
Google Octane 2.0: Core Web Compute
Популярный веб-тест в течение нескольких лет, но теперь уже не обновляемый, — Octane от Google. Версия 2.0 выполняет пару десятков задач, связанных с вычислениями, таких как регулярные выражения, криптография, трассировка лучей, эмуляция и вычисление уравнений Навье — Стокса.
Тест дает каждому из подтестов оценку, и возвращает среднее геометрическое в качестве конечного результата. Мы проводим полный бенчмарк четыре раза и оцениваем окончательные результаты.
Mozilla Kraken 1.1: Core Web Compute
Еще более старый, чем Octane, перед нами Kraken, на этот раз разработанный Mozilla. Это старый тест, который выполняет относительно однообразную вычислительную механику, такую как обработка звука или фильтрация изображений. Похоже, что Kraken производит очень нестабильный результат, зависящий от версии браузера, поскольку этот тест сильно оптимизирован.
Основной бенчмарк проходит через каждый из подтестов десять раз, и возвращает среднее время завершения для каждого цикла в миллисекундах. Мы запускаем полный бенчмарк четыре раза, и замеряем средний результат.
3DPM v1: Naïve Code Вариант 3DPM v2.1.
Первый «наследованный» тест в пакете — первая версия нашего теста 3DPM. Это конечная нативная версия кода, как если бы она была написана ученым без знания того, как работает компьютерное оборудование, компиляторы или оптимизация (как это и было в самом начале). Тест представляет собой большой объем научного моделирования в дикой природе, где получение ответа более важно, чем скорость вычислений (получение результата за 4 дня приемлемо, если оно правильно; год учится программировать и получив результат через 5 минут – не приемлемо).
В этой версии единственная реальная оптимизация была в флагах компилятора (-O2, -fp: fast): компиляция в релиз режиме и включение OpenMP в основных циклах вычислений. Циклы не были подогнаны под размеры функций, а самым серьезным замедлением работы является false sharing в кеше. Код также имеет длинные цепи зависимостей, основанные на генерации случайных чисел, что приводит к снижению производительности на некоторых вычислительных микроархитектурах.
3DPM v1 как и 3DPM v2 можно загрузить здесь: 3DPMv2.1.rar (13,0 МБ)
x264 HD 3.0: устаревший тест транскодирования
Этот тест перекодирования очень стар, им пользовался Anandtech еще во времена процессоров Pentium 4 и Athlon II. В нем стандартизованное видео 720p перекодируется с двойным преобразованием, а бенчмарк показывает кадры в секунду каждого прохода. Тест является однопоточным, и в некоторых архитектурах мы упираемся в ограничение IPC — instructions-per-clock.
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?