Больше кофе, меньше кофеина: Intel 9th Gen (часть 2) / Хабр

Системные тесты

В разделе «Системные тесты» основное внимание уделяется тестированию в реальных условиях, с которыми сталкивается потребитель, с небольшим уклоном в пропускную способность. В этом разделе мы рассмотрим время загрузки приложения, обработку изображений, простую физику, эмуляцию, нейронное моделирование, оптимизированные вычисления и разработку трехмерных моделей, с использованием легкодоступного и настраиваемого программного обеспечения. Хотя некоторые из тестов попроще перекрываются возможностями больших пакетов, таких как PCMark, (мы публикуем эти значения в разделе офисных тестов), все же стоит рассмотреть различные перспективы. Во всех тестах мы подробно объясним, что тестируется и как именно мы тестируем.

Загрузка приложений: GIMP 2.10.4

Одним из наиболее важных аспектов пользовательского опыта и рабочего процесса является скорость реакции системы. Хорошим тестом здесь является проверка времени загрузки приложений. Большинство программ в наши дни, когда они хранятся на SSD, загружаются почти мгновенно, однако некоторые офисные инструменты требуют предварительной загрузки активов, прежде чем они будут готовы к работе. В большинстве операционных систем также используется кэширование поэтому, когда определенное программное обеспечение загружается часто (веб-браузер, офисные инструменты), его можно инициализировать гораздо быстрее.

В предыдущем пакете тестов мы проверяли, сколько времени потребуется для загрузки большого PDF-документа в Adobe Acrobat. К сожалению, этот тест был кошмаром в смысле программирования, и отказывался переходить на Win10 RS3 без боя. Тем временем мы обнаружили приложение, которое способно автоматизировать этот тест, было принято решение использовать GIMP — популярное и бесплатное приложение для редактирования фотографий. Это редактор с открытым исходным кодом, главная альтернатива Adobe Photoshop. Мы настроили его для загрузки большого дизайнерского шаблона размером 50 МБ, выполнили нагрузку 10 раз с интервалом 10 секунд между ними. Из-за кэширования первые 3-5 результатов часто медленнее, чем остальные, и время для кэширования может быть непоследовательным, поэтому мы принимаем среднее из последних пяти результатов, чтобы показать обработку ЦП при кэшированной загрузке.

Загрузка приложения, как правило, ограничена одним потоком, но очевидено, что в какой-то момент она ограничивается и ресурсами ядра. Имея доступ к большему количеству ресурсов на поток (в среде без HT), процессоры 8C / 8T и 6C / 6T опережают оба 5.0 ГГц процессора в нашем тестировании.

FCAT: обработка изображений

Программное обеспечение FCAT было разработано для обнаружения микро-залипаний, упавших кадров и запуска графических тестов, когда две видеокарты объединены вместе для рендеринга сцены. Из-за игровых движков и графических драйверов не все комбинации GPU работали идеально, в результате чего программное обеспечение фиксировало цвета для каждого визуализированного кадра и динамически производило RAW запись данных с помощью устройства захвата видео.

Программное обеспечение FCAT принимает записанное видео, в нашем случае это 90 секунд 1440p игры Rise of the Tomb Raider, и преобразовывает данные о цвете в данные времени кадра, поэтому система может отображать «наблюдаемую» частоту кадров и коррелировать с энергопотреблением видео ускорителей. Этот тест, в силу того, насколько быстро он был составлен, является однопоточным. Мы запускаем процесс, и получаем время завершения в результате.

FCAT — еще один сценарий, ограниченный однопоточной производительностью, и похоже, что новые процессоры 9-го поколения показывают себя здесь очень хорошо. 9700K и 9900K дали одно и то же время с разницей в миллисекунды.

3D Particle Movement v2.1: Броуновское движение

Наш 3DPM-тест — это кастомный бенчмарк, разработанный для моделирования шести различных алгоритмов движения частиц в трехмерном пространстве. Алгоритмы были разработаны как часть моей кандидатской диссертации и, в конечном счете, лучше всего работают на графическом процессоре, и дают хорошее представление о том, как потоки команд интерпретируются различными микроархитектурами.

Ключевой частью алгоритмов является генерация случайных чисел — мы используем относительно быструю генерацию, которая завершает реализацию цепочек зависимостей в коде. Главное обновление по сравнению с примитивной первой версией этого кода — была решена проблема False Sharing в кэшах, что было основным узким местом. Мы также рассматриваем ��рименение версий AVX2 и AVX512 этого теста для будущих обзоров.

Для этого теста мы запускаем стоковый набор частиц, используя шесть различных алгоритмов, в течение 20 секунд, с 10-секундными паузами, и сообщаем об общей скорости движения частиц в миллионах операций (движений) в секунду.

Базируясь на не-AVX коде, 9900K показывает немного лучшие IPC и частоты по сравнению с R7 2700X, хотя на самом деле это не такой большой процентный скачок, как мы могли бы ожидать. Процессоры без HT проигрывают в этом тесте.

Но когда мы используем AVX2 / AVX512, процессоры Skylake-X оказываются в своей стихии. 9900K теперь значительно превосходит R7 2700X, даже больше, чем мы ожидали, Core i7-9700K также вырывается вперед.

Dolphin 5.0: эмуляция консоли

Один из популярных запрошенных тестов в нашем пакете — это эмуляция консоли. Возможность выбрать игру из устаревшей системы и запустить ее очень привлекательна, и зависит от усилий эмулятора: требуется значительно более мощная система x86, чтобы иметь возможность точно эмулировать старую консоль, отличную от x86. Особенно если код для этой консоли был сделан с учетом некоторых физических недоработок и багов оборудования.

Для нашего теста мы используем популярное программное обеспечение для эмуляции Dolphin, запускаем через него вычислительный проект, чтобы определить, насколько точно наши процессоры могут эмулировать консоль. В этом тесте работа под эмуляцией Nintendo Wii будет длиться около 1050 секунд.

Dolphin — еще один сценарий, ограниченный производительностью одного потока, поэтому процессоры Intel исторически в лидерах. Здесь 9900K обходит 9700K всего на секунду.

DigiCortex 1.20: Моделирование мозга морского слизня

Этот бенчмарк был первоначально разработан для моделирования и визуализации активности нейронов и синапсов в мозге. Программное обеспечение поставляется с различными предустановленными режимами, мы выбрали малый бенчмарк, который выполняет симуляцию мозга из 32 тысячи нейронов / 1,8 миллиарда синапсов, что эквивалентно мозгу морского слизня.

Мы сообщаем результаты теста как возможность эмулировать данные в режиме реального времени, поэтому любые результаты выше «единицы» подходят для работы в реальном времени. Из двух режимов, режим «без запуска синапсов», который является тяжелым для DRAM, и режим «с запуском синапсов», в котором нагружается процессор, мы выбираем последний. Несмотря на наш выбор, на тест по-прежнему влияет скорость DRAM.

DigiCortex сильно зависит от производительности процессора и пропускной способности памяти, но похоже, что 6-ядерный Ryzen может легко соревноваться с 8-ядерным 9900K. 8700K / 8086K, похоже, лучше справляются с этим тестом.

y-Cruncher v0.7.6: Вычисления, оптимизированные для микроархитектуры

Я как-то слышал об y-Cruncher как об инструменте, помогающем вычислять различные математические константы. Но после того, как я начал говорить с его разработчиком, Alex Yee, исследователем из NWU и теперь разработчиком оптимизации программного обеспечения, я понял, что он оптимизировал программное обеспечение просто невероятным образом, чтобы получить лучшую производительность. Естественно, любая симуляция, которая занимает 20+ дней, получит выгоду от 1% прироста производительности! Алекс начал работу с y-Cruncher в качестве проекта в средней школе, но сейчас проект находится в актуальном состоянии, Алекс постоянно работает над ним, чтобы воспользоваться новейшими наборами инструкций, даже прежде чем они станут доступны на аппаратном уровне.

Для нашего теста мы запускаем y-Cruncher v0.7.6 через все возможные оптимизированные варианты двоичных, однопоточных и многопоточных вычислений, включая оптимизированные для AVX-512 бинарные файлы. Тест заключается в том, чтобы вычислить 250 миллионов знаков числа Pi, и мы используем однопоточные и многопоточные версии этого теста.

Так как y-cruncher получает преимущества AVX2 / AVX512, мы видим, что процессоры Skylake-X снова уходят в свой уютный мир. В многопоточном режиме для 9900K / 9700K требуется 8 ядер, чтобы обогнать 6-ядерный процессор, поддерживающий AVX512.

Agisoft Photoscan 1.3.3: преобразование 2D-изображения в 3D-модель

Один из ISV, с которым мы работаем в течение нескольких лет, — это Agisoft. Кампания разрабатывает программное обеспечение под названием PhotoScan, которое преобразует ряд 2D-изображений в 3D-модель. Это важный инструмент в разработке и архивировании моделей, и опирается на ряд однопоточных и многопоточных алгоритмов для перехода от одной стороны вычисления к другой.

В нашем тесте мы берем версию 1.3.3 программного обеспечения с набором данных большого размера — фотографии 84 x 18 мегапикселей. Мы прогоняем тест по довольно быстрому набору алгоритмов, но все же более строгому, чем наш тест 2017 года. В результате мы сообщаем об общем времени завершения процесса.

Photoscan — это задача, которая максимально пользуется высокой пропускной способностью, однопоточной производительностью, и в этом случае наличие HT является обузой.

Rendering Tests

В профессиональной среде рендеринг часто является основной задачей для рабочих нагрузок процессора. Он используется в разных форматах: от 3D-рендеринга до растеризации, в таких задачах как игры или трассировка лучей, и использует способность программного обеспечения управлять мешами, текстурами, коллизиями, алиасами и физикой (в анимации). Большинство рендереров предлагают код для ЦП, в то время как некоторые из них используют графические процессоры и выбирают окружение, использующее FPGA или специализированные ASIC. Однако для крупных студий процессоры по-прежнему являются главным аппаратным обеспечением.

Corona 1.3: Performance Render

Улучшенный рендерер, оптимизированный для производительности для программного обеспечения, такого как 3ds Max и Cinema 4D, тест Corona рендерит сгенерированную сцену стандарта версии 1.3. Обычно реализация GUI бенчмарка показывает процесс построения сцены, и позволяет пользователю видеть результат как «время для завершения».

Мы связались с разработчиком, который дал нам версию командной строки теста. Она обеспечивает прямой вывод результатов. Вместо того, чтобы сообщать время построения сцены, мы сообщаем среднее количество лучей в секунду в течение шести прогонов, так как соотношение выполненных действий к единицам времени визуально легче понять.

Corona — это полностью многопоточный тест, поэтому процессоры без HT немного отстают. Core i9-9900K взлетает наверх, обгоняя 8-ядерные компоненты AMD с 25-процентным запасом, и уступает лишь 12-ядерному Threadripper.

Blender 2.79b: 3D Creation Suite

Высококлассный инструмент для рендеринга, Blender — продукт с открытым исходным кодом, имеющий множество настроек и конфигураций, используется многими высококлассными анимационными студиями по всему миру. Недавно организация выпустила тестовый пакет Blender, через пару недель после того, как мы решили уменьшить использование теста Blender в нашем новом пакете, однако новый тест может занять более часа. Для получения наших результатов мы запускаем один из подтестов в этом пакете через командную строку — стандартную сцену «bmw27» в режиме «только CPU», и измеряем время завершения рендеринга.

Блендер имеет эклектичное сочетание требований, от пропускной способности памяти до сырой производительности, но, как в Corona, процессоры без HT немного отстают в нем. Высокая частота 9900K поднимает его выше 10C Skylake-X и AMD 2700X, но не выше 1920X.

LuxMark v3.1: LuxRender через различные кодовые пути

Как указано выше, существует много разных способов обработки данных рендеринга: CPU, GPU, Accelerator и другие. Кроме того, существует множество фреймворков и API, в которых можно программировать, в зависимости от того, как будет использоваться программное обеспечение. LuxMark, бенчмарк, разработанный с использованием механизма LuxRender, предлагает несколько различных сцен и API.

взято из Linux версии LuxMark

В нашем тесте мы запускаем простую сцену «Ball» на коде C ++ и OpenCL, но в режиме CPU. Эта сцена начинается с грубого рендеринга и медленно улучшает качество в течение двух минут, давая окончательный результат в том, что можно обозвать «средних килолучей в секунду».

POV-Ray 3.7.1: трассировка лучей

Движок трассировки лучей Persistence of Vision — еще один известный инструмент бенчмаркинга, который какое-то время находился в спячке, пока AMD не выпустила свои процессоры Zen, когда внезапно оба Intel и AMD стали пушить код в основную ветку проекта с открытым исходным кодом. Для нашего теста мы используем встроенный тест для всех ядер, вызываемый из командной строки.

Office Tests

Набор тестов Office предназначен, чтобы сосредоточиться на более стандартных отраслевых тестах, которые фокусируются на офисных рабочих процессах. Это ��ольше синтетические тесты, но мы также проверяем производительность компилятора в этом разделе. Для пользователей, которым важно оценивать оборудование в целом, обычно это самые важные критерии.

PCMark 10: Стандарт индустрии

Futuremark, теперь известный как UL, разрабатывал тесты, которые стали отраслевыми стандартами, в течение двух десятилетий. Последним набором системных тестов является PCMark 10, где по сравнению с PCMark 8 улучшены несколько тестов, и больше внимания уделено OpenCL, конкретно в таких случаях, как потоковая передача видео.

PCMark разбивает свои оценки на примерно 14 различных областей, включая запуск приложений, веб-страницы, электронные таблицы, редактирование фотографий, рендеринг, видеоконференции и физику. Мы публикуем все эти данные в нашей базе данных Bench, однако ключевым показателем для текущего обзора является общий балл.

Здесь, где намешано множество тестов, новые процессоры от Intel занимают три верхние позиции, по порядку. Даже i5-9600K идет впереди i7-8086K.

Chromium Compile: Windows VC ++ Компиляция Chrome 56

Большое количество читателей AnandTech — это инженеры-программисты, которые смотрят, как работает аппаратное обеспечение. Хотя компиляция ядра Linux является «стандартным» для рецензентов, которые компилируют часто, наш тест немного более разнообразен — мы используем инструкции Windows для компиляции Chrome, в частности, сборки Chrome 56 марта 2017 года, так как это было тогда, когда мы создали тест. Google довольно подробно дает инструкции о том, как скомпилировать под Windows, после загрузки 400 000 файлов из репозитория.

В нашем тесте, следуя инструкциям Google, мы используем компилятор MSVC, и ninja для управления компиляцией. Как и следовало ожидать, это тест с переменной многопоточностью, и с переменными требованиями к DRAM, которые получают выгоду от более быстрых кэшей. Результаты, полученные в нашем тесте, — это время, затраченное на компиляцию, которое мы конвертируем в количество компиляций в день.

Высокие показатели частоты полномасштабного турбо, похоже, хорошо проявили себя в нашем тесте компиляции.

3DMark Physics: вычисление физики в играх

Наряду с PCMark существует бенчмарк 3DMark, Futuremark (UL) – набор игровых тестов. Каждый игровой тест состоит из одной или двух сцен, тяжелых для графического процессора, а также физического теста, зависящего от того, когда был написан тест и на какую платформу он нацелен. Основными испытуемыми, в порядке увеличения сложности, являются Ice Storm, Cloud Gate, Sky Diver, Fire Strike и Time Spy.

Некоторые из подтестов предлагают другие варианты, такие как Ice Storm Unlimited (предназначен для мобильных платформ с внеэкранным рендерингом), или Fire Strike Ultra (предназначен для высокопроизводительных систем 4K с большим количеством добавленных функций). Стоит заметить, что Time Spy в настоящее время имеет режим AVX-512 (который мы можем использовать в будущем).

Что касается наших тестов, мы отправляем в Bench результаты каждого физического теста, но для обзора мы придерживаемся результатов самых требовательных сцен: Ice Storm Unlimited, Cloud Gate, Sky Diver, Fire Strike Ultra и Time Spy.

Более старый тест Ice Storm не очень понравился новому Core i9-9900K, оттеснив его за R7 1800X. Для более современных тестов, ориентированных на ПК, выигрывает 9900K. Отсутствие HT мешает двум другим процессорам линейки показать высокий результат.

GeekBench4: Синтетический тест

Общий инструмент для межплатформенного тестирования на мобильных устройствах, ПК и Mac, GeekBench 4 — это идеальное синтетическое испытание системы по целому ряду алгоритмов, требующих максимальной пропускной способности. Тесты включают в себя шифрование, сжатие, быстрое преобразование Фурье, операции с памятью, физику n-тела, операции с матрицами, манипуляцию с гистограммой и парсинг HTML.

Я включаю этот тест по причине популярности запроса, хотя результаты его очень уж синтетические. Многие пользователи часто придают большое значение его результатам из-за того, что он скомпилирован на разных платформах (хотя и разными компиляторами).
Мы записываем оценки основных подтестов (Crypto, Integer, Floating Point, Memory) в нашу базу результатов тестирований, но для обзора публикуем только общие однопоточные и многопоточные результаты.

Encoding Tests

С ростом количества стримов, видеоблогов и видеоконтента в целом, тесты кодирования и транскодирования приобретают всё большее значение. Мало того, что становится всё больше домашних пользователей и геймеров, занятых преобразованием видеофайлов и видеопотоков, но и сервера, обрабатывающие потоки данных, нуждаются в шифровании на лету, а также компрессии и декомпрессии логов. Наши тесты кодирования нацелены на такие сценарии, и учитывают мнение комьюнити, чтобы обеспечить самые актуальные результаты.

Handbrake 1.1.0: потоковое и архивное транскодирование видео

Популярный инструмент с открытым исходным кодом, Handbrake — программное обеспечение для преобразования видео любым возможным способом, которое, в некотором смысле, является эталоном. Опасность здесь кроется в номерах версии и в оптимизации. Например, последние версии программного обеспечения могут использовать преимущества AVX-512 и OpenCL для ускорения некоторых типов транскодирования и определенных алгоритмов. Версия, которую мы используем, представляет собой чистую работу с CPU, со стандартными вариантами транскодирования.

Мы разделили Handbrake на несколько тестов, используя запись с нативной веб-камеры Logitech C920 1080p60 (по существу, запись стрима). Запись будет преобразована в два типа потоковых форматов и в один для архивирования. Используемые параметры вывода:

720p60 at 6000 kbps constant bit rate, fast setting, high profile
1080p60 at 3500 kbps constant bit rate, faster setting, main profile
1080p60 HEVC at 3500 kbps variable bit rate, fast setting, main profile

7-zip v1805: популярный архиватор с открытым исходным кодом

Из всех наших тестов архивации / разархивации 7-zip является наиболее востребованным, и обладает встроенным бенчмарком. В наш тестовый набор мы внесли последнюю версию этого софта, и мы запускаем бенчмарк из командной строки. Результаты архивации и разархивации выводим как единый общий балл.

В этом тесте хорошо видно, что современные процессоры с несколькими матрицами имеют большое различие в производительности между сжатием и декомпрессией: хорошо проявляют себя в одном, и плохо в другом. Кроме того, у нас ведутся активные дискуссии о том, как Windows Scheduler реализует каждый поток. Когда мы получим больше результатов, с удовольствием поделимся своими соображениями на этот счет.

WinRAR 5.60b3: Архиватор

Когда мне нужен инструмент для сжатия, обычно я выбираю WinRAR. Многие пользователи моего поколения использовали его более двух десятилетий назад. Интерфейс почти не изменился, хотя интеграция с командами right-click в Windows весьма приятный плюс. Он не имеет встроенного бенчмарка, поэтому мы запускаем сжатие каталога, содержащего более 30 60-секундных видеофайлов и 2000 небольших веб-файлов, с нормальной скоростью сжатия.

WinRAR имеет переменную многопоточность, и требователен к кэшированию, поэтому в нашем тесте мы запускаем его 10 раз, и вычисляем среднее значение за последние пять прогонов, что про проверять только производительность процессора.

Шифрование AES: защита файлов

Ряд платформ, особенно мобильные устройства, по умолчанию шифруют файловые системы для защиты содержимого. У устройств на базе Windows шифрование часто применяется BitLocker или сторонним программным обеспечением. В тесте шифрования AES мы использовали discontinued TrueCrypt в бенчмарке, который проверяет несколько алгоритмов шифрования непосредственно в памяти.

Данные, полученные в результате этого теста, — комбинированная производительность AES для шифрования / дешифрования, измеренная в гигабайтах в секунду. Программное обеспечение использует команды AES если процессор это позволяет, но не использует AVX-512.

Веб-тесты и устаревшие тесты

Ввиду направленности на low-end системы, или small form factor системы, веб-тесты, как правило, трудно стандартизировать. Современные веб-браузеры часто обновляются, не давая возможности отключить эти обновления, поэтому трудно поддерживать какую-то общую платформу. Быстрый темп развития браузера означает, что версии (и показатели производительности) могут меняться с недели на неделю. Несмотря на это, веб-тесты часто являются важным показателем для пользователей: многие из современных офисных работ связаны с веб-приложениями, особенно с электронными и офисными приложениями, а также с интерфейсами и средами разработки. Наш набор веб-тестов включает несколько тестов, являющихся индустриальным стандартом, а также несколько популярных, но несколько устаревших тестов.

Мы также включили наши устаревшие, но всё ещё популярные тесты в этот раздел.

WebXPRT 3: веб-задачи современного мира, включая ИИ

Компания, стоящая за тестовым пакетом XPRT, Principled Technologies, недавно выпустила новейший веб-тест, и вместо того, чтобы добавить год выпуска к названию, его просто назвали «3». Этот новейший тест (по крайней мере, сейчас) разработан на основании таких предшественников: тесты взаимодействия с пользователем, офисных вычислений, построения графиков, сортировки списков, HTML5, манипулирования изображениями, и в некоторых случаях даже тесты ИИ.

Для нашего бенчмарка мы запускаем стандартный тест, который отработает контрольный список семь раз и дает конечный результат. Мы проводим такой тест четыре раза, и выводим среднее значение.

WebXPRT 2015: тестирование HTML5 и Javascript Web UX

Более старая версия WebXPRT — издание 2015 года, в котором внимание уделяется немного другому набору веб-технологий и фреймворков, используемых и сегодня. Это по-прежнему актуальный тест, особенно для пользователей, которые взаимодействуют с не самыми последними веб-приложениями на рынке, и таких пользователей много. Разработка веб-фреймворков движется очень быстро и обладает высокой текучестью. Фреймворки быстро разрабатываются, встраиваются в приложения, используются, и тут же разработчики переходят к следующему. А адаптация приложения под новый фреймворк — сложная задача, особенно с такой скоростью циклов развития. По этой причине множество приложений «застряли во времени», и остаются актуальными для пользователей в течение многих лет.

Как и в случае с WebXPRT3, основной бенчмарк отрабатывает контрольный набор семь раз, выводя окончательный результат. Мы повторяем это четыре раза, выводим среднее и показываем окончательные результаты.

Speedometer 2: Javascript Frameworks

Наш новейший веб-тест — Speedometer 2, который проходит по целому ряду фреймворков javascript, чтобы сделать всего три простых вещи: построить список, включить каждый элемент в списке, и удалить список. Все фреймворки реализуют одни и те же визуальные сигналы, но, что очевидно, делают это по-разному.

Наш тест проходит весь список фреймворков и дает окончательный балл под названием «rpm», один из внутренних показателей бенчмарка. Мы выводим этот показатель как окончательный результат.

Google Octane 2.0: Core Web Compute

Популярный веб-тест в течение нескольких лет, но теперь уже не обновляемый, — Octane от Google. Версия 2.0 выполняет пару десятков задач, связанных с вычислениями, таких как регулярные выражения, криптография, трассировка лучей, эмуляция и вычисление уравнений Навье — Стокса.

Тест дает каждому из подтестов оценку, и возвращает среднее геометрическое в качестве конечного результата. Мы проводим полный бенчмарк четыре раза и оцениваем окончательные результаты.

Mozilla Kraken 1.1: Core Web Compute

Еще более старый, чем Octane, перед нами Kraken, на этот раз разработанный Mozilla. Это старый тест, который выполняет относительно однообразную вычислительную механику, такую как обработка звука или фильтрация изображений. Похоже, что Kraken производит очень нестабильный результат, зависящий от версии браузера, поскольку этот тест сильно оптимизирован.

Основной бенчмарк проходит через каждый из подтестов десять раз, и возвращает среднее время завершения для каждого цикла в миллисекундах. Мы запускаем полный бенчмарк четыре раза, и замеряем средний результат.

3DPM v1: Вариант 3DPM v2.1 с нативным кодом

Первый «наследованный» тест в пакете — первая версия нашего теста 3DPM. Это конечная нативная версия кода, как если бы она была написана ученым без знания того, как работает компьютерное оборудование, компиляторы или оптимизация (как это и было в самом начале). Тест представляет собой большой объем научного моделирования в дикой природе, где получение ответа более важно, чем скорость вычислений (получение результата за 4 дня приемлемо, если оно правильно; год учится программировать и получив результат через 5 минут – не приемлемо).
В этой версии единственная реальная оптимизация была в флагах компилятора (-O2, -fp: fast): компиляция в релиз режиме и включение OpenMP в основных циклах вычислений. Циклы не были подогнаны под размеры функций, а самым серьезным замедлением работы является false sharing в кэше. Код также имеет длинные цепи зависимостей, основанные на генерации случайных чисел, что приводит к снижению производительности на некоторых вычислительных микроархитектурах.

x264 HD 3.0: устаревший тест транскодирования

Этот тест перекодирования очень стар, им пользовался Anandtech еще во времена процессоров Pentium 4 и Athlon II. В нем стандартизованное видео 720p перекодируется с двойным преобразованием, а бенчмарк показывает кадры в секунду каждого прохода. Тест является однопоточным, и в некоторых архитектурах мы упираемся в ограничение IPC — instructions-per-clock.

Спасибо, что остаетесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps до 1 января бесплатно при оплате на срок от полугода, заказать можно тут.

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Больше кофе, меньше кофеина: Intel 9th Gen (часть 2)