Комментарии 363
Для десктопов и ноутбуков — во строенную графику, которая сожрала большую часть прибавившихся за счет перехода на новые тех. процессы количества транзисторов.
В 6м поколении (skylake) даже в i7 графическая часть занимает уже больше площади кристалла и транзисторного бюджета, чем собственно сам процессор.
По графике прирост и правда очень солидный — от полной убогости в первых поколениях, до вполне приличного низкобюджетного решения.
Правда все-равно далеко до возможностей любых полноценных видеокарт. И даже все-еще отстают от встроенных графических модулей конкурента (гибридных APU от AMD)
В 6м поколении (skylake) даже в i7 графическая часть занимает уже больше площади кристалла и транзисторного бюджета, чем собственно сам процессор.
И лично мне это совсем не понятно. Абсолютное большинство людей вообще не пользуется встроенной графикой на i5/i7 какой бы хорошей она не была, лучше бы это место отдали под доп. ядра, а графику оставили в low-end и мобильных решениях. Надеюсь после пинка от амд до них эта мысль дойдет.
зачастую интегрированная графика используется в том случае, если компьютер собирается постепенно, когда денег нет на сборку всего и сразу, интеграшка дает возможность использовать компьютер хоть как-то, не дожидаясь покупки нормальной видеокарты
Для работы современных встроенных видеоблоков более чем хватает.
Последние лет 5 в офис новые машины исключительно со встройками покупаем — либо APU от AMD либо реже i3(пару штук), ну и директору один i7 купили, хотя по большому счету он там и не нужен.
Единственная претензия к Intel, в том, что они поленились отдельный вариант без встроек выпустить и те кого дохлые встройки не устраивают но нужен мощный процессор (чтобы дополнить его мощной же видеокартой) по сути вынуждены переплачивать за не нужную им почти половину процессора.
У AMD все стройно и логично. Устраивает слабая графика и нужно сэкономить купив бюджетное решение 2в1? Вот вам APU. Нужен мощный процессор и при этом не переплачивать за графический блок, которым все-равно не будете пользоваться т.к. к достаточно мощному ЦП в комплекте пологается и полноценная видеокарта?
Вот вам FX серия (а теперь Ryzen)
Чтобы смотреть в завтрашний день, надо хотя бы очутиться в сегодняшнем. Ryzen в кои-то веки даёт красным вернуть позиции хоть как-то. Первое поколение наконец поступает в продажу, а там и не за горами прямая дорога в будущее, всё в их руках.
Сейчас же AMD удалось догнать процессоры Intel по производительности. Производительность одного ядра Ryzen, конечно, не дотягивает до Skylake, но уже немного превышает Sandy Bridge. Очень надеюсь, что это приведёт к полноценной конкуренции и более быстрому росту производительности процессоров.
с чего вы взяли, что skylake быстрее ryzen?
Производительность одного ядра Ryzen, конечно, не дотягивает до Skylake, но уже немного превышает Sandy Bridge. Но AMD опять берёт верх числом ядер.
Я уже довольно много статей почитал, и доверия они у меня не вызвали — пока что всё вилами по воде писано, но в большинстве случаев i7 6900K оказывался быстрее. Нужно ждать официального релиза и честных тестов.
Тут надо прогонять тесты на высокочастном варианте R3 или R5 с 4/6 ядрами, чтобы корректно сравнивать с 4х ядерными Skylake без экстраполяций.
А пока видно, что при одинаковом кол-ве ядер и частоте скорость получается примерно на уровне 5-6 поколений iCore, а до Skylake если и не дотягивает, то совсем немножко.
Даже если эти 200/240 взять, то это ~20% разницы по скорости на 1 ядро при ~15% разницы по рабочей частоте.
Сейчас есть только два варианта существенного роста — «идеальный кеш» и «идеальные предсказания». А для этого нужен большой объем памяти рядом с ядром, загрузка алгоритмов в кеш-контроллер и BPU, реализация суперспекулятивности, когда иногда обе ветки выполняются одновременно, но на разных ядрах.
Но это потребует разработки ядра практически с нуля, а не умеренного тюнинга уже существующей архитектуры типа добавки кэша или подкручивания предсказателя переходов.
AMD на это решилась и практически в один прыжок ликвидировала отставание от лидера, который до этого 5 лет постепенно уходил в отрыв 6 раз подряд оптимизируя одну и ту же базовую архитектуру iCore вместо разработки новой.
Так же как когда-то сама Intel решилась
Забавно как компании в очередной раз поменялись ролями.
Лучше уж сделать как в Power8. Его ядро можно представить как два, которые на однопоточной нагрузке объединяются. Тем самым увеличивается количество доступных ФУ.
instructions) are processed through the Unified Issue Queue (UniQueue),
which consists of two symmetric halves (UQ0 and UQ1).
There are also two copies of the general-purpose (GPR0 and
GPR1) and vector-scalar (VSR0 and VSR1) physical register files. One copy is
used by instructions processed through UQ0 while the other copy is for
instructions processed through UQ1.
The fixed-point, floating-point, vector, load and load-store pipelines are
similarly split into two sets (FX0, FP0, VSX0, VMX0, L0, LS0 in one set, and
FX1, FP1, VSX1, VMX1, L1, LS1 in the other set) and each set is associated
with one UniQueue half.
In ST mode, the two physical copies of the GPR and VSR have identical
contents. Instructions from the thread can be dispatched to either one of the
UniQueue halves (UQ0 or UQ1). Load balance across the two UniQueue
halves is maintained by dispatching alternate instructions of a given type to
alternating UniQueue halves.
In the SMT modes (SMT2, SMT4, SMT8), the two copies of the GPR and VSR
have different contents. The threads are split into two thread sets and each
thread set is restricted to using only one UniQueue half and associated
registers and execution pipelines.
С декодером проблем нет.
Вот моделирование для 16-wide issue processor с идеальным кешем, идеальным предсказанием:
Его ядро можно представить как два, которые на однопоточной нагрузке объединяются.
Ну так вы только что описали HT.
При on/off HT количество доступных исполняющих устройств на поток не меняется.
Я же пишу про HT наоборот, когда поток может получить доступ к ресурсам второго ядра.
При on/off HT количество доступных исполняющих устройств на поток не меняется
Это почему же? При включённом HT два потока, выполняющиеся на одном ядре, вынуждены пользоваться общими ресурсами ядра. Поэтому при включении HT количество доступных ресурсов уменьшается пропорционально загрузке.
Так как HT не меняет их количество.
Еще раз. Я писал про производительность НА ПОТОК.
Человек предложил повысить количество ФУ. Но это мало что даст, т.к. очень мало задач требует большего числа ФУ, да и это редко является узкой частью из-за промахов кеша и ложных предсказаний. И раздувать ядро ради нескольких процентов в некоторых задачах как-то глупо.
Вот я и предложил сделать тесно связанные ядра, чтобы на ОДИН ПОТОК можно было использовать ресурсы второго ядра.
Это и есть «HT наоборот», когда два ядра обрабатывают один поток для увеличения ОДНОПОТОЧНОЙ производительности.
Когда как HT делит часть ресурсов одного ядра, чтобы загрузить их по максимуму для увеличения МНОГОПОТОЧНОЙ производительности.
Это и есть «HT наоборот», когда два ядра обрабатывают один поток для увеличения ОДНОПОТОЧНОЙ производительности.
Когда как HT делит часть ресурсов одного ядра, чтобы загрузить их по максимуму для увеличения МНОГОПОТОЧНОЙ производительности.
Принципиальной разницы между этими решениями нет. В обоих случаях имеем логические ядра с разделяемыми ресурсами.
И вот тут пара простых ядер намного дешевле, чем одно суперядро.
Да и для многих задач не нужны большие ядра.
Так что это только на бумаге 1+1 = 2 и 2/2 = 1
Из-за чего ФУ часто по долгу простаивали — в ожидании подгрузки данных из памяти (или в лучшем случае кэша) или завершения предыдущего вычисления из которого нужно использовать результат как входные данные следующего.
А если ядер больше двух? И еще всякая дерготня через apic бегает? Опрашивать планировщиком, а не схлопнулись ли у нас ядра? А то некоторые процедуры бывают весьма time-critical, их нельзя вешать на "временно отсутствующее" ядро, чьи ФУ отданы другому.
Значит, надо сразу делать матрицы регистров, ИУ, декодеров, предсказателей, ВВ, программно конструировать цепочки ИУ и работать на архитектуре с условным выполнением инструкций. Итого вырисовывается какой-то arm-asic grid, причем сильно смахивающий на видеокарту.
Зато можно будет для множества нетребовательных задач расхлопнуться до decoders/2 логических процессоров, а для жесткой векторной арифметики хоть почти все узлы отдать одному логическому процу, оставив минимум под систему. Заработало ядро — затребовало из пула ресурсы, закончило обработку — отдало все ресурсы обратно в общий пул. Осталось еще beamVM портануть прямо на железо, и вот он — мега-SoC будущего, который захватит мир.
Правда, до того миру надо будет сильно упереться в пределы горизонтального масштабирования, которые пока что все еще удается отодвигать. Ну и схожего эффекта можно достичь и другими, не столь экстравагантными, способами.
1й принципиальный скачок — переход к суперскалярной архитектуре в Pentium после 8086-486х. До этого в ядре было только по одному ФУ каждого типа и декодер способный выдавать по 1 инструкции/такт.
С Pentium декодер расширился до 2инструкций/такт и часть ФУ в удвоенном количестве.
2й скачок P6 с добавлением ФУ и расширением декодера до 3 инструкций/такт. Так же ввода SIMD (тоже больше ФУ в ядре)
Следующий скачок скорости — Core с еще большим количеством ФУ на ядро и декодером на 4 инструкции/такт. Который за счет этого превосходил как NetBurst так и конкутирующие K8 и K10 от AMD у которых декодер и ФУ были разработаны под 3 инструкции/такт.
У АМД ядра бульдозеров (FX серия) получились такими слабыми опять же из-за этого: часть ФУ разделена между 2мя ядрами, а производительность декодера только 2 инструкции/такт. В результате огромное отставание в однопоточной нагрузке от конкурента
AMD ZEN — отказ от узких 2/такт декодеров и разделяемых ФУ, полноценный декодер на 4 инструкции/такт как у iCore (+ до 2 иструкций из кэша уже декодированных). И сразу в один прыжок догнали Intel.
И идея НТ наоборот заключается в том, чтоб взять 4 ядра с их 4 инструкции за такт и доп ФУ и эмулировать одно ядро на 16 инструкций за такт и кучей ФУ?
Если да, то мне кажется что это не сработает, наверное мало где бывает так чтоб по 16 независимых команды шли постоянно. Наверняка есть определенный предел мощности декодера, после которого идут или промахи предсказания ветвлений или просто ожидание результатов постоянное.
Может по этому они и стали делать реальные ядра, да еще и отдавать ресурсы по НТ, что уперлись в этот предел. И дальше нужно уже просить разработчиков нормально параллелить код, а не пробовать делать это автоматом налету.
А что если пробовать это все делать на уровне компилятора, находить такие не связанные инструкции и помечать их особым образом как те, что можно выполнять одновременно. Тогда можно отказаться от сложных декодеров, системы предсказания ветвлений. Правда хз как при этом сохранять контекст каждого микро потока…
Ладно, тема сложная, пускай специалисты лучше думают :)
Поэтому когда попадаются инструкции зависящие по цепочке друг от друга, то все такие зависимые кроме первой «встают на паузу» и идут на исполнение по мере получения результата от предыдущей, а остальные ФУ в это время просто загружаются другими инструкциями — не зависящими друг от друга или для которых предыдущие от которых они зависели уже посчитаны.
Проблемы начинаются только когда таких взаимозависимых инструкций очень много — большая часть кода из таких состоит и из-за этого в пределах кэша инструкций уже не остается независимых, которые можно отправить на ФУ.
Смысл HT — прикинуться дополнительным ядром и взять 2й поток на тоже самое физическое ядро. Как раз чтобы загружать множественные ФУ внутри одного мощного ядра в моменты, когда они простаивают из-за того, что все ближайшие не связанные друг с другом инструкции уже обсчитаны и нужно ждать пока будут готовы данные предыдущих. Или в моменты когда дожидаемся подгрузки данных из памяти и ФУ простаивают по этой причине (например неправильное предсказание перехода — данные из памяти заранее не погрузились и инструкция будет десятки тактов ждать данных из основной памяти).
HT позволят подхватить инструкций из другого потока, которые почти гарантированно не будут зависеть от результатов инструкций в основном потоке. Т.к. либо относятся вообще к другом приложению, либо к другой задаче внутри одного приложения. Или же даже если это много потоков по обработке той же задачи в одном и том же приложении, но тогда программист должен был об распараллеливании сам подумать и как-то его реализовать.
Т.е. HT это источник независимых инструкций, позволяющий снизить простои ФУ.
В результате польза от него не очень большая и сильно варьирует от приложения от нескольких десятков % выигрыша и вплоть до отрицательных значений, когда итоговая скорость наоборот немного снижается. Если код и так хорошо на ФУ раскидывается и их загрузка близка к максимальной, то HT лишь увеличивает «накладные расходы» на работу с 2мя потоками вместо одного.
Идея свалить все на программистов — пусть у них голова об этом болит как расстреливать вычисления, совсем не новая. Примерно то что вы описали есть в архитектуре VLIW
Пробовали уже много раз, но как говорится «не взлетело».
Отказ от наращивания мощности ядра и вместо этого простое их тиражирование, которым занимались оба лидера последние годы — по сути другой подход к тому же. Пусть там программисты думают, как свое ПО на кучу независимых потоков разложить, а мы будем просто копировать одинаковые ядра вместо разработки новых более мощных/эффективных.
Но если используемый алгоритм и обрабатываемые данные позволяют их эффективно раскладывать на неограниченное количество независимых потоков, то с подобной работой намного лучше справятся вообще GPU, которые имеют просто гигантское преимущество на подобных задачах — скорость современных процессоров и близко не стояла.
А от CPU хочется все-таки как можно большей скорости выполнения последовательного кода.
Но вот например компиляция проекта или запуск хрома с парой сотен вкладок загружают все ядра по полной. Можно это считать эффективным использованием НТ? Или нужно только делать вкл\выкл и замерять время?
В свое время я запускал одинаковые виртуалки с одинаковой нагрузкой на разном железе. На старых двуядерных системах я мог запустить только две. На 6 ядерном феноме — 6 виртуалок. А на 3770 10 штук. Я всегда считал это доказательством эффективности НТ в бытовых задачах. Я не прав?
Это оптимизация по скорости на уровне ОС. 2 потока на 2х разных физических ядрах разумеется будут работать намного быстрее, чем эти же 2 потока попавшие в одно физическое ядро через HT.
Внутреннюю загрузку ФУ внутри ядра ОС не видит, в обоих случаях будет отображаться 100% загрузка, только реальная скорость во 2м случае (2 потока попали в одно физ. ядро) будет намного ниже.
С виртуалками обычно вообще объем памяти критическое ограничение. Больше ядер конечно не помешает, но в плане увеличения скорости их работы, а не самой возможности их использовать.
AMD ZEN — отказ от узких 2/такт декодеров и разделяемых ФУ, полноценный декодер на 4 инструкции/такт как у iCore (+ до 2 иструкций из кэша уже декодированных). И сразу в один прыжок догнали Intel.
Но, к сожалению, не перегнали. Скорее, только достигли уровня Sandy Bridge.
Например, FPU: у AMD был один FPU на 2 ядра, стало два 128-битных FPU на ядро. У Intel же уже с Haswell имеется по два 256-битных FPU на ядро. То есть могут оказаться задачи, в которых Zen в 8 потоков будет работать со скоростью 4-ядерника Intel.
Все как у самых современных Intel
Там только какие-то сложности с реализацией AVX инструкций, из-за чего по 2 AVX 256 битных за такт по какой-то причине не может выполнять.
Было 2 128 битных FMAC на модуль (при этом делимых между 2 ядрами) работающих с плавающей запятой, стало 2 256-битных FMAC в каждом ядре.
Все как у самых современных Intel
Данная диаграмма датируется весной 2015 года и не соответствует действительности. В обзорах последнего месяца указывается, что блоки AVX в Zen будут 128-битные. Возможно, в Zen+ они станут полноценным.
На новых схемах архитектуры Zen 4 блока по работе с плавающей точкой + 4 блока с целочисленными данными в каждом ядре.
Видимо какие-то ограничения в трансляции, когда 2 AVX-256 инструкции нельзя одновременно исполнить на этих 4 блоках за 1 такт.
А вот до 4х других инструкций для данных с плавающей точкой за такт — можно.
А целочисленных ФУ 4 штуки 128 битных на каждое ядро (против 2 на ядро в бульдозерах)
То есть могут оказаться задачи, в которых Zen в 8 потоков будет работать со скоростью 4-ядерника Intel.
1. Такой код нужно на ГПУ исполнять.
2. Иначе, скорей всего, производительность упрется в память, а еще и про другие инструкции не стоит забывать. Так что про разницу в 2 раза на реальных задачах для CPU я слабо верю.
- У кода на GPU есть недостаток: его ещё нужно написать. Не для каждой задачи это целесообразно делать.
- Да, текущие тесты показывают, что разницы нет. Может быть, в определённых синтетических сценариях она и будет — не знаю.
Я думаю, стоит дождаться выхода официальной документации на процессоры, а не гадать.
— до 8 обычных х87 инструкций с плавающей точной для 64 бит данных, в реальности до 6/такт, т.к больше через диспетчер не пролезет
— до 4 отдельных SIMD инструкций над 128 бит данными, но не более 2х одного типа
— 2 комбинированных инструкции умножения+сложения (fused multiply-add = FMA) над 128 бит данными
— до 2 простых AVX/AVX-2 инструкции над 256 бит данными если они разного типа
— 1 одну сложную (fused) AVX-256 инструкцию
В плане исполнительных блоков с плавающей точкой это уровень Ivy Bridge, 3го поколения iCore.
Начиная с Haswell по FPU части iCore помощнее. Но вот 2х кратного преимущества там не получается.
Вообще преимущество будет только на хорошо оптимизированном коде использующим сплошной поток из AVX-256 или FMA3 инструкций(что достижимо в основном в систетике, а не реальных приложениях).
При использовании обычного кода из х87 и SSE x инструкций пользы от большего кол-ва исполнительных блоков Haswell нет — через декодеры и диспетчер нужное количество инструкций просто не пролезет, чтобы их все загрузить работой.
На подобном хорошо оптимизированном коде из чистого AVX-256, которые полностью загружают 2 FMA256 блока ядра Haswell, тот начинает включать «анти буст/анти турбо» — не просто вырубает любой буст по частоте, но начинает сбрасывать частоты ниже базовой и троттлить из-за того что эти блоки в нем жрут слишком много энергии и слишком сильно греются. В некоторых материнских платах даже появилась настройка отдельного множителя — до какой частоты притормаживать если плотный AVX код идет.
Т.е. 2 сложных 256 бит инструкции за такт Haswell тоже выполнять не может как и Zen. Ну формально может, но только на частотах даже ниже базовой.
Преимущество на хорошо оптимизированном специализированном коде все-равно остается (т.к. 2 инструкции/такт на сниженной частоте все-равно лучше чем 1/такт на высокой частоте), но не 2х кратное.
Вообще преимущество будет только на хорошо оптимизированном коде использующим сплошной поток из AVX-256 или FMA3 инструкций(что достижимо в основном в систетике, а не реальных приложениях).
Обычная свёртка в обработке изображений или линейная алгебра — это и есть сплошной поток FMA. Другое дело, когда код написан без использования векторных операций, тогда преимущество Intel в виде большего количества вычислительных блоков действительно теряется.
На подобном хорошо оптимизированном коде из чистого AVX-256, которые полностью загружают 2 FMA256 блока ядра Haswell, тот начинает включать «анти буст/анти турбо» — не просто вырубает любой буст по частоте, но начинает сбрасывать частоты ниже базовой и троттлить из-за того что эти блоки в нем жрут слишком много энергии и слишком сильно греются.
Неужели всё настолько ужасно? Мой Sandy Bridge (32 нм, 4 ядра, по одному AVX256 блоку на сложение и умножение) с довольно сильным разгоном не уходит в тротлинг под максимальной вычислительной нагрузкой. Неужели снижение техпроцесса с 32 нм до 14 нм так и не привело к значительному снижению тепловыделения?
А вот в Haswell и Broadwell где удвоенное количество FPU блоков впервые появилось было довольно плохо. Особенно в Haswell который молча начинал по частотам скакать, хотя вроде еще предельная температура (100 гр) не достигнута и вроде бы охлаждение справляется.
В Broadwell это более явно сделали и дали возможность регулировать — задавать отдельно частоты для работы под AVX и во всех других режимах. Но все-равно вполне обычное дело скачок в +15-20 градусов при задействовании AVX по сравнению с полной нагрузкой всех ядер обычным кодом на той же частоте. Настройку ввели, чтобы можно было выставить гибридный режим — скажем с AVX работаем на 3.5 ГГц, а все остальное время на 4+ ГГц.
Если правильно понимаю там главная проблема не столько общая потребляемая мощность и выделение тепла, как то что они приходятся на очень маленький/компактный вычислительный FPU блок. Тепло не успевает распределятся по кристаллу(теплопроводность же не бесконечная), схемы мониторинга и управления сбрасывают частоты, чтобы не допустить локального перегрева.
И в этом плане новые тех.процессы без изменения архитектуры (если просто отмасштабировать ту же схему на новые производственный нормы) могут даже несколько хуже сделать, т.к. потребление энергии на работу одиночного транзистора снижается меньше чем уменьшается занимаемая им площадь. В результате удельные потребление энергии/нагрев (на 1 мкм2 площади активного выч. блока) наоборот немного увеличиваются.
Только сильно увеличили многопоточную.
Сейчас 24 по 2.4, это рост в 2.3 раза.
В начале 2011 было 6 по 3.47 ггц Тогда выходит что за 7 лет прирост 2.77 раза.
Конечно такие подсчеты не учитывают разных архитектурных улучшений, тем не менее «грубая производительность» выросла за 7 лет не так уж и сильно.
На десктопе за это время перешли от 4 по 3.33 к 10 по 3. Это прирост 2.25 раза.
Т.е. примерно одинаково с серверным сегментом.
И это логично, т.к. единственный сдерживающий фактор это охлаждение. 3770 на частоте 4 ггц уже очень сложно охлаждается мега двойным башенным куллером, а у него всего 95вт. Чем охлаждать 140-160 вт в режиме турбо я даже не знаю.
А ничего, что амдшный проц 95 Вт и при этом обходит интеловский на 140 Вт?
> эмулятор андроида работает только на интеле, ибо амэдэ эту виртализацию аппаратно не поддеживает
Ложь и провокация, виртуализация поддерживается и прекрасно работает, самолично пользовался андроидом с виртуализацией на процессоре FX.
Сейчас у меня 3770К, 4 ядра на 4.1 ГГЦ и без ECC, аргументов купить комп на новой линейке интела нет ни каких.
Еще больше ядер — не нужно (пока), поддержку не существующих списков команд добавить нельзя, запас может быть только по частоте, а он зависит от тех процесса. Пока у них видимо нет сл тех процесса, а ждать его появления уже опасно.
Сейчас у меня 3770К, 4 ядра на 4.1 ГГЦ и без ECC, аргументов купить комп на новой линейке интела нет ни каких.
У меня 2600K @ 4.5 GHz, причём с отключенным HT (4 ядра/4 потока) — в моих задачах включение HT не только не приводит к росту, но даже снижает производительность.
Конечно, мне очень хочется 6900K — он бы дал прирост около ~3 раз для моих задач, но я, скорее всего, сделаю апгрейд на AMD в итоге.
Поэтому ожидаю двукратный пророст от роста числа ядер + 20-25% прирост производительности на ядро, итого около 2.5 раз.Также появится возможность использования AVX2.
Ещё есть надежда, что SMT (аналог Hyper-Threading от AMD) даст небольшой прирост в производительности. Хотя здесь я настроен скептически: у Ryzen нет лишних блоков обработки FP, поэтому что в 8 потоков, что в 16 скорость вычислений будет, скорее всего, одинакова.
у меня в памяти лежит кусок данных относительно подряд
При многоканальном доступе данные размазаны по модулям (interleaving), так что при последовательном доступе будут задействованы все модули, и многоканальный доступ будет эффективен.
Да, ~10 Gb/s — это соответствует одноканальному режиму работы.
Окончательно в этом можно убедиться, посмотрев на данные, выдаваемые CPU-Z.
Еще года 3-4 назад знакомые 4х сосетную машину на б.у. серверных камнях от AMD собирали с 48 рабочими ядрами в итоге.
По частоте скорее всего это будет шаг назад (для 6900K 4.5 ГГц это почти нереально достичь без экстрима). Ну а обновленная архитектура даст только 10-30% прибавки в зависимости от задачи.
Все эти новости о поддержке ECC начались с того, что в спецификациях материнской платы нашли "совместимость" с модулем памяти ECC, про реальную реализацию ECC в процессоре данных нет. В обсуждении https://community.amd.com/thread/210870 заметили спецификации сходных плат, в которых честно указано, что модуль с 9 чипами памяти поставить можно (ECC и неECC DIMMы pin-совместимы), память заработает, но суммы ECC никто ни считать, ни исправлять не будет — http://www.gigabyte.us/Motherboard/GA-AX370-GAMING-5-rev-10#sp (AMD X370)
"Support for ECC Un-buffered DIMM 1Rx8/2Rx8 memory modules (operate in non-ECC mode)"
Работающий ECC увеличивает задержки примерно на такт (для каждого запроса требуется подсчитать код и, в случае чтения, может потребоваться инверсия одного из битов при получении признака ошибки), хотя и слабо влияет на реальную производительность.
Ранее корпорация AMD включала обычный SECDED ECC в некоторые десктопные продукты, но оставляла для серверных платформ более продвинутые варианты кодов, например:
Athlon 64, 2004 "2.4.2 Memory Controller… ECC checking with single-bit correction and double-bit detection • Chip Kill ECC allows single symbol correction and double symbol detection (Server/Workstation products only)";
16h G-Series SOC 2012, FT3 "Integrated Memory Controller… FT3 package… Supports ECC";
16h AMD Sempron, 2014 "FS1b package… Supports ECC"
16h A-Series Mobile "FT3 package… Supports ECC"
10h AMD Phenom II, 2010 "Integrated Memory Controller .."
В то же время ECC не включался в ряд встраиваемых APU, например 15h… Embedded R-Series, 2012 "Integrated Memory Controller", 15h A-Series APU 2012 "Integrated Memory Controller" — без ECC.
Точная информация будет через несколько недель с публикацией спецификаций на процессоры и чипсеты (поиск site:support.amd.com "family 17h"). Сейчас есть только предположения, хотя определенный код для F17 уже добавлен в ядро Linux: http://lxr.free-electrons.com/source/drivers/edac/amd64_edac.c?v=4.10#L2192, есть некоторая информация в истории этого файла: https://github.com/torvalds/linux/commits/master/drivers/edac/amd64_edac.c, например отказ включать ECC если он выключен (или не поддерживается) в BIOS "Forcing ECC on is not recommended on newer systems. Please enable ECC in BIOS".
Одно из изданий (STH) спросило на AMD Tech Day in San Francisco представителей AMD, ожидается ли анонс односокетных Zen/Ryzen с поддержкой ECC и получило ответ, что AMD не анонсирует таких продуктов при запуске Ryzen.
https://www.reddit.com/r/Amd/comments/5vpp40/no_ecc_support_in_any_of_the_currently_announced/ — https://www.servethehome.com/amd-ryzen-7-parts-available-for-pre-order-now/ "AMD RYZEN 7 PARTS AVAILABLE FOR PRE-ORDER NOW!" — PATRICK KENNEDY FEBRUARY 22, 2017
We did ask about a potential single socket Ryzen/ Zen part with ECC memory support and were told that AMD was not announcing such a product at this time alongside the Ryzen/ Zen launch.
http://www.anandtech.com/print/11170/the-amd-zen-and-ryzen-7-review-a-deep-dive-on-1800x-1700x-and-1700 The AMD Zen and Ryzen 7 Review: A Deep Dive on 1800X, 1700X and 1700 — March 2, 2017 9:00 AM EST
At this time AMD is not announcing any Pro parts, although it was confirmed to be that there are plans to continue the Pro line of CPUs with Ryzen to be launched at a later time.… A side note on ECC: given the design of Naples and the fact that it should be supporting ECC, this means that the base memory controller in the silicon should be able to support ECC. We know that it is disabled for the consumer parts, but nothing has been said regarding the Pro parts.… For our testing… 1800X, 1700X and 1700… At present, ECC is not supported.
В мегатреде AMA (3 марта 2017)
https://www.reddit.com/r/Amd/comments/5x4hxu/we_are_amd_creators_of_athlon_radeon_and_other/
ответили на вопрос о ECC в Ryzen (поддержка есть, включается в BIOS если было реализовано поставщиком материнской платы, работоспособность ECC не гарантируется — не валидировалась в продуктах для "геймеров"):
https://www.reddit.com/r/Amd/comments/5x4hxu/we_are_amd_creators_of_athlon_radeon_and_other/def5ayl/
whatever0601: Could you speak to ECC being disabled in these CPUs?
AMD_Robert Technical Marketing[S]: ECC is not disabled. It works, but not validated for our consumer client platform.
nagvx: What does "validated" mean in this context? What sort of stumbling-block does that represent to those who want ECC? Will it still be possible to build ECC-enabled servers with consumer-grade (and consumer-price-range) hardware on the Ryzen platform? There are a significant portion of users who want ECC for their NAS/Homelab setups.
AMD_james Product Manager: Validated means run it through server/workstation grade testing. For the first Ryzen processors, focused on the prosumer / gaming market, this feature is enabled and working but not validated by AMD. You should not have issues creating a whitebox homelab or NAS with ECC memory enabled.
ShermanLiu: So the Ryzen has full ECC support, if I install a ECC memory, it would work in ECC mode, not non-ECC mode?
AMD_james Product Manager: yes, if you enable ECC support in the BIOS so check with the MB feature list before you buy.
tolga9009: Thank you for the answer! So, the AM4 platform / socket theoretically has everything to fully support ECC and it's only up to mainboard manufacturers. Is that correct?
AMD_Robert Technical Marketing[S]: Bingo.…
AMD_james Product Manager: RDIMM will likely not be supported. UDIMM ECC will work.…
TheRealHellBENder: I asked Asrock per mail and they answered that their B350 boards would operate in non-ECC mode
AMD_james Product Manager: Thanks for letting me know. I'll check with the MB makers and see if we can get consistent.
ParticleCannon: Speaking of prosumer features, is AMD-VI/IOMMU in?
AMD_james Product Manager: yes
tolga9009: I've seen IOMMU entries in ASRock and ASUS BIOSes. It's disabled by default, but you can enable it. So, it's in there. But I haven't seen any hands-on tests so far.
https://www.reddit.com/r/Amd/comments/5x4hxu/we_are_amd_creators_of_athlon_radeon_and_other/def58sv/
Minkipunk: Hello AMD! This question is a very short one. Do Ryzen CPUs support ECC Memory, yes or no? ;)
AMD_LisaSu CEO of AMD: Yes they do!
drchoi212x: do they support ECC-REG memory as well?
AMD_james Product Manager: ECC-REG — No, registered or buffered memory is not supported.
Этот патч также несколько интересен своей историей. Принят патч с сообщением: http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/commit/?id=044e7a414be9ba20826e5fd482214686193fe7b6
EDAC, amd64: Don't force-enable ECC checking on newer systems
It's not recommended for the OS to try and force-enable ECC checking.
This is considered a firmware task since it includes memory training,
etc, so don't change ECC settings on Fam17h or newer systems and inform
the user.
- amd64_warn("Forcing ECC on!\n"); + if (boot_cpu_data.x86 >= 0x17) { + amd64_warn("Forcing ECC on is not recommended on newer systems. Please enable ECC in BIOS."); + goto err_enable; + } else + amd64_warn("Forcing ECC on!\n");
В предыдущей версии патча https://www.spinics.net/lists/linux-edac/msg06912.html "[PATCH 07/17] EDAC/amd64: Don't try to force ECC settings on newer systems" просто не включали ECC даже по ecc_enable_override=1 и не выдавали каких-либо сообщений:
+ /* Don't try to enable DRAM ECC from Linux on newer systems. */
+ if (boot_cpu_data.x86 >= 0x17)
+ return;
На что было указано: https://www.spinics.net/lists/linux-edac/msg06931.html "Add… along with a pr_info()
explaining to the user why we're not going to force-enable ECC."
Вся серия патчей AMD Fam17h EDAC — https://www.spinics.net/lists/linux-edac/msg06905.html
Поиск патчей в ядре по строке "17h" http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/log/?qt=grep&q=17h (в частности, год назад там заметили раннее кодовое обозначение "AMD Zeppelin (Family 17h, Model 00h)")
В реальной задаче по кодированию видео в тесте Handbrake процессор Ryzen 7 1700 справился с задачей за 61,8 с, а Core i7 7700K — за 71,8 с. И это несмотря на то, что скорость кодирования видео с аппаратной поддержкой всегда считалась сильной стороной процессоров Intel.
С вероятностью 95% кодирование осуществлялось программно, а не аппаратно.
Но многим ли это нужно?
А вот что действительно плохо, так это 2-канальная память даже у 8-ядерника. У меня на Sandy Bridge часто бывает, что уже пары потоков достаточно, чтобы упереться в скорость памяти. Пример задачи: посчитать норму длинного вектора: 1 чтение, 1 умножение, 1 сложение на 8 элементов (32 байта). При скорости памяти 20 гбайт/сек получается всего 625 миллионов итераций в секунду на весь процессор, а между SSE и AVX-версиями алгоритма разницы нет никакой.
Приходится оптимизировать алгоритмы, добиваясь группировки данных в кэше и даже увеличивая вычисления за счёт уменьшения количества доступа к памяти. Так что я не удивлён тем, что инструкции AVX у AMD менее производительны, чем у Skylake: при двухканальной памяти при большом количестве ядер высокая производительность AVX просто не нужна. А AVX512 и подавно не нужен.
А если AMD придумает (как и было ранее) свой набор команд, то он будет нечестным по отношению к Intel?
Дело не в удачности реализации архитектур, а в программистах, которые отдают предпочтение тем или иным архитектурам. А отдают они предпочтение тому, что приности им деньги, а не тому, что было бы действительно лучше для совершенствования технологий.
еще к свежим утечкам: "Ryzen 7 1800X, разогнанный до 5.2 Ghz, установил рекорд Cinebench R15 — 2449."
Вот 6, похоже, ника не получить…
Ну это смотря как округлять… опытный маркетолог и так может ;)
5.1449.ceil
res0: Double = 6.0
На русских оверклоках его ласково именуют «Рыжень» или «Рязань» :D
Я не очень люблю AMD еще с тех времен, когда были вечные проблемы с дровами и т.д., однако десктоп на AMDx2 у меня был — ничего плохого сказать не могу.
Однозначно было-бы отлично, если бы на рынок вернулась конкуренция, ибо Intel последнее время совсем обнаглел :)
Единственное, чего я опасаюсь — как бы не было того, что господа из AMD сравнивали мощность процов с текущей линейкой Intel, а ведь следующая уже вот-вот на подходе. И она может переплюнуть Рязань запросто — запас очень небольшой.
Но на самом деле тесты — это синтетика, она с реальностью далеко не всегда пересекается, поглядим, что геймеры напишут, а дальше уже будет понятно, что брать.
Если же говорить о реальном прогрессе — 6-ядерники в массовом сегменте — то это не раньше 18 года. И все равно у AMD уже 8-ядерники там же.
Меня не покидает стойкое ощущение какого-то подвоха. Ведь если все так прекрасно, как описывают сами АМД, то зачем продлевать обзорщикам NDA до второго марта (старт продаж)?
Т.е. у компании АМД задача создать побольше шума, а не продать побольше процессоров? Интересно.
Так они им и процессоры для тестов раздали наверняка, но только NDA зачем-то продлили на два дня. Если с процессорами все так хорошо, то зачем скрывать это? Наоборот же надо рассказать и показать как все круто. Или не все так круто, и подвох где-то все же есть?
Будет оно так или нет, поживем увидем.
Хотелось бы еще чтобы nvidia-у так же стали подпирать.
Конкуренция пойдет только на пользу покупателям.
А цпушникам надо придумывать способы увеличения производительности при том же числе ядер.
А по поводу реакции Intel: по-моему то, что они добавили Hyper-Threading в пентиумы на каби лэйк уже кое о чём говорит.
История получается прям как с extreme серией.
Когда +20% производительности дает +80% к цене. В такой ситуации они просто стригут деньги с людей для кого фактор денег отсутствует. Потом через пол года выпускают промежуточный вариант аля 980Ti, который убивает напрочь весь смысл в покупке Titan-а.
Возможно, впервые за много лет я куплю их процессор. Тем более, я люблю холодные процессоры, а у них даже на лютом топе TDP 65 Вт, что же будет в среднем сегменте?
У Ryzen 7 1800X TDP = 95Вт, но это тоже неплохо)
Мягкий знак и латинская i. Возможно, у человека просто нет "ы" в раскладке.
Тогда стоит посоветовать Googlist'у завести себе букву «ы» тем или иным образом, а то так много мониторов могут несколько преждевременно исчерпать ресурс.
(кстати, не пытайтесь копировать, а потом вставлять эту строчку)
Типа программа такая-то (с) Вася Пупкин.
Не влезать объет!
От загрузки в нормальный внешний редактор это не спасет, но от просмотра штатными встроенными в ПЗУ средствами спрятать можно было.
Для отображения текста программы на экране выполнялась команда LIST, которая распарсивала байткод.Также распарсивание происходило при вызове строки программы в область редактирования.
Защита заключалась в обфускации байткода так, чтобы при отображении и редактировании стандартными средствами происходило искажение исходного кода, вплоть до его полной нечитаемости или невозможности отредактировать.Обычно такой текст выглядел как бессмысленный набор команд. Иногда основная часть текста не отображалась вообще, потому что затиралась вызовом удаления, при этом выдавался текст из комментариев или набор печатных псевдографических символов.
Способов манипуляций с байт-кодом Бейсика было множество, вот тут есть очень краткое описание нескольких:
https://geektimes.ru/post/103127/
Если интересно, можно почитать вот эти книги:
ZX-Spectrum изнутри. Защита и взлом программ
Как работать с защищёнными программами (тайники спектрума)
Тайники ZX Spectrum и вечная жизнь в 600 играх
Тайники ZX Spectrum и как установить вечную жизнь
Идем и смотрим что за эти деньги предлагает AMD уже сейчас: A8-7600 (4c/4t + video), FX-6100 (6c/6t без видео), FX-4350 (4c/4t без видео). Конечно в данном случае ядро AMD < ядро Intel т.к. речь идет об архитектуре Steamroller, но говорить что «нижний сегмент полностью за Intel» я бы не стал даже сейчас. А в перспективе выйдут APU на основе ZEN (я так подозреваю в конфигурациях 4/8, 4/4 и, возможно, 2/4), что позволит ответить Intel и в этом сегменте.
если АМД быстро не выкатит что-то сравнимое
АМД пока еще не показали ryzen 5 и ryzen 3, так что все еще впереди.
сейчас не проблема получить изображение кристалла, если бы все i3 были урезанными i7 — это было бы давно уже обнаружено.
Максимально, насколько я понимаю, будет 4 модуля в кристалле. Серверные процессоры (Naples) по имеющейся на данный момент информации будут представлять из себя 2 шестнадцатиядерных кристалла.
Если процессор действительно хорош — то как он получился?
На R&D нужны средства и хорошие сотрудники. А из АМД все разбегались и они набирали кого попало (информация от наших изнутри, но уже устаревшая). Видимо что-то поменялось, интересно что?
По наблюдениям стагнация уже давно. К тому же десктопы нужны мало кому, домой народ берет ноуты экономя место, на работу — моноблоки.
Единственно мы покупаем десктопы — но мы лаборатория и нам надо считать круглосуточно. Дома у меня ноут подключенный к большому монитору+клава+мышка. На i5 вполне можно что-то считать, но предпочитаю по тимвьюверу зайти на рабочий комп. Т.е. идея тонких клиентов проникла сама собой.
В общем искренне желаю успеха красным.
К тому же десктопы нужны мало кому,
единственная возможность купить цена/производительность/минимизация стоимости ремонта — это десктоп.
Моноблоки и ноуты это дикие цены по сравнению с железом десктопа.
Надеюсь, AMD и для ноутов выпустит что-то реально конкурирующее с Intel. А то такое ощущение, что они серьезных процессоров для ноутбуков не делали никогда. А еще очень печальные воспоминания о видеокарте Radeon в прошлом ноутбуке (грелась адски, ноутбук на колени не положить было).
Ноуту уже лет 8, семёрка, на случай необходимости винды, спокойно себе на этом ноуте работает.
Но да, греется, писец как.
Серия и задумывалась под невысокое потребление и ТДП, и миниатюризацию, ноуты, моноблоки, микропк, SoC итд
На ноуте с предпоследним топом А10 — споконо шпилил себе в Баттылфылд 3\4 в т.ч. в мультиплеер, не имея внешней видяхи.
Для «дома\работы» хватит уж тем более.
Когда покупал свой нынешний ноут пару лет назад, ноуты на AMD сливали по всем параметрам. У всех ноутов на процессорах AMD были никакие экраны (с разрешением типа 1366x768) и никакое время автономной работы. И вообще, было похоже, что это ноуты сляпанные кое-как, для самых непридирчивых покупателей, типа «ребенку для учебы». Сбалансированной конфигурации с хорошим экраном, временем работы, расширяемостью (чтобы установить более 4 Гб RAM) просто не было.
Я часто решаю проблему розеток в аэропортах тройником и выдергиванием вендинговых автоматов из розетки.
По поводу расширяемости — я лично пердпочитаю ПроБук серию НР, ДЕЛЛЫй ентерпрайзных моделей, и верхний сегмент Лениво.
С остальным так или иначе имел серьезные проблемы с обслуживанием и расширяемостью.
1080р довольно давно идущий в ногу стандарт, хотя именно ноуты я предпочитаю небольшие, а с моим зрением вглядываться в 1080р на 12\14", даже при масштабирования текста — не айс, но это детали личные уже.
По поводу расширяемости — я лично пердпочитаю ПроБук серию НР, ДЕЛЛЫй ентерпрайзных моделей, и верхний сегмент Лениво.
Обоснуйте, что понимаете под обслуживаемостью и расширяемостью. Конкретно в HP и Lenovo меня дико раздражает BIOS Whitelist — не могу ни проапгрейдить Wi-Fi карточку, ни поставить Mini PCI-E SSD. В отличие от десктопов, идеальных ноутбуков нет — приходится либо мириться с недостатками, либо сильно переплачивать.
Обслуживаемость и расширяемость в моём понимании — легко открыть, достать до нужного компонента не снимая материнку, легко заменить комплектующую типа кулера\клавиатуры\тачпада\памяти итд.
ну manufacturer ACL-листы еще никто не отменял, увы. Никто в Лениво не хочет, чтоб вы купили ссд у Самсуя и вайфлю от ЛГ :)
Даже ещё хуже: я не могу в старый ноут HP воткнуть карточку от более нового ноутбука HP. Никто не хочет, чтобы вы сделали небольшой апгрейд вместо покупки нового ноутбука.
Обслуживаемость и расширяемость в моём понимании — легко открыть, достать до нужного компонента не снимая материнку, легко заменить комплектующую типа кулера\клавиатуры\тачпада\памяти итд.
Я бы тогда назвал надёжностью и ремонтопригодностью.
А расширяемостью в современных ноутбуках, увы, не пахнет: со времем становится только хуже.
1) Для прочистки радиатора — надо всю железяку разбирать, а тема плохих систем охлаждения — это любимая болячка HP.
2) Смена диска еще туда-сюда, а вот оперативка в нескольких моделях, попадавшихся мне располагалась по обе стороны материнки — опять разбор всей машинки.
Lenovo соглашусь, Dell похуже, но тоже хорошо. HP — ужос.
про то и речь. SSD, блок питания, корпус — при апгрейде не требуют замены.Дешевые ноуты просто издевательство.
Собственно потому рынок десктопов и падает, т.к. они сильно медленно ломаются, в итоге даже те кто делает апгрейд, сбрасывают старье на вторичный рынок, который отнимает продажи у современного лоу-энда.
Мне иногда кажется что мы(человечество) в один момент произведем столько компов и комплектующих, что просто отпадет необходимость в производстве новых, и пока избыток будет потребляться забудем как это делать, а гиганты обанкротятся.
а для серьёзных игр нужна спокойная обстановка, много времени и стол для мышки.
Миллионы консольщиков по всему миру пустили слезу.
1) Студенты
2) Военные
3) Регулярно коммандируемые
Я думаю человек опечатался, там по спекам максимум 24гб (6х4гб ЕСС ддр3), на али это тысяч 5 рублей.
Несколько лет назад ко мне регулярно обращались друзья чтобы я им собрал комп. Все прекратилось. Теперь я иногда помогаю купить друзьям ноуты и сразу их проапгрейдить — поставить больше памяти+SSD.
Мы все компы (включая многопроцессорные серверы) сами собираем и немного допиливаем, но мы лаборатория.
Сервис, а в России им кто-то пользуется?
Да, крупные корпорации пользуются, особенно бюджетные.
Сервис, а в России им кто-то пользуется?
Я пользуюсь, причем не только в заржранске, но и в филиалах за сотни километров, где хелпдеска нет вообще. Очень удобно когда запчасть присылают (иногда с инженером для её установки) через пару дней после обращения.
По качеству у брендов лучше корпуса (толще сталь, меньше размер, удобный дизайн и разбираются без отвёртки) с БП, регулярно обновляют UEFI, есть готовые пакеты драйверов для деплоя и серийник сохраняется при замене материнки. Из минусов: нельзя поставить мощную видеокарту из-за БП (справедливо и для младших WS) и сейчас Dell стал использовать нестандартный форм-фактор даже в MT (лучше сразу брать SFF).
А у сборщиков SLA с ремонтом на месте либо нет вообще, либо просят за него неприличных денег, да и с запчастями вечно проблемы — сегодня нет одного, завтра другого, послезавтра третьего и потом это напоминает о себе, если замена оказалась косячная.
С серверами другое дело: цену делают опции и у tier 1 они в 2-4 раза дороже, так что даже с услугами «местных вендоров» платформы от Intel или Supermicro выходят в разы дешевле.
гейминг и еше раз гейминг
нищебродинг и еще раз нищебродинг. Самый популярный вариант.
Если процессор действительно хорош — то как он получился?
Да очень просто — Интел сидели на месте, развлекались с термопастой, с блокированием разгона, добавляли одну самую важную ножку на сокет… вот и дождались когда АМД догонит.
Надеюсь что райзен взлетит.
(Я понимаю что интел хеон был ГОРАЗДО круче для рендера и что де-факто у амд 4 ядра всегда простаивали из-за использования двухьядерных модулей вместо полноценных ядер. Я рассматриваю райзен как проц для игр и редкого создания видосов для тубика, буду ждать процы с 4 и 6 ядрами)
Ну и что бы два раза не вставать пожелаю, что бы после релиза не вылезло никаких непредвиденных разработчиками косяков. Вроде кривых термоинтерфейсов, багов в микрокоде и тому подобного.
P.S. насчет веги — радеон 7970 все еще советуют, спасибо новым драйверам и GCN. вега в любом случае сможет.
В результате при однопоточной нагрузке сильное отставание от Intel. А вот если ПО все 8 потоков более-менее равномерно загружает получалось вполне на уровне с младшими i7 работающими в те же 8 потоков.
третий процессор Ryzen 7 1700 с энергопотреблением до 65 Вт
У ализара потребление = tdp.
Всегда считал, что 99% энергии, потреблённой процессором идёт в тепло (из-за паразитных ёмкостей/сопротивлений), разве это не так?
Ну то, что смущает, что мало тестов, так процессоры ещё не начали продаваться. Ждите, осталась неделя.
Это отличная новость для всех в мире, кроме сотрудников и акционеров компании Intel.
Думаю не совсем так, так как что то мне подсказывает, что антимонопольный комитет уже придерживает Intel за причинное место, по x86.
Надеюсь, что амд взлетят, ибо интел откровенно обнаглели без конкуренции, начиная после санди бриджа показывать 3-5℅ прироста.
Интересно, что там по разгону и производительности у 4с/8т
Интересно, какова причина остановки роста тактовой частоты? Почему уменьшение техпроцесса на порядок не дало возможности создавать процессоры с частотой 20 ГГц?
Если коротко — как минимум тепловыделение будет от 500вт до небес.
Как раз эта статья вызывает только ещё больше вопросов:
Один из таких способов – переход к более совершенному технологическому процессу.… Тем не менее, производители микропроцессоров постоянно совершенствуют технологический процесс, и частота за счет этого постепенно ползет вверх.
До 32 нм всё так и было: 45 нм — предел 3600 МГц (максимальное повышение частоты без значительного повышения напряжения), 32 нм — предел 4500 МГц, а затем всё встало. Сейчас уже 14 нм — предел всё те же 4500 МГц.
Самый быстрый П4 был 3.8ггц, самый быстрый и7 на 14нм, барабанная дрожь тоже 3.8 ггц в турбо. С умеренным разгонов 99% камней возьмут 4.1-4.3 ггц, т.е. половину от рекорда, в свое время то-же было у П4.
Лично я делаю вывод что 9ггц это на данный момент предел частоты кремневых процессоров, а половина от предела это серийный результат. И т.к. про это проблему молчат уже много лет, скорее всего она принципиальная, роста частоты ждать не стоит, все что сделано из кремния понемногу подтянется к частоте в 4-4.5 ггц и на этом остановится. А маркетинг создаст искусственную градацию вниз.
Как раз поэтому его для «битья» AMD взяла в тесты которые тут обсуждали — быстрейший из существующих 4х ядерных при штатной работе.
Так же были FX от самой AMD штатно работающие на 4.5 и 4.7 Ггц, хоть и очень прожорливые.
Так что прогресс по частоте в зависимости от техпроцесса есть, хоть и очень медленный. Тем более у P4 была совсем другая архитектура — специально оптимизированная на достижение больших частот в ущерб многому другому. Настолько в ущерб, что эти высокие частоты его не спасли.
И современные i7 это дальние потомки/глубокая модернизация Pentium III и Pentium M, а не P4 с которым сравнивать не особо корректно. От них частоты выросли в 3-4 раза уже.
Что же до того почему не растет. Где-то читал, что уже вообще постепенно упираемся в барьер задаваемый скоростью света.
Хоть и кажется что она почти бесконечно большая и задержки из-за нее ощутимо сказываются только в космических масштабах или хотя бы при скоростной связи с другим континентом, но это только кажется. Даже если на пальцах прикинуть — для штатной частоты работы последнего i7 в 4.5 ГГц электрический сигнал распространяясь со скоростью света за один такт успевает пройти всего 300000000/4500000000 = 0.067, т.е. всего 67 миллиметров.
Причем это в идеальном случае — за 1 такт на 67мм расстояния реальный сигнал не передать — через 1 такт «на другом конце» значения какого-то показателя (напряжения, силы тока и т.д.) только начнет меняться. Само изменение тоже занимает время.
67мм это конечно больше размера кристалла процессора или тем более размера 1 ядра в нем (а между ядрами и другими модулями в кристалле передача идет на меньших частотах).
Но уже вполне сравнимо. Тем более что в реальных схемах сигналы передаются далеко не по прямой дающей кратчайшее расстояние. И это далеко не единственный вид и причина задержек, но зато фундаментальный и неустранимый.
Поэтому создать и показать работу(переключение) единичного транзистора на частоте скажем в даже 100 ГГц — довольно легко. А вот даже имея такие транзисторы, создать из них очень сложную схему (типа процессорного ядра) разные части которой удалены друг от друга в пространстве, но при этом должны работать синхронно друг с другом — уже скорее всего принципиально невозможно.
Насчет 7700К да проморгал, спасибо, очень он свежий. Я смотрел на 6920HQ http://ark.intel.com/products/88972
Но даже с учетом этого, моя теория в целом верна. За счет третей или четвертой оптимизации тех процесса 14нм они смогли повысить качество и поднять частоту еще немного. Но если посмотреть на рекорды разгона, то там все те-же 7.3 ГГЦ (думаю потому что он свежий, и через год будет около 8ГГЦ) и все те-же 2 вольта напряжения.
Даже если все процессоры будут по качеству как самые идеальные образцы и будут работать под 2В напряжением, выделять 600вт, то частота все равно будет фиксированная, и менее чем в 2 раза больше чем сейчас. Это идеальный сценарий. А в реальном сценарии ни какого роста частоты «в разы» и уж тем более «на порядок» не будет. Я даже не уверен что 5 ГГц возьмем в ближайшем будущем в серийных образцах.
Меня другой вопрос интересует, если взять процессор по тех процессу 65нм и сделать его с точностью 14нм процесса, можно ли будет повысить процент способных к 7ГГц до значительного? И не получится ли что i7 2го поколения на 7ггц будет быстрее чем i7-7700K на 4.5 ггц.
И вот еще момент, если верить википедии то транзистор по технологии 65нм на порядки превосходит по частоте процессоры, т.е. частотные пределы транзистора давно перестали быть сдерживающим фактором, и от меньших тех процессов роста частоты ждать не стоит. Очевидно проблемы в чем-то другом, возможно в скорости света, возможно в наводках, возможно в перегреве, возможно в чем-то другом. Но не похоже чтоб их пытались решить.
Сейчас просто выжимают оптимизацию из существующей технологии, софт и железо притираются, вводят новые команды, новые подходы к написанию кода. А вот гонка гигагерцов уже лет 10 как завершилась.
Так что если бы современные процессоры были наследниками P4, а не P3, то сейчас мы бы видели серийные процессоры работающие в штатном режиме на частотах 5-6 ГГц, 6-7 ГГц при стандартном разгоне и штурмовали отметку 10 ГГц при экстремальном. Правда по реальной полезной скорости (вычислений) они были бы наоборот хуже современных.
Я даже не уверен что 5 ГГц возьмем в ближайшем будущем в серийных образцах.
Я же упомянул AMD с 4,5 и 4,7 ГГц базовой частоты: AMD FX-9590, вышел больше 3х лет назад, 4.7 Ггц базовая, 5 ГГц турбо, до 5.2 ГГц турбо если только 1-2 ядра загружены.
До сих пор самый высокочастотный (но не самый быстрый) серийный x86 процессор.
Все еще свободно можно купить и относительнонедорого
Хотя врядли стоит — соотношение цена/качество не ахти. Лучше либо FX-83xx, которые почти в 2 раза дешевле, но только на ~20 % медленнее. Или если денег много то Intel i7.
И не получится ли что i7 2го поколения на 7ггц будет быстрее чем i7-7700K на 4.5 ггц.
i7 2го и поколения переделанный по 14нм по частотам скорее всего практически не отличался — никаких значимых изменений в архитектуру за все эти 5 поколений так и не внесли — увеличивали объемы разных буферов, улучшали точность предсказания ветвлений, сильно нарастили мощность встроенного GPU и т.д. Но само х86 ядро практически тем же осталось.
А вот если взять какой-нибудь из последних P4 и просто конвертировать его схему на 14нм, то частотные рекорды будут.
Насчет турбо скорости в 5ггц у единственного процессора с тепловыделением выше 220вт, да вы правы оказывается он есть (я не знал), и формально он серийный, но фактически очень большая редкость, которую довольно сложно иметь дома. Не уверен что его вообще можно охладить воздухом если честно… Так что для меня это выглядит скорее как промышленно разогнанный экземпляр для энтузиастов. Можно отобрать чипы которые способны брать и большие частоты, собственно оверклокеры это и делают. Но какой процент выхода годных чипов будет? А какое охлаждение нужно будет? Ну т.е. это все еще не массовый продукт. Возможно я не правильно подобрал слово «серийный».
Насчет 14нм возможно вы не совсем поняли мою идею. Я предлагал не уменьшить размер транзисторов, а повысить точность создания крупных транзисторов. Т.е. трафарет от 32нм, а точность изготовления от 14нм. Возможно повышенная точность даст больший % процессоров способных разгонятся до 7+ ггц. Т.е. если сейчас на это способен один из 1000, то с таким трюком будет каждый 10ый. Мне просто кажется что способность к разгону конкретного экземпляра зависит напрямую от погрешностей изготовления, чем их меньше — тем выше предельная частота.
"единичного транзистора на частоте скажем в даже 100 ГГц… А вот даже имея такие транзисторы, создать из них очень сложную схему"
Частоты транзисторов уже выше 100 ГГц (хоть это и немного другие транзисторы, но порядок примерно такой) — Samsung 28nm "Ft (maximum unity gain frequency) of 280GHz and Fmax of 400GHz" — http://electronics360.globalspec.com/article/4078/samsung-foundry-adds-rf-to-28-nm-cmos
Собранная из транзисторов схема (любая — т.е. даже локальная типа сумматора или стадии ALU/FPU блока) для повышения своей полезности за такт переключает целые цепочки транзисторов. Традиционно задержку схемы (critical path) считали в т.н. Logical Effort в нормализованных (не зависящих от техпроцесса) единицах, например в τ, где одна τ = 3RC ("delay of an inverter driving an identical inverter with no parasitic capacitance") или в "FO4" (Fan-out of 4 — "one FO4 is the delay of an inverter, driven by an inverter 4x smaller than itself, and driving an inverter 4x larger than itself.… 5·τ = FO4"). В http://en.wikipedia.org/wiki/FO4 есть некоторые оценки длины такта в единицах FO4 для разных процессоров: "IBM Power6 has design with cycle delay of 13 FO4;3 clock period of Intel's Pentium 4 at 3.4 GHz is estimated as 16.3 FO4.4"; Еще примеры из http://www.realworldtech.com/fo4-metric/ — Revisiting the FO4 Metric, 2002:
- Horowitz, Page 38[1]: “Current” SOA is approximately 16 FO4.
- Hrishikesh et al. [5]: Current Intel Processors are ~12 FO4.
- Chinnery et al. [3]: Alpha 21264 has 15 FO4.
- Chinnery et al. [3]: Custom IBM PPC test chip, 1 GHz @ 0.25um, FO4 of 13.
- “in a standard 0.18um process, a typical flop equates to about 3 FO4 delays, with the FO4 delay being about 25ps”
- POWER6 FPU — http://www.eetimes.com/document.asp?doc_id=1159233 — 65-nm SOI 4-GHz — 13-FO4 pipeline
Примеры схем и их FO4 http://www.realworldtech.com/fo4-metric/3/ — быстрый 64-битный однотактный сумматор — 7-5 FO4, разные варианты сдвига — http://www.realworldtech.com/fo4-metric/4/; часть FO4 требуется затратить на skew синхросигнала и slack/guard тригерров вокруг комбинационной логики.
К сожалению в оценках схем через FO4 не учитываются задержки проводов, а сейчас именно провода в большей степени ограничивают скорости (и кроме того, в длинных проводах частенько ставят усилители, которые также имеют задержку). Рекомендую материалы с https://inst.eecs.berkeley.edu/~cs250/sp16/ (осторожно, соавторы Risc-V) —
- https://inst.eecs.berkeley.edu/~cs250/sp16/lectures/lec04-sp16.pdf Physical Realities: Beneath the Digital Abstraction, Part 1: Timing. (провода с 15 слайда) 24: Flip-Flop delays eat into "time budget", Clock skew also eats into "time budget", "Components of Path Delay"; 36 — retiming of Power 4; 42 — предлагают подход GALS: Globally Asynchronous, Locally Synchronous с синхронными блоками в 0.05-1 млн транзисторов (т.е. глобально процессор как раз асинхронен — каждое ядро или пара ядер работают на своем дереве синхросигнала — http://images.anandtech.com/doci/10127/OC%20Diagram.png — SKL-S — Skylake on LGA 1151 — 3 входных напряжения: uncore, gpu, ядра+кэш; 4-5 коэффициентов от BCLK: GPU, core, ring, memory. Haswell, LLC. В многоядерных у Интел уже в 2014 году было 3 clock domain по 5 ядер в каждом)
- https://inst.eecs.berkeley.edu/~cs250/sp16/lectures/lec05-sp16.pdf Physical Realities: Beneath
the Digital Abstraction, Part 2: Power & Energy: "Computations per W-h doubles every 1.6 years", Switching Energy, Leakage Currents, Device engineers trade speed and power, Six low-power design techniques - https://inst.eecs.berkeley.edu/~cs250/sp16/lectures/lec07-sp16.pdf Memory Technology and Patterns (там от длин проводов могут увеличиваться задержки доступа к большим массивам)
Существуют проекты технологий с пониженными задержками логического элемента (и резко пониженными температурами, жидкий азот для них слишком горяч; 4-7 K) и огромными проблемами каскадирования более 3-4 элементов друг за другом. Авторы вынуждены строить "процессоры" и "алу" с очень короткими (в единицах FO4) стадиями
https://pdfs.semanticscholar.org/015c/52e3ee213ae1d0eefe8815a0023bd48a4d99.pdf#page=4
"eight bit-stream arithmetic logic units (ALUs) interleaved with eight 8-bit general-purpose integer registers (R0-R7)" (АЛУ работает побитно, каждый однобитный кусочек АЛУ находится рядом с "битовой колонкой" регистрового файла), "A single-bit ALU (bALU) has a 3-stage execution pipeline" — один бит в АЛУ обрабатывается в 3-тактовом конвейере и это bit-sequential processor, т.е. для одной операции над 8 битным регистром требуется 12 тактов. Зато тактовая частота 17-20 ГГц.
Ну в общем как и думал от всех этих «нано» технологий на базе графена или нанотрубок, где демонстрируют одиночные экспериментальные транзисторы работающие на частотах до порядка Террагерца можно ничего особо не ждать.
Т.к. и обычные кремниевые транзисторы уже давно и в серийном исполнении могут работать на сотнях ГГц частоты. И все уже ограничивается в первую очередь схемотехникой, а не базовыми элементами.
Это (и подобные ему) изделия очень далеки от того, чтобы называться процессором. Это радиочастотный усилитель с очень простой схемой состоящий из считанных единиц транзисторов (в миллионы раз проще даже самых простых из современных процессоров типа встроенных в разную быт. технику и игрушки). Вот тут более безграмотно написано про него в отличии от ссылки выше и кучи ее копий растащенных по другим сайтам: https://xakep.ru/2014/11/02/terahertz-monolithic-integrated-circuit/
Ничего вычислять (обрабатывать данные) подобная микросхема не может, поэтому называться процессором тоже. Это как усилитель в радиоприемнике (радиопередатчике) процессором называть.
А как-же радеон r3/r5/r7?
А вот с выходом Core/Core Duo — да, дела AMD стали печальнее.
Отличная новость!
Самый интересный вопрос о кодировании видео — использовали ли они ускорение встроенного видеоядра. 630 графика интела дает в 264 кодере х10 производительность. никакому процессору этот прирост и не снился — если нет то сравнение некоректно. Даже видео паскаль с кудой не достигает такой скорости как то что сделали в видеоядре интел!
Так то меня интел бесит. Начиная с термопасты под крышкой и заканчивая архитекторными нюансами. Но увы альтернатив по перегонке видео нет. Ежели интел работал с видеоядром то это нереально круто что райзен смог такое.
фанаты x264 говорят хардварщина отстой. Только софтварные кодаки если нужно качество.
Мне глубоко пофигу какой кодек. у меня с каждой поездки по 180 гиг несжатого видео с фотиков с потоком в 70к я его пересжимаю иногда в 10 где хочу оставить качество а иногда и в 3к когда надо оставить абы було.
Кроме того сильнейше выручает скорость одного потока ведь когда надо стабилизировать картинку то работает максимум полтора потока — один стабилизирует а второй распаковывает/запаковывает назад. и вот тут то амд сразу в пролете ибо даже в топе на один поток они слабее i7 а i7-7700 на один поток слабее i5-7600 который я и приобрел недавно. Вот таки дела малята. я свой проц не могу загрузить на 100% — максимум 75. Нет смысла в 16 потоках когда у тебя одна задача!
А нету в фотике выбора битрейта?
Вы правда считаете, что фотик будет жать лучше? Задача фотика — сохранить видео в реальном времени, а не максимально сильно сжать видео.
core i5-7600k есть встроенная графика hd630
легко конвертирует 4к в 5 раз быстрее чем реальное воспроизведение при этом загрузка проца 30%.
я говорю о том что мне всеравно чем они этого добились но если с фотика моего 1 час видео конвертируется 2 минуты то я офигеваю от скорости а если пол часа то я офигеваю от тупости. для примера могу привести время конвертации с использованием видеокарты hd630 — 2 минуты. и без видеокарты — только проц 4 ядра 4 потока — 20 минут. тот же ш7-7700 этот же видик конвертирует 13 минут без видеокарты и 8 минут в паре с 1080 нвидиевской. апаратное nvenc естественно задействовано. Мне побоку внешней или внутренней. кстати если вставить ко мне внешнюю видео в систему — внутренний кодек остается работать! тоесть как видеокарта она гуано может быть но как апаратный ускоритель h264 — отличная штука! и зачем мне 16 ядер если распаковка архива — один поток, проведение документов в 1с — один поток, 99% игр — 2 потока, фотошоп — 3 потока, лайтрум 4 потока. Даже 4 ядра я нереально редко вижу занятыми на 100%. зато регулярно вижу 25% загшрузку — тоесть уперлось в одно ядро и все… тупим…
Фотик может писать 20кбит но это такое порно что лучше писать в 80 а потом компом перегонять. тем более есть моменты которые надо покачественнее сохранить а есть такие что и удаляются до перегонки.
13 минут без видеокарты и 8 минут в паре с 1080 нвидиевской
Что-то здесь нечисто. Хотя, если почитать поподробнее, то окажется, что:
Видеокарты не очень подходят для кодирования видео из-за особенности их архитектуры. Терафлопсы у 1080 просто не получается эффективно использовать в конкретной задаче.
- Intel добавила в интегрированное видеоядро отдельный участок, который занимается только видео.
Тогда не удивительно, что полноценный аппаратный кодер будет выигрывать по скорости у неспециализированного инструмента. И это хорошо. Надеюсь, следующим этапом развития процессоров будет аппаратный FRC (frame rate conversion).
А основной недостаток встроенного кодера у Intel, судя по отзывам — это жертва качеством ради скорости и меньшая гибкость в настройке кодера. Но для большинства пользователей это не критично — ну будет файл больше размером в итоге, ну и ладно.
Видеокарты не очень подходят для кодирования видео из-за особенности их архитектуры.
У всех современных видеокарт есть аппаратные блоки кодирования видео. Если говорить конкретнее — AMD VCE, NVENC (aka PureVideo).
Я не видел сравнения кодировщиков Intel vs AMD/Nvidia, но, думаю, качество и скорость там явно не хуже.
Отличный пример, что многоядерность нужна не всем. А мне наоборот — нашим расчетам чем больше ядер, тем лучше. Причем многоядерность важнее чем частота в некоторых диапазонах того и другого.
Больше процессоров хороших и разных!
Раз так то вам путь к серсверным ксеонам с 12 ядрами. Или к платам с 2-3 такими процами на борту. Или уже освойте Куду — там полторы тысячи процев +-.
Извольте мы говорим не о зионах серверных, которые и разрабатывались для 100500 потоковости а о обычных консьюмери процах где максимум что в 99.9999% задач это 1-2 потока игры видео и иногда — какие-то Click-to-convert приложения "уменьшить размер видео с фотика" и все. Не думаю что каждый пользователь дома брутфорсит хеши или майнит коины — для этого процы безнадежны — видеокарты намного лучше но тоже увы полный шлак уже — электричество не отрабатывают. Революции не будет… не произошло… увы. ЗА последние 6 лет скорость одного потока реально возросла всего лишь в два раза.
Если я знаю как и что считать то мне всеравно как и на чем это реализовывать. а если доверять всяким длибам неизвестно под что оптимизированным и под что писанным то конечно начинаются поиски того камня который и был у разработчика этого длиба когда он её писал.
Потому многие свои расчеты я по раз 20 переделываю в программе через разные функции разные способы выделения амяти и т.д. пока не получу наилучший по скорости результат с наименьшими затратами памяти. И зачастую готовые универсальные библиотеки проигрывают конечному результату сделанному под конкретное имеющееся железо(на котором оно и будет крутиться) и под конкретную задачу. Яркий тому пример — printf и вся его братия из STDLIB которая вместе с ним едет. в условиях микроконтролеров это иногда выливается в занятие половины флеша ненужными универсальными функциями которые на отображение примитивного 4значного числа могут зажрать под 8000 тактов. в то время как руками написанная функция -аналог без ничего лишнего укладывается в 2% флеши и 400 тактов. Что называется почувствуй разницу.
Потому возражение не защитано. Я могу привести ещё 100500 примеров когда стандарнтые либы не подошли а немного допиленные руками — взлетели/загудели. У каждого камня есть свои слабые и сильные стороны. Сила программистов ресурсоёмких приложений — эксплуатировать сильные стороны и обходить слабые.
Правда там вроде бы это относится только к нейронным сетям и обработке изображений. Линейная алгебра скорее всего не портирована на GPU
нелогично — кроме встроенного видео это же ядро дает просто термоядерное ускорение h264 как енкодинг так и декодинг. сидеть на нем понятное дело нет смысла но в некоторых задачах оно нереально полезное дело!
Зато аппаратный декодер очень полезен в мобильных устройствах. Десктопу пофигу: декодирование — процесс не очень затратный, а вот в случае ноутбука даже небольшая нагрузка может сильно повлиять на время автономной работы.
У меня до сих пор 1920х1200, и мне хватает на 27 дюймах выше крыши.
Уже скоро пару лет будет, как не загружался.
А причём здесь виндошрифты? Любой шрифт будет выглядеть лучше, если его рендерить с высоким DPI.
А проблема в том, что Linux до сих не умеет нормально работать с HighDPI: в нём это делается на уровне приложений. Если приложение не поддерживает переменный DPI, то оно будет отрисовываться очень мелко.
В Windows же приложение, не умеющее в HighDPI, система просто обманывает. Таким образом, в Windows масштабируется всё (ну кроме случаев, когда приложение заявляет, что оно DPI-aware, а на самом деле нет).
Чуть дальше сядешь — не заметно, чуть ближе — становится едва заметным, глаза напрягаются и только через несколько часов понимаешь в чем дело. Windows/Linux — кажется одинаково (но не уверен, Windows не запускал года три, а на ноутбуках незаметно — dpi выше). Возможно зависит от монитора.
П.С. Дальтонизма нет, тесты на цветовое восприятие проходил, результаты очень высокие.
Мне 1й вариант больше всего нравится. Без сглаживания плохо, но и цветные разводы тоже напрягают.
Всё просто: если устройство может снимать в 4К, то пусть снимает. Иногда лучше потом на этапе обработки пережать или убрать лишнее, чем потом сокрушаться, что качество исходника было низким.
может еще флоппик попросите?
Также на предыдущей плате была ситуация, когда грозой (через Ethernet-кабель интернет-провайдера Б) выбило встроенную сетевуху. Пришлось вставлять имеющуюся сетевуху (а это PCI) в первый попавшийся слот. Поэтому, лучше иметь такой слот свободным, чем не иметь его. Тем более, что сейчас у людей чаще всего занят вообще только один слот (реже — два, еще реже — больше).
ни в коем случае. Куча мониторов рабочих с одним VGA интерфейсом. VGA прекрасно работает до fullHD.
А DVI-I — только людей путать очередными переходниками и на бабки разводить.
Стоит заметить, что в процессорах Skylake поддержки аналогового сигнала встроенным видеоядром больше нет. Так что ни VGA, ни DVI-I там больше нет — Intel уже сделала шаг.
Википедия пишет, что даже выше FullHD можно получить.
Today, the VGA analog interface is used for high definition video, including resolutions of 1080p and higher.
https://en.wikipedia.org/wiki/Video_Graphics_Array
У меня такой был (собственно и сейчас есть), там 1600х1200 @ 100 Гц без проблем передавалось. С которыми обычный DVI в принципе не справляется (нужен минимум Dual-Link DVI ну или DisplayPort)
убил бы всех кто не ставит копеешные включенные в проц и чипсет интерфейсы на плату — нереально напрягает.
сэкономьте 20% и разгоните
а чувак, имеющий лишние 100 баксов возьмёт топ
кто-то вон и титаны покупает
Именно потому, что много раз было уже, когда AMD предлагал убийцу Intel, а по факту оказывалось, как в начале поста написано,
Прошлое поколение процессоров… во многом стало разочарованием и ограничилось преимущественно использованием в недорогих конфигурациях…
пройдёт немного времени, появятся реальные тесты, народ подсчитает попугаев на доллар и выберет
плюс есть идейные в обоих лагерях, я, например, принципиально беру амд, просто так, религия
Через гугл уже можно выковырять обзоры :)
https://3dnews.ru/948466
Спасибо. Очень неплохие результаты. Из этих тестов как раз и вылезает преимущество Intel при выполнении операций AVX за счёт большего числа блоков FPU (Intel: два 256-битных блока, AMD: два 128-битных). Причём это преимущество раскрывается только при использовании HT — один поток не способен загрузить все FPU-блоки одновременно.
Интересно, будет ли в Zen+ четырёхканальная память?
Update
Спасибо. Очень неплохие результаты. ...
Это относилось вот к этому:
Через гугл уже можно выковырять обзоры :)
https://3dnews.ru/948466
Процессор AMD Ryzen 7 1800X — Прорыв, о необходимости которого так долго говорили большевики
В ПО где 6-8 ядерные Intel имеют преимущество над i7-6700K (= софт умеет большое кол-во потоков использовать) Zen крут.
AMD представила процессоры Ryzen 7