All streams
Search
Write a publication
Pull to refresh
3
0.1
Виктор Дручинин @Viknet

User

Send message

Конкретно тут тормоза связаны с рендерингом шрифтов в самой IDEA: https://youtrack.jetbrains.com/issue/IDEA-259046


Причина тормозов может быть в Scaled разрешениии — контролы на 27 4k выглядят нормально, если установить scaled аналог 2560x1440, но тогда операционке приходится вычислять дробные масштабы

Если установить FullHD 4k — то тогда все будет крупнее, но при этом целочисленное масштабирование (1 логический пиксель = 4 физических), но интерфейс начинает летать.

Дело не совсем в дробном масштабировании. В режиме HiDPI macOS всегда рендерит в буфер размером 2x от "scaled" разрешения, а потом делает downscale до родного разрешения монитора.
Для scaled-2560x1440 разрешение рендеринга выходит 5120x2880, а для scaled-FullHD — 3840x2160, что требует несколько меньше ресурсов. Сам downscale же почти ничего не стоит.

Э-хе-хе… Знаете, слова микроархитектура и «крекс-пекс-фекс» (или, что аналогично «патамучта!») чем дальше, тем больше становятся синонимами. Как и кеш все больше становится синонимичен «сим-салавим, ахалай-махалай» (или «бе-бе-бе»). Маркетологи взяли эти термины на вооружение и теперь ими объясняется все. А раз так, то пусть будет микроархитектура и кеши — я не против.

Вы можете сколько угодно хихикать, если не понимаете, что за этими словами стоит, но лучше почитайте.


Они отказались от X.Org оставив его эмулируемой прослойкой.

В MacOS X, как и ранее в MacOS, никогда не было "нативного" X11 сервера. Это всегда была прослойка для портированных приложений.
Но это, как и все остальные рассуждения про софт, не имеет отношения к производительности процессора.


Не было тут никакой гениальной «микроархитектуры» возникшей ниоткуда как чертик из табакерки, при чем только у Apple.

А микроархитектура Zen тоже возникла "ниоткуда как чертик из табакерки"? Или за ней таки стояли прорывные идеи и годы работы, как и у Apple?


Собственно это и есть причина, по которой aARM64 сервера не сильно стреляют. Нет, они годятся для определенного круга задач. Они вполне справляются с NAS'ами или не сильно нагруженными приложениями. Все равно производительность хромает. Та, которая вычислительная (условно «фоновая»).

Вам пора обновить представления о мире.

Хех… SSE какой? Их тоже немало. Очень интересно, что они там в доступных расширениях процессора в эмуляторе отвечают.

1) Основная часть Rosetta 2 не эмулятор, а AOT-транслятор.
2) Поддерживается всё, вплоть до SSE4.2, оттранслированное приложение получит вот такой ответ:


machdep.cpu.features: FPU VME DE PSE TSC MSR PAE MCE CX8 APIC SEP MTRR PGE MCA CMOV PAT PSE36 CLFSH DS ACPI MMX FXSR SSE SSE2 SS HTT TM PBE SSE3 PCLMULQDQ DTSE64 MON DSCPL VMX EST TM2 SSSE3 CX16 TPR PDCM SSE4.1 SSE4.2 AES SEGLIM64

Но SSE в x64 тоже, есть мнение, что быстрее чем у M1 так как легаси там нет, а денег в оптимизацию вбахано от души.

Это у ARM64 и современного NEON нет легаси — они были разработаны с нуля меньше 10 лет назад. А вот на x86 приходится жить с большими диапазонами опкодов, которые уже не переиспользовать, и переменной длиной команд.


На данный момент на топовый ARM с NEON проигрывает SSE от мейнстримовых Интелов от 3 до 10 раз. Тупо за счёт бОльших частот и бОльшего числа вычислительных блоков у x86.

В случае с M1 это уже не так.


А AVX512 в случае преобразования типов в некоторых задачах, как a понимаю, вообще даёт кратный прирост в скорости и творит совершенно невероятные чудеса.

Не творит он чудеса. При его использовании приходится ронять частоты, и я неоднократно видел упоминания, что версия с AVX2 из-за этого часто получается быстрее. Ну и отсутствие поддержки в AMD процессорах немного ограничивает применимость.
На M1 для многих подобных задач можно использовать матричные AMX инструкции, и получать ещё более впечатляющие результаты.


В плане векторных инструкция у NEON паритета с x64 вообще на горизонте не предвидится никак.

А для масштабных вычислений уже есть гораздо более универсальный и расширяемый набор SVE-инструкций, который реализован например в Fujitsu A64FX (используется в быстрейшем на текущий момент суперкомпьютере).

AVX не работает в Rosetta 2 вообще, но на этот случай почти во всех программах/библиотеках есть фоллбэки на SSE, т.к. не все даже современные x86 процессоры поддерживают AVX.
SSE вплоть до последних версий практически целиком транслируется в нативный NEON и выполняется сравнительно быстро.


Проблемы с производительностью в основном с приложениями, активно использующими JIT — браузеры, Electron-based, виртуальные машины языков (JVM, Node.JS) — в этом случае Rosetta вынуждена переключаться на эмуляцию x86.
К счастью, большая часть этого добра уже есть в нативных версиях.

Linux на этой архитектуре ведет себя сильно паскуднее.

Дело не в архитектуре, а в микроархитектуре. Вы пробовали гораздо более слабые процессоры — массовых ARM64 ядер сравнимых по производительности с Firestorm просто не существовало.

К сожалению на моем мониторе 27 4к все ide jetbrains работают заметно медленнее чем с подключенным к этому же монитору macbook pro 16.

Попробуйте отключить сглаживание шрифтов в настройках — алгоритм сглаживания пока не портирован даже в native-сборках, поэтому всё тормозит. Мне на 27" 4k (с 2x масштабированием) без сглаживания вполне комфортно, по крайней мере со стандартным шрифтом Jetbrains Mono.

А вы уверены, что 10млрд — это имено ядра, которые на N7, я этого не знаю. Но читал, что разные части ryzen печатаются на разных техпроцессах.

Достаточно даже на википедию зайти, чтобы прочитать эту информацию: "Zen 3 <...> uses TSMC's 7 nm process for the chiplets and GlobalFoundries's 14 nm process for the I/O die"


Да и по 5нм ничего не понятно пока, Apple не показатель — стоимость айфонов сегодня такая, что спокойно покрывает стоимость процессора, а стоимость маков, по моему сугубо личному мнению, на сегодня занижена, чтобы расширить аудиторию, и будет подуматься по 40-50 долларов в год минимум.

Стоимость печати даже M1, по имеющимся публичным данным, не превышает $50, а скорее находится в диапазоне $25-$40.


Можно поступить довольно просто — взять публичные финансовые данные от TSMC за прошлый год. Apple напрямую принесла TSMC чуть меньше $10 млрд дохода за 2020.
При этом Apple выпускает около 200 млн. iPhone ежегодно, в районе 40-50 млн. iPad, часы, колонки, tv-приставки по мелочи, теперь вот ещё сколько-то маков, всё с процессорами, напечатанными на TSMC.
Ну и поделите доход TSMC от Apple на количество процессоров — получите грубые затраты Apple на каждый процессор, с учётом инвестиций в развитие техпроцесса, в расширение производства, бронирование 80% мощностей 5nm и т.д.

Я так понял, что на плотность влияют несколько факторов: минимальный возможный размер и количество слоев.

Ещё есть разные типы ячеек с разными характеристиками. Есть использование разряженных структур в областях с повышенной нагрузкой, для уменьшения тепловой плотности.


Ну и, кроме того, современные чипы состоят из частей, которые могут быть выполнены по разным тех процессам.

В рамках одного кристала — нет. Это вы про чиплеты, наверное. Поэтому я и указал, что сравнивал именно основной кристал.


Свежее что-то было, типа роадмапа от 10нм и до 3нм. Если не ошибаюсь, где-то во время заявления интела о том, что они могут отдать часть производства на оутсорс.

Было бы интересно взглянуть. Потому что последний их официальный роадмап датируется 2019 годом, и там Intel обошёлся без конкретных цифр: https://www.anandtech.com/show/15217/intels-manufacturing-roadmap-from-2019-to-2029

Или разъём грязный/неисправный, что приводит к повышенному сопротивлению контакта и тепловыделению. Или зарядник неоригинальный, и не выдаёт ожидаемых характеристик.
У меня тоже был MBP 15 (2013) с топовым CPU, и я при любой нагрузке не видел ни разряда батареи, ни нагрева разъёма. Вот сам ноут умеел разогреться до неприличных температур, это да.
Сейчас вот MBP 15 (2017). Он может разряжаться если его от 61 Вт блока запитать, а вот стандартного 91 Вт или USB PD 100 Вт от монитора уже хватает для полной загрузки.

Я хотел сказать, что все это маркетинговые ходы. Реальная ситуация сейчас показывает, что именно техпроцесс TSMC дает преимущество за счет превосходства в целом, а не в плотности.

Техпроцесс сам по себе не даёт преимуществ в производительности.
Да и плотность зависит от многих факторов, в том числе от микроархитектуры ядер и компоновки чипа. Я недавно считал для Apple A13 и основного чиплета AMD 5800x, сделанных на одном и том же TSMC N7+, так у A13 плотность транзисторов выходит на 55% выше.


Я видел такую сравнительную таблицу. Только найти тоже не смог.

Ну вот конкретно для ранних 10nm от 2017 года цифры есть (да и те немного лукавые), а всё что 10nm+ и далее, я не могу найти. И количество транзисторов примерно после Skylake больше нигде не приводят.

Интересно, что вы отвечаете точно таким же маркетинговым лозунгом. К тому же, устаревшим.
TSMC уже полтора года печатает на N7+, который более плотный, и уже полгода как доступен N5.
А вот Intel, в свою очередь, вообще старается больше таких цифр не называть. По крайней мере, у меня не получилось найти ни плотности для техпроцесса 10nm+ (SuperFin), ни количества транзисторов в новых чипах на 10nm.

Это открытые пакеты стандартного формата OCSP: https://blog.jacopo.io/en/post/apple-ocsp/

Выступление, по которому написана английская статья: https://www.youtube.com/watch?v=VscdPA6sUkc

Это как раз таки минус. Одноядерный буст это возможность существенно повысить скорость однопоточной задачи за счет запаса по TDP. Постоянно работать на одной частоты это значит неэффективность использовать энергетический пакет.

Когда это оптимальная точка на графике производительность за ватт, то очень даже плюс. Например, если увеличение потребления с 5 до 10 Вт на ядро даст прирост скорости всего 10%, то это просто нерационально для портативных устройств, работающих от батареи.


Вполне реально, что выше 3ГГц эпл физически не может разогнаться.

И так же вполне возможно, что это было осознанное решение, оставить максимум у 3.2 ГГц.
После выхода более мощных чипов можно будет уже делать какие-то выводы.

Отсюда и задержки с выходом нативных версий, и сравнимая производительность по сравнению с Rosetta.

Задержки у них из-за плохой культуры кода. Можете посмотреть, с каким лагом они выпускали версии под новые платформы каждый раз.


И да, Ryzen 5900H показывает идентичную производительность в однопотоке.

Не показывает нигде, кроме Cinebench. Я решил проверить ещё раз, и обнаружил, что и Blender и 7-zip на M1 тоже тестировали через Rosetta.
Поэтому мобильный Zen 3 сравним по производительности на поток с M1 в режиме трансляции x86.


Что касается стоимости, то MacBook Pro 13" в конфигурации с 16Гб/1ТБ стоит на $100 дороже чем Asus G713 с Ryzen 5900H и GeForce GTX 3070 ($1899 против $1799 у Asus)

А десктоп можно ещё дешевле собрать. Только от него примерно столько же толку будет в поездке.

Его с внешними видиками не ставят, при этом у Ryzen 7 4800H интегрированы 7 графических ядер, а у 4800U — 8, то бишь графика в 4xxxH даже похуже встроенная.

Производительность встроенной графики по тестам у H вроде побольше, чем у U. Правда, и потребление выше.


Поэтому я 4800h написал, что даже у него хватить должно.

Сорри, это я спутал.


Интел в последнем поколении, кстати, графику как раз выкатил встроенную неплохую.

Её хотя бы для банальной работы с окошками на нескольких мониторах хватит, уже неплохо.

Эм, конечно в 4800H видик встроен похуже, но… 4k ему не проблема.

4800U
Выводить, конечно, может, пиксельрейт позволяет. Только, скорее всего, будет лагать даже с композингом окошек с видео. По крайней мере, так было на встройке Intel до последнего поколения.


в драйверах нвидии давно были настройки, что запускать только с такими-то программами

Иметь достаточно производительную и холодную встройку удобно именно тем, что вот этим всем не надо заниматься вообще.

Меня поправил человек, который вроде ссылку и давал, что там было до 70%. С 30% я был не прав.

Я вёл к тому, что вклад микроархитектуры в плотность очень велик, что можно увидеть сравнив A13 и 5800X на одном процессе TSMC N7P. И переход 7nm->5nm может выглядеть у AMD совсем не так, как у Apple.


Ну, я конкретно рассматривал 4800U

Они не живут реальных 10-15 часов даже при лёгкой работе.


Так видик греется и шумит только в момент его нагрузки, так то он отключен

Или когда внешний 4k-монитор подключен. Или когда видео посмотреть захотелось. И ещё в куче разных случаев. Мой корпоративный макбук взлетает на ровном месте, когда какой-нибудь Zoom или Slack захотел видеокарту зачем-то.


И ноут в ответ на макмини m1 я привёл потому, что никто, нехорошие люди, никто не выпускает минидекстопов на амд.

Вообще выпускают. На том же Anandtech есть несколько обзоров мелких коробочек с Renoir.

Ну и не стоит также забывать, что в М1 все же восемь одновременно работающих физических ядер.

Из них только 4 полноценных. Производительность маленьких ядер практически идентична второму SMT потоку в AMD процессорах — 20-25% от полного ядра, в идеальном случае.


Это не так много для устройств, которые в основном используются от сети.

И это всё ещё потолок, ограничивающий максимальную производительность, в любом форм-факторе.


Они не смогут просто так взять и перейти на Windows.

Ради производительности и автономности можно и потерпеть без приятных фишек. Особенно для рабочего компьютера.


Чтобы этот процесс был не так дискомфортен, некоторые утешают себя мыслю, что отсутствие полноценных USB портов и картридера — это нормально, тачбар, наверное, нужен раз его добавили, а также 200$ за дополнительные 8 Гб оперативки и $200 за дополнительные 256 Гб SSD — это нормально.

Не надо так.
Порты USB там самые полноценные, что есть на рынке — USB4/Thunderbolt4.
Тачбар — мелкое неудобство для одних, приятная фишка для других.

Information

Rating
4,197-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity