Pull to refresh
33
0.1
Антоненко Артем @creker

Пользователь

Send message

Это делается проще - реклама отключается в этом конкретном регионе. А еще проще - даже ее не отключать, потому что какая им разница. Они не находятся в юрисдикции РФ и даже при наличии доступа и рекламе, нарушающей наши законы, им будет плевать на любые претензии как на них плевать любым новостым ресурсам зарубежным, которые свою пропаганду ради нас никак не фильтруют.

Это очередной virtue signaling и забота о своей репутации там зарубежом, где их будут отменят иначе. Никаких других причин такого поведения не было и не появилось.

Как это нет? А какой тогда Apple, TSMC, Qualcomm пользуются?

Из этой тройки производит что-то только тсмц и посему пользуются его терминологией. То, что его терминология не соответствует таковой у других производителей, тому никак не мешает.

И они честно говорят что у них 10нм.

Именно, но плотность у них при этом равна 7нм тсмц, что и было причиной переименования техпроцесса в интел 7, чтобы цифры соответствовали. Тоже самое касается интел 4. Интелу надоело постоянно рассказывать точно так же мы здесь, что их 10нм на самом деле такие же хорошие, как 7нм тсмц, и все меряют нанометры по-разному. Людям нужны простые циферки.

Любой измерительный прибор лучше чем его отсутствие.

Согласен, но в данном случае измерительного прибора нет. В этом и проблема.

Есть смысл о чем-то говорить только если есть альтернативная линейка

Вы пока не показали ниодной линейки общепринятой, поэтому давайте уж вы покажите, где эта линейка наблюдается. Ни тсмц, ни интел, ни самсунг не пользуются единой линейной. Вы откуда-то ее вдруг выдумали и при этом сами же приводите ссылки, где приводятся аргументы, что этой линейки действительно нет.

Разговор имеет смысл только в ключе конечных продуктов, не имеет никакого значения на каких техпроцессах. Потому что мало того, что нм ничего не значат толком, так еще в рамках 7нм тсмц, например, есть несколько вариантов техпроцесса с оптимизацией под разные задачи.

Общепринятой мерилки нет, вам про это и говорят. Поэтому названия техпроцессов ничего особо не значат. Можете посмотреть на интел, как честно называть свои техпроцессы - убрать из названия какие-либо нанометры. Потому что плотность intel 7 и 7nm TSMC одинаковая, при этом intel 7 изначально назывался 10нм. Вы лучше задавайте вопрос интелу и тсмц, как они так намеряли своей "общепринятой линейкой", что у них разные нанометры одинаковую плотность дают.

Здесь ровно тажа самая ситуация, что с TDP. У всех вроде бы Ватты, а на самом деле мало чего значащие цифры, которые порой нельзя сравнивать даже между двумя поколениями процессоров одной компании. Уж разных компаний так подавно.

Из того, что я пока научил, логика прослеживается у очень небольшого числа иероглифов. Очень редко, когда радикалы точно описывают значение. Поэтому и лучше всего учить их это мнемоники. Нет имеющихся, так придумаем свои ассоциации. Может быть когда-то логика в этих штрихах всех была, но сейчас ее не видно.

Проблема ведь ещё, что редкие слова это один иероглиф. Обычно это сочетания как минимум двух. И даже тут подстава - нередко логика либо очень отдалённая, либо ее вообще нет, почему получается такое значение. Тут опять нужно мнемоники придумать самому.

А произношение это просто факт, нужно учить наизусть.

Японцы на улицах порой вполне себе обыденные слова не знают как пишутся, так что скорее всего да, будут жить в пузыре. Как автор и сказал, это не буквы. Знание 5000 иероглифов никак не поможет в понимании 5001го. Можно знать все на свете радикалы и наугад пытаться отгадать значение, но скорее всего будет мимо. А уж произношение тем более, которое не имеет никакой связи с написанием.

У M1 ultra эта цифра уже 800ГБ.

Цифры да, впечатляют, но тут все же надо учитывать, что М1 это не просто процессор. Если мы возьмем какой-нить SoC консольный, то там тоже цифры будут около 500ГБ. У топовых GPU вообще терабайты. Так что, это в общем-то не чудеса какие-то. Чем ближе память к процессору, тем проще сделать шину побольше. Как вот в случае HBM. Пока обычные процессоры будут тащить за собой сменные DIMM, им никак не угнаться будет. Давно назревает смена интерфейса. IBM вон пробует OMI и там цифры тоже существенно больше.

  1. И эти каналы все равно в сумме медленнее М1. Плюс это существенно увеличивает стоимость плат и энергопотребление. Для устройств самих в себя как макбуки и прочее подход эпл наиболее выгодный.

  2. Зато она чрезвычайно высокая у ИИ и графических вычислений. Смотря на то, что практически весь процессор у эпл это сплошные ускорители, вполне понятно, зачем им такая шина, которую все эти ускорители делят между собой. Проблемы с шиной памяти это не мои слова, это беда всей индустрии, над которой сейчас бьются лучшие умы. Память наша главная проблема сейчас. Делать быструю логику все умеют.

На скринах выглядит именно что отдельные чипы https://www.servethehome.com/wp-content/uploads/2022/03/Apple-UltraFusion-Interconnect.jpg Два кристалла. Между ними шина, которая идет через подложку, либо через какой-то еще слой под кристаллами. Это все очень похоже на технологии упаковки TSMC https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/3DFabric.htm

Просто если это все же один кристалл, то это тупик. Это не скейлится дальше, а у эпл вперед еще mac pro, где чип намного больше будет.

Как выше писал, единственная физическая проблема здесь, которую я вижу и слышал, это стоимость. Потому что банально большие кристаллы делать дорого, брак высокий. Нигде и никогда я не слушал упоминаний, что чего-то им сложно согласовать там. Да, очевидно это все чрезвычайно сложно внутри устроено, но это не выглядит препятствием прогрессу. Если бы нам не мешала стоимость и мы делали бы кристаллы размером в квадратный метр, то наверное да, там бы мы уперлись в непробиваемую стену физики.

Решаемы, но не то чтобы очень легко. Все оркестраторы переписывать надо. И это новые проблемы, которых раньше не было.

Надо и вроде переписывают. Планировщики ОС такое умеют. Гипервизоры тоже. Я больше вижу проблему в плане IO, чем в вычислениях. Вот где стек реально не готов к скоростям и там просто нет инструментов для решениях этих проблем, нужны новые. Они конечно есть DPDK, SPDK, но их распространение минимально. Когда линукс ядро само научится это делать вообще неизвестно.

И это не получилось. И вероятно не получится

У кого не получилось? Я же говорю, иллюзию. У HPC получается, и они сейчас основной клиент GenZ. Понятно, что потери будут. Тут речь о том, что нам нужны такие машины, но решать проблемы работы с ними лучше не на уровне софта, а на уровне железа в таких протоколах как CXL и GenZ. Потому что в этом случае, мы, например, можем реализовать когерентность кэшей между процессорами в соседних рядах стоек и это будет на порядке эффективнее, чем пытаться это делать в софте.

Другая цель, это увеличить эффективность использования железа облачных провайдеров. Намного лучше, когда EC2 инстанс не приходится запихивать в одну машину и из-за этого соседняя машина, где не хватило 1 ядра свободного, будет простаивать, а можно собрать этот инстанс их двух машин и дать клиенту как одну единую виртуалку. Скорость будет приемлемая, все довольны.

Просто в моем понимании, TSMC или кому еще, грубо говоря (понятно, что машины наверное физически имеют пределы какие-то), все равно, какого размера кристалл вытравливать. Пластина все равно одна и таже. Но в этом случае брак будет огромный. Поэтому и получается, что чем меньше кристаллы, тем ниже будет их стоимость. В них может быть сколько угодно слоев, сколько угодно транзисторов, все это заложено наверное в стоимость, но в конечном итоге самое главное это сколько чипов с одной подложки будет годных.

Собственно, это подтверждается и такими вот таблицами https://pbs.twimg.com/media/EiFmaWJWsAE9M2v?format=jpg&name=medium Т.е. потребитель покупает, грубо говоря, пластины на определенном техпроцессе.

Опять же, здесь нет никаких проблемы согласования частот или чего-то другого фундаментального. Изначальный разговор начался именно с этого. Это чисто инженерная софтварная проблемы. Деление на NUMA ноды, афинити на ядра и т.д. и т.п. это все легко решаемые проблемы. И нам с ними продолжать жить, потому что лучше не станет. Поэтому еще раз повторюсь, у производителей процессоров нет никакой проблемы наращивать размеры процессора, увеличивать число кристаллов и интерконнектов. Это увеличит задержки, это снизит скорость обмена в крайних случаях, но это не фундаментальная проблема. Прогресс идет и будет идти в эту сторону, пока мы не придумаем решение по-лучше.

В качестве еще одного доказательства, посмотрите в сторону CXL и GenZ. Вся идея этих технологий в том, чтобы иметь иллюзию единой вычислительной машины из не просто несколько процессоров на материнке, а нескольких серверов и стоек. А задержки там совсем других порядков.

Не совсем понятно, о каких блоках речь. Векторные процессоры GPU это отдельные блоки? ALU процессора это отдельные блоки? Потому что у нас нет особо проблем их наращивать и никто в индустрии не говорит об этом. По крайней мере, я такого не слышу. Что я слышу - нет никакой проблемы наращивать логику. Просто КПД у нее будет нулевой.

Фундаментально видно только две проблемы. Экономическая - физический размер кристалл экспоненциально увеличивает стоимость. Архитектурная - логика требует увеличивать количество поддерживающей инфраструктуры - планировщики, кэши, буферы, регистры и т.д. Именно она занимает подавляющее большинство кристалла в любом процессоре практически. И ни в той, ни в другой проблеме я не вижу влияния проблемы согласования частот или других проблем скорости распространения сигнала.

Обе эти проблемы пока что удалось решить прогрессом в технологиях упаковки и интерконнектах. Экономическая проблема решилась тем, что кристаллов теперь несколько, и они маленькие. Как следствие, архитектурная проблема ушла частично, потому что мы можем поддерживающую инфраструктуру нарастить. АМД очень лихо продолжает наращивать L3 кэш вплоть до гигабайта.

Сейчас мы сталкиваемся с другой фундаментальной проблемой, и она опять архитектурная - прогресс в памяти практически стоит на месте. Мы не можем обеспечить логику должным потоком данных и разместить ее в нужном объеме. Поэтому здесь на первый план выходит увеличение слоев иерархии кэшей, размещение памяти на подложке, HBM, вынос оперативной памяти на PCIe шину и прочие интерконнекты уровня стоек.

Не знаю, что там с латентностью (DDR она и в Африке DDR, ее задержки меньше не станут), а вот пропускная способность у них очень высокая. И не в последнюю очередь именно потому, что тащить такое количество линий намного проще, когда память рядом, а не на другой стороне материнки. DIMM интерфейс сейчас во многом является преградой прогресса. Он занимает слишком много места и медленный.

Вы описали именно что дальнейшую эволюцию технологий упаковки. Переход от монолитных кристаллов в сторону все более распределенных архитектур, когда не просто память и логика на одном кристалле, а когда даже сама логика разбита по частям, вот это революция. Я не знаю, может быть это было давно кем-то опробовано как обычно, но в менйстриме, в области HPC этот подход произвел революцию именно сейчас. Маленькая, но все же.

К сожалению, это на сегодня единственный способ фундаментально ускорить вычислительные системы, передвинуть память как можно ближе к логике. Не только ускорить, но еще и снизить энергопотребление. Продаваны здесь никаким местом.

Именно что стачивают. Про макбуки есть даже рекламные ролики. Их вытачивают из цельного куска алюминия. Mac studio не исключение. Подозреваю, что так сделаны в целом все их продукты.

Я смотрю с точки зрения того, что работает на практике. На практике мы видим, что у инженеров нет никакой проблемы строить огромные по площади процессоры с кучей кристаллов (вроде интеловского понте векио). Раз это работает и размеры процессоров продолжают увеличиваться, то я заключают что да, масштабы не те, чтобы это стало преградой. Может приходится понижать частоты, но пока все решаемо.

Где преграду я вижу так это, например, в PCIe, где расстояния порой метрами исчисляются. Вот там и куча проблем с разводкой, и ретаймеры всякие нужны.

Если речь об увеличении кристалла, то нет, тут скорость распространения сигнала не особо фактор. Не те масштабы. Тут в первую очередь причина в том, что, по сути, вся стоимость процессора это стоимость куска кремния, из которого он сделан. По этой причине чуть ли не самое важное в производстве процессора это процент выход годных чипов с кремниевой пластины. Мы вполне себе достигли экономических пределов размера кристаллов и единственный путь вперед это чиплеты. И по этой причине размеры подложек как раз таки постоянно растут. Людям нужном больше pcie линий, больше каналов памяти, процессору нужно больше питания - растет число ножек, а от того и подложка. С этим как раз проблемы нет, процессоры будут продолжать становиться все больше и больше. Они и так уже огромные. Какой-нить серверный EPYC посмотрите. И это обычный процессор без памяти на борту. Сейчас в серверный сегмент и память начнут на подложку класть.

Не совсем. Большие процессоры это смена парадигмы. Это признание того, что мы не не можем увеличить скорость процессора, а не можем ее увеличить старыми способами. По этой причине последние несколько лет весь прогресс происходит в технологиях упаковки. Мы не можем больше пихать в один кристалл все подряд или бесконечно тащить за собой медленную память, находящуюся "в километре" от процессора. Все это давно начало меняться. Эпл здесь ровно укладывается в мейнстрим, следуя трендам.

Это понятно, но у людей просто выхода нет. Во-первых, мощности сейчас такие на стойку, что воздух банально не справляется. Во-вторых, это эффективнее. Постепенное движение в эту сторону явно прослеживается и думаю гиперскейлеры к этому уже идут. Они, собственно, OCP и разрабатывают для себя. Если там появится вода в стандартизованном виде, то это будет круто. Сейчас сложно представить, как рядовому человеку строить подобные кластеры без привлечения третьей стороны, которая соберет все под ключ.

Information

Rating
2,843-rd
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity