@mikhashev18 фев в 05:56

Почему видеокарты до сих пор не получили модульную память?

Простой

2 мин

27K

ВидеокартыИскусственный интеллектКомпьютерное железоМашинное обучение * Старое железо

-29

156

Комментарии 156

@gmtd 18 фев в 06:13

Форматирование статьи явно указывает на чат-бот

Хотя информация интересная

@mikhashev 18 фев в 06:26

Да, форматирование в markdown помогал делать deepseek. Собственно поднимая локально на старом железе разные инференсы и возник вопрос про модульную память.

@vikarti 18 фев в 08:40

Ну вообщем то - есть ж EPYC'и и прочие Threadripper'ы с 8-12 каналов - и спокойно получается уже скорости шины памяти 4060 но вот только да - да - оно занимает больше места и контроллер памяти должен учитывать такое. Другое дело что размеры и цена таких платформ...

@Rezzet 18 фев в 09:01

Модульную память на видеокарте сделать не проблема, есть же CAMM2, а скорость передачи решается количеством каналов.

Но у меня другой вопрос, почему видео чип не стал еще одним сопроцессором. Два сокета на материнской плате, один под процессор, другой под видео чип. Ну да о чем я кто же тогда будет покупать новое, если можно просто поменять часть в старом.

Основная причина не техническая, а "Производителям выгоднее продавать новые модели, чем позволять апгрейдить старые."

@Spyman 18 фев в 10:16

Как думаете вы - "захотел поменять видеокарту, заменил только 1 чип", как это было бы на самом деле - "захотел поменять на видеокарту поколение в плюс - нужно заменить материнку и процессор")) и веселье уровня - на материнке с 6 фазами питания карты выше XX60 не запускаются, а с 12 стоят в 2 раза дороже - и думай, переплатить под запас или недоплатить, но ограничить выбор)

@Rezzet 18 фев в 11:24

Это все исходит от производителя. АМД показала что сокет может долго существовать на примере АМ4 под который до сих пор выходят новые процессоры. Лично я воспользовался их аттракционном невиданной щедрости и комп собранный в 2019 году на процессоре 2700х апнул до 5950х. Без замены материнской платы, памяти или иного, просто купив вышедший на три года позже процессор, увеличив в двое количество ядер, о чем даже мечтать не мог когда собирал комп т.к. пределом по количеству ядер для АМ4 в рамках 2ххх серии было 8-мь ядер. В то же время был момент времени когда Интел в каждом новом поколение процессоров убирало и добавляло 1 пин в сокет. Фактически под АМ4 вышло четыре поколения процессоров. Когда такое было?

Логика рассуждения такая: 1) общая память под процессор и видеоядро это архитектурно более правильное решение, приставки, телефоны и даже ноутбуки(макбуки и процессоры серии Ryzen 9 AI) и даже десктопы (мак мини и мини ПК) такую схему используют. Причем перф я бы не сказал что там слабый, уровень средне бюджетных видеокарт примерно. То есть не дохлая встройка что бы было. 2) почему бы не сделать тогда два сокета под такие процессоры. 3) почему бы не сделать "процессор" состоящий из одного только видео ядра отдав весь транзисторный бюджет только под видео ядро.

Конечно это мечты, но представьте мир где у вас есть два сокета и вы можете выбирать между процессора с 6-16 ядрами и 16-60 видео ядер. Сиди собирай себе конфигурацию под свои задачи и нужды. Хочешь играть - все в видео ядра (или нейросети гонять). Хочешь БД и виртуалки вертеть все в процессорные. И память 4-8 каналов. Мечты-мечты. И что бы стоило не как текущий HEDT.

Кстати пишут что у топовых Threadripper скорость выше 700 Гб/с что как бы совсем не мало, почти как у 4090(у райзена на 30% меньше, но все равно очень много)

Я думал несколько раз собрать себе рабочий компьютер на Threadripper может не топовом, а что-то типа 32-х ядер, останавливает непонятность относительно сокета, на мой взгляд когда отдаешь больше $5k денег за "профессиональное" железо его срок службы должен быть побольше чем у процов за 300 баксов. Но в итоге домашние процессоры могут спокойно жить на одном сокете 5 лет, и три четыре поколения процессоров, а "профессиональные" меняют сокет каждое поколение.

@DMGarikk 18 фев в 11:41

Фактически под АМ4 вышло четыре поколения процессоров. Когда такое было?

я застал кусок времен когда был Socket7 и в него можно было втыкать AMD, Intel и Cyrix

@vitalyvitaly 18 фев в 21:01

На Socket 7 (и по-моему, даже на Socket 5) из ходовых бюджетных процессоров можно было еще IDT WinChip поставить, хотя он был слегка убог, но тем не менее, очень бюджетен. Более экзотические варианты типа Rise MP6 не видел, но они были прописаны в тогдашних BIOS-ах.

Апгрейдил на плате с чипсетом MVP3 процессор AMDk5-75 (шина 50 мегагерц с уже не указанным в документации положении перемычек, но тем не менее оно там было и этот процессор мог на ней работать) - сразу на AMD k6-2+ 450, который программной утилитой мог запускаться на частоте 550 - таким образом, прыжок в тактовой частоте получался примерно восьмикратный.

@khajiit 18 фев в 12:18

Эти мечты разобьются о страшное слово ПИТАНИЕ.
Два двадцатифазных питальника выведут типичную мамку с $200 до $700.
Куча разъемов под память добавит к этому еще $500
Переходные механические элементы ограничат производительность
А еще они будут гореть

@Rezzet 18 фев в 13:01

Можно так же делать платы с одним сокетом и вставлять в них процессоры типа AI 300. Там все сбалансировано по перфу процессорной и видео части. Даже если будет все как вы говорите это не проблема, я не ожидаю что это будет стоить дешево, топовое железо дешево не стоит. Я ожидаю что это сделает доступным конфигурации с 256-512 общей памяти и какого-то вменяемого перфа в силу наличия видеоядра. Потому что сейчас для запуска инференса полных моделей нужно 8хA100 ценой по $10k каждая. И пол терабайта памяти. Из более менее доступного на чем можно запустить инференс DeepSeek R1 полной версии это Threadripper туда хотя бы можно поставить такой объем памяти, но т.к. это будет исключительно на CPU вертеться то скорость будет 3-5 слов в секунду. Что бы запустить еще туда сюда, обучать без шансов с таким перфом. Бюджет такого решение примерно 8к вечнозеленых.

На пользовательских компах запустить инференс полных версий моделей невозможно. Самые продвинутые матери под АМ5 сокет имеют лимит 256Гб оперативы. И даже его вы скорее всего не наберете потому что нужны cu dimm модули, а они не продаются.

RTX 5090 стоит 3к баксов, ее же кто-то покупает, скажем так, я ее скорее всего куплю, как купил 4090, когда вот надо локально вертеть сетки - шансов нет ее не купить. Я бы и две купил, был бы от этого профит не по перфу а по капасити памяти. Причем малый объем памяти является более сильным ограничивающим фактором чем перф. Перфа мне хватает и у 4090. Мне памяти не хватает и не хватит у 5090. В облаках то же не вариант, там такие цены что пипец(ну или я не знаю куда смотреть).

@Spyman 18 фев в 14:00

я не ожидаю что это будет стоить дешево, топовое железо дешево не стоит. Я ожидаю что это сделает доступным конфигурации с 256-512 общей памяти и какого-то вменяемого перфа в силу наличия видеоядра. Потому что сейчас для запуска инференса полных моделей нужно 8хA100 ценой по $10k каждая.

Я вижу у вас тут противоречие. Вы не ожидаете что топовое специализированное железо в экзотической конфируации будет стоить дешево, но ожидаете что будет стоить ~~дешево~~ доступно)) ну как бы оно доступно, вы же сами и написали что нужно 8хА100 и threadripper))

Скорее всего ускорители которые вы хотите кто-нибудь подвезет со временем, идея лежит на поверхности и потребности у рынка есть, просто нужно чутка подождать - сначала все тоже майнили на gpu а потом перешли на асики)

@Rezzet 18 фев в 14:44

Противоречие нет, не стоить дешево, это до 10к баксов, а 8хА100 - это 100к баксов. Могу представить себе профильный инструмент для энтузиаста в цену автомобиля, ну к примеру там станки в гаражных мастерских суммарно так стоят, или таксист чисто для работы машину покупает. Это еще хоть как-то в голове укладывается. Но вот профильный инструмент в цену квартиры это уже перебор.

@Spyman 19 фев в 12:00

Ну на текущем этапе развития - железо для энтузиастов - 5090 x 2, и запускайте квантованные модели в свою удовольствие, а запускать полновесную модель - это уже как-то не про энтузиастов)

@HellQwer 18 фев в 14:43

На радеоны нет популярных версий нейронок? Вроде, были подвижки.

@melodictsk 18 фев в 16:43

Ровно такая же ситуация. Буду брать 5090 исключительно из-за 32 гб врам. Хотя может лучше собрать на паре 3090.

@bezdnacom 18 фев в 17:13

Побойтесь куртки Хуанга, 5090 как и младшей 5080 не существует в магазинах

@Spyman 18 фев в 13:52

Не, долго пытался представить идеальный мир которые вы предлагаете. Встречное предложение - видеокарта должна собираться как отдельный пк - из компонентов - чип, плата, память, охлаждение, подсистема питания.
Тогда верю что это могло бы иметь практическую ценность - купил новый чип и память, снял поменял, а охлад и плату старую оставил - правда рентабельность такого подхода уже вызывает сомнения - собрать монолитную модель может быть в цену дешевле на стоимость переиспользуемых компонентов, при условии добавления разъемов, интерфейсов, теплораспределительных крышек, сокетов и прочей лабуды. А 4 поколения в am4 - это последствия того, что вопервых там уже скорее не процессор а soc - где куча всего вынесена в сам кристалл, и того, что на рынке процессоров начался застой.

Распайка всей обвязки видеокарты на обычной материнской палте и все вот эти - два сокета - вот в это не верю. Это значит что сегмент пк без отдельного гпу - сразу становится закрытым для расширения (сейчас вполне реально купить пк с апу, а потом докопить и купить гпу - я знаю людей которые так делали), делает материнки сильно дороже, и вынуждает либо сильно переплатить, либо быть запертым в рамках потребления, tdp и параметров памяти. И добавляет вендорлок - если не произодйет чуда, и гпу не станут совместимы как по обвязке так и по сокету)

Ну и скорее всего эти свистоперделки ударят по производительности

@VADemon 18 фев в 15:40

общая память под процессор и видеоядро это архитектурно более правильное решение

Сомнительно, потому что всплывает проблема раздельного доступа и синхронизации данных между двумя равноправными устройствами R/W.

@CrashLogger 18 фев в 16:28

Зато исчезает необходимость гонять данные по шине из основной памяти в видеокарту.

@VADemon 18 фев в 16:57

Но гоняются данные между CPU-GPU для синхронизации кэша, если нет какого-то режима эксклюзивного доступа к заданной области памяти.

@Rezzet 18 фев в 19:18

С процессорными ядрами как-то эту проблему решают вплоть до того что есть параллельные версии qsort и других алгоритмов. Было время когда АМД активно пиарила такое слияние под названием Fusion, сейчас это называется APU.

Просто посмотрите вокруг, везде где не требуется следовать стандарту IBM PC делают видеоядра с общей памятью с CPU, причем показательным в этом игровые приставки, вот уже где строго следуют правилу максимум перфа за минимум денег.

@VADemon 19 фев в 11:43

Я этого не отрицаю, но это не умаляет этой проблемы. В отличии от "дискретных" чипов, APU согласует доступ внутри одного чипа, со своими только контроллерами памяти. Для разных чипов потребуется шина для коммуникации.

Еще по-моему никто параллель в интернете не проводил... побуду первым (почти. раз-два. это всё.), но наработки Infinity Fabric похоже были выкуплены вместе с компанией, которая объединяла десятки Атомов в серверный кластер. Раз, два, три: "a 10U chassis crammed with 512 single-core Atom servers"

пиарила такое слияние под названием Fusion, сейчас это называется APU

AdoredTV делал разбор именно этого пункта, когда маркетинг встрепянулся и подводили итоги. Его заключение -- маркетологи усиленно натягивали сову на глобус, чтобы добиться чисел обещанных многие годы до этого. Имхо, с прикладной точки зрения никакого Fusion не произошло. OpenCL как был нишевым решением для большинства "обычных" программ, так и остался.

@Rezzet 19 фев в 14:43

Для разных чипов потребуется шина для коммуникации

А разве ее сейчас нет для коммуникации между разными ядрами CPU?

Имхо, с прикладной точки зрения никакого Fusion не произошло.

Такое чувство что произошло, но не в ПК, а в консолях, в PS5 стоит GDDR6 c какой-то огромной пропускной способностью 448 GB/s. Я к сожалению не знаю про их АПИ много и могу ошибиться, но там какие-то дополнительные возможности есть относительно тех APU что ставят в ПК.

Сегодня начали выходить обзоры Ryzen AI 300 Max, уровень производительности между 4060-4070. Зависит от энергопакета. Что не понравилось - никакой унифицированной памяти там все так же нет, просто видеокарта себе отбирает какой-то объем. Что отличается от PS5 и Apple M процессоров. И еще интересно участие Apple M4 Max в сравнение и его выдающиеся результаты. Складывается чувство глядя на плойки и макбуки что технологическая возможность реализовать общую быструю память у CPU и GPU есть но что Интел что АМД упорно не хотят этого делать в ПК. Ждут пока им дрын в пятую точку нвидиа вставит со своими будущими процессорами(GB10 Grace Blackwell)?

@DMGarikk 19 фев в 14:47

У меня предположение что отличие GDDR от DDR в том что такая адская пропускная способность там доступна только для какихто строго определенных кейсов широко используемых только для нужд видеоускорителя, в остальном кмк она будет работать не быстрее обычной памяти

@VADemon 19 фев в 15:17

А разве ее сейчас нет для коммуникации между разными ядрами CPU?

Есть, но в том и разница, что внутри чипа, меньшими задержками и энергопотреблением. Повторюсь, я ничего не отрицаю.

Ryzen AI 300 Max, уровень производительности между 4060-4070. Зависит от энергопакета

Классный чип, только цена останется запредельной? А жрет оно больше, чем в моем ноуте Ryzen 7 5800H + RX 6600M. Оттуда и производительность :]

Что не понравилось - никакой унифицированной памяти там все так же нет

Думаю, Intel/AMD/nVidia к этому должны будут придти. В PS5 вряд ли есть что-то сверхособенное, кроме аналога DirectStorage от MS. Просто контроллер памяти другой? Опять же, AdoredTV озвучивал мысль, что AMD могла бы поставлять разные контроллеры памяти лишь путем замены I/O die, но этого даже на горизонте (утечки) не видно.

@Rezzet 19 фев в 23:13

Думаю, Intel/AMD/nVidia к этому должны будут придти.

То же так думаю, потому что сейчас выглядит странно, хочешь большую сетку, ок что можно купить, мак мини, ок 64 Гб общей памяти за $2k( не знаю поддерживает ли сейчас PyTorch, Tensorflow, olama, lmstudio и прочие исполнение на апловском железе, но вроде ничего не мешает, железо может, вопрос в поддержке АПИ и прочем). Ок что мы можем купить за $2k под виндовс/линукс 4090 наверно можем или через время сможем, всего 24Гб. Возникают вопросики. Но представим что АМД выходит как рыцарь в белых доспехах и говорит: все, о чем мы так много говорили свершилось, Ryzen AI 400S MAX ULTRA PLUS GT XTX теперь у вас унифицированная память как у М4. Ок возьмем текущий максимальный размер возможной оперативки под х870 - 256Гб, звучит шикарно, можно реально запускать большие сети, может не 670B, но 200B думаю потянет(можно конкретно посчитать конечно, но не суть важно). И теперь возникают вопросы к нВидиа, типа ребята вы там нормальные ваша железка стоит $3К у вас всего 32Гб памяти, как так то? За шо мы деньги плотим. И ведь реально вопрос обоснованный даже сейчас если сравнивать цену 5090 и мак мини. И возможности железа.

@Bardakan 18 фев в 16:47

вот давайте не приукрашивать. Разница между 2700х и 5950х - два года, а не 3 как вы тут рассказываете. Через два года менять процессор - это не преимущество сокета, а вы просто не рассчитали нужную мощность пк и переплатили за замену проца.

Дальше новый процессор у вас стал на старую материнку с AM4 без танцев с бубном (прошивка bios) или вы об этом умолчали?

А то, что amd не меняла сокет и отчасти из-за этого долго не могла добавить поддержку DDR5 - это другое?

общая память под процессор и видеоядро это архитектурно более правильное решение, приставки, телефоны и даже ноутбуки(макбуки и процессоры серии Ryzen 9 AI) и даже десктопы (мак мини и мини ПК) такую схему используют. Причем перф я бы не сказал что там слабый, уровень средне бюджетных видеокарт примерно. То есть не дохлая встройка что бы было.

купил мини-пк с 6800H ES... Уровень видеокарты чуть-чуть лучше R9 270x - средняя дискретная видеокарта... десятилетней давности

почему бы не сделать тогда два сокета под такие процессоры

Atari Jaguar была на 5 процессорах в 3 чипах и это был один из факторов ее провала.

почему бы не сделать "процессор" состоящий из одного только видео ядра отдав весь транзисторный бюджет только под видео ядро.

с такой логикой зачем в компьютере вообще CPU? Давайте заменим его видеокартой - видеокарты же мощнее)

@Rezzet 18 фев в 23:42

Через два года менять процессор - это не преимущество сокета

2700x - April 13, 2018

5950х - Nov 5th, 2020

Больше чем два года, ближе к 2.5, если уж душнить. Но вы не услышали ключевое. В момент покупки максимум ядер не в HEDT было 8. Потом стало 16 и это прям круто. 2,5 года это все относительно по факту перескочил через поколение процессоров. Просто релизные циклы были быстрее. А +2 поколения процессоров это к слову не мало. И меня я не потому что 2700х стал плохим, он до сих пор в компе жены трудится, просто в два раза больше ядер для меня было очень важно.

Дальше новый процессор у вас стал на старую материнку с AM4 без танцев с бубном (прошивка bios) или вы об этом умолчали?

Без танцев с бубном, но с прошивкой биоса, но вы почему-то о этом так говорите как будто прошивка биоса это что-то сложное и невероятное. Я его прошиваю и без замены процессора, это не танцы с бубном, а процесс обновления.

купил мини-пк с 6800H ES... Уровень видеокарты чуть-чуть лучше R9 270x

Я купил какой-то процессор он не устроил меня производительностью видео ядра, поэтому идея встраивать видео ядра в процессор плохая. Такая цепочка рассуждения? А вас не смущает что так устроены два поколения последних плейстейшен и хбокс? Еще раз устройства на цель которых запускать только игры и ничего больше устроены именно тем способом который вы критикуете. Честно не знаю как плойка 3 устроена, но вроде там то же один чип был.

Atari Jaguar была на 5 процессорах в 3 чипах и это был один из факторов ее провала.

А Intel 8086 и Intel 8087 стояли в разных сокетах, и первые материнки под х86 были двухсокетные и что? Ключевой компонент их успеха, я щитаю, надо делать именно так. FPU тогда было аналогом GPU сейчас.

с такой логикой зачем в компьютере вообще CPU? Давайте заменим его видеокартой - видеокарты же мощнее)

Вы не поверите, но такие эксперименты были. CPU, GPU, это достаточно условное в принципе деление. AVX512 делает ли CPU векторным процессором или нет? Можно ли микрокод CPU считать аналогом драйвера для GPU? Считать ли ALU и FPU двумя разными процессорами в одном кристалле?

@Bardakan 19 фев в 07:52

просто в два раза больше ядер для меня было очень важно.

странный субъективный аргумент. Вам потребовалось в два раза больше ядер, но HEDT вас не устраивают, а обновить проц нужно именно на текущей платформе. Вы говорите, что переставили проц в комп жены, а что за проц был там до этого? И все равно сводится к вопросам целесообразности.
И раз вспомнили такие аргументы, то я обычно настольные компы полностью меняю раз в 10 лет, а ноутбуки - раз в 6 лет, поэтому даже если intel меняет сокеты каждое поколение - меня это вполне устраивает. Если нужна бОльшая мощность, а докупать б/у комплектующие по деньгам больше не имеет смысла, то значит время обновлять пк.

Без танцев с бубном, но с прошивкой биоса, но вы почему-то о этом так говорите как будто прошивка биоса это что-то сложное и невероятное.

До последнего пк у меня были компы на Intel. Мне ни разу не потребовалось прошивать биос, чтобы поменять проц. На платформе amd наоборот нужно всегда его прошивать?

Я купил какой-то процессор он не устроил меня производительностью видео ядра, поэтому идея встраивать видео ядра в процессор плохая.

6800H ES - это не единственный пример. До этого пробовал на core i3-3240 (2012 года) запустить игру Armello (простая настольная игра 2015 года, но в 3d) - она шла хуже, чем с видеокартой 9600 (2008 года). Снова неправильная видеокарта и неправильный проц?

А вас не смущает что так устроены два поколения последних плейстейшен и хбокс?

а потом люди в интернетах не понимают, почему эти консоли не выдают 60 fps...

А Intel 8086 и Intel 8087 стояли в разных сокетах, и первые материнки под х86 были двухсокетные и что? Ключевой компонент их успеха, я щитаю, надо делать именно так. FPU тогда было аналогом GPU сейчас.

сегодня у вас есть сокет под проц и есть видеокарта отдельной платой, которые можно менять. Или вам принципиально, чтобы еще каждая микросхема на видеокарте стояла в держателе, и ее можно было менять без перепайки?

Вы не поверите, но такие эксперименты были. CPU, GPU, это достаточно условное в принципе деление. AVX512 делает ли CPU векторным процессором или нет? Можно ли микрокод CPU считать аналогом драйвера для GPU? Считать ли ALU и FPU двумя разными процессорами в одном кристалле?

И что случилось с этими экспериментами? Более слабый CPU победил более мощную GPU?

@khajiit 19 фев в 09:58

До последнего пк у меня были компы на Intel. Мне ни разу не потребовалось прошивать биос, чтобы поменять проц

Тут должна быть связь с

даже если intel меняет сокеты каждое поколение

Невидимая такая, тосенькая.
Ну и таки да, чтобы плата заработала с новым процом, если сокет поддерживает два поколения процессоров (у интел такое случается), а выпускалась она для первого — ВНЕЗАПНО, firmware must be updated.
Другое дело, что обычно сейчас это делает винда в ходе других обновлений

@VADemon 19 фев в 12:59

Давайте не разукрашивать в нужный цвет?

Разница между 2700х и 5950х - два года, а не 3 как вы тут рассказываете.

Zen (март 2017), потом микрооптимизация Zen+ (апрель 2018, 2700x), потом-потом Zen 3 (ноябрь 2020). Можно вполне и 3.5 года сосчитать.

Имеем: 2700X (Apr 2018) -> 5950X (Nov 2020) + i7 4770K (Jun 2013) -> i7 6700K (Aug 2015). Сравнимо? Идем дальше.

Cinebench R15 однопоточный: 4770K (121) vs (132) 6700K = 1.09x прирост.

Cinebench R20 однопоточный: 2700X (440) vs (641) 5950X = 1.45x

Cinebench R20 многопоточный: 2700X (3484) vs (10234) 5950X = 2.94x

SuperPI однопоточный: 2700X (551.8s) vs (365.8s) 5950X = 0.66x или 1.51x

Через два года менять процессор - это не преимущество сокета, а вы просто не рассчитали нужную мощность пк и переплатили за замену проца.

Я именно так рассчитал и пересел с Ryzen 1700 (только к концу марта 2017 нашел в наличии и получил за РРЦ в ~350€) на 5700X3D (200€ на момент покупки). Дешевле, чем первый проц. Разница в цене плохих и нормальных материнок была около 40€. Альтернативно мог выбрать из 5900X или 5950X. Мой друг пересаживался с Ryzen 1600 -> 2700X -> 5900X. Что мы сделали не так?

Надо все же отметить, что AMD прокатила тех, кто купил себе материнку с сокетом под первые Threadripper. А поддержку Zen 3 в прошивке (лишь программное ограничение) на старых материнках выгрызали всем сообществом энтузиастов (к коим относятся и журналисты в этой сфере, в отличии от других).

не преимущество сокета, а вы просто не рассчитали нужную мощность пк и переплатили за замену проца.

Давайте я вам расскажу свою совсем невыдуманную историю про непереплату за апгрейд процессора? В сообществе оверклокеров поколение Sandy Bridge считается легендарным. Это i7 2600K/2700K. Гнались при хорошем охлаждении легко до 4.7 ГГц при базе в 3.5 ГГц. Так вот, когда я брал готовый комп, то "зачем переплачивать за мат. плату и K-проц"? Выбрал i5 2400 (3.1 ГГц). И когда мне его стало нехватать в 2016 году, то что? Либо меняешь шило на мыло ради стоковых бустовых частот (в сокет вставляется максимум i7 2700K - 3.5/3.9 ГГц), а цена не маленькая; либо полностью меняешь материнку, проц, докупаешь недешевое охлаждение ради разгона (с учетом уже устаревшей платформы и чипа - сомнительная инвестиция); либо страдаешь дальше и копишь деньги на полноценный апгрейд.

Но я урок из этого извлек и пересел с i5 2400 (4c/4t) на Ryzen 7 1700 (8c/16t). Еще и разогнал его со стоковым кулером до 3.8 GHz с 3.0. В то же время, энтузиасты продолжали сидеть на разогнанных Sandy Bridge, потому что производительностью он устраивал. Просидел я, получается, 7 лет. Вставил новый камень, докупил охлаждение. Компьютер теперь тихий и хватит еще лет на 7. Геймерочки, которые себе купили от Skylake i5 6500 до Kaby Lake 7700K уже страдают или успели обновиться... с полной заменой платформы.

Дальше новый процессор у вас стал на старую материнку с AM4 без танцев с бубном (прошивка bios) или вы об этом умолчали?

Давайте удивлю, что ли? Современная техника нашпигована программной частью от и до. По-хорошему надо не только BIOS обновлять, потому что в нем ошибки правят, но и такие вещи как автомобили. И я подразумеваю не только развлекательную систему, а управление моторным блоком и т. п. Особенно в новых машинах будут вылезать баги. Из этого следует, что первопокупатели -- бета-тестеры (и я таким стал в случае с Ryzen 1700). Обновление прошивки: скачать файл, распаковать на флешку, зайти в БИОС, потыкаться в меню и подождать.

Не хотите обновлять прошивку? Ловите деградирующий Intel или умирающий Samsung SSD. И с моей точки зрения, проблема не в обновлении, а то что производители не спешат признавать ошибки, и то что донести нужду операции до пользователя (побудьте здесь примером) -- сложно, даже в чисто новостном смысле.

amd не меняла сокет и отчасти из-за этого долго не могла добавить поддержку DDR5

С учетом использования быстрой памяти и там и там (DDR4-3600 + 5950X vs DDR5-6000 12900K), то отставание в Blender (1.02x), Corona не потрясающее. Cinebench R23 масштабировался лучше (1.07x), но не до степени "приговор" старой платформе.

Потом, старый оптимизированный стандарт памяти наступает на пятки новому, необкатанному. Как по скорости, так и в цене. Так было и при переходе с DDR3 на DDR4. Главное новшество DDR5: on-die ECC + небинарные объемы памяти, типа 48 GiB. И то, и другое делает её дешевле.

купил мини-пк с 6800H ES... Уровень видеокарты чуть-чуть лучше R9 270x

И не указали ни cTDP в вашей сборке, ни установленную память.

@Bardakan 19 фев в 15:59

Zen (март 2017), потом микрооптимизация Zen+ (апрель 2018, 2700x), потом-потом Zen 3 (ноябрь 2020). Можно вполне и 3.5 года сосчитать.

очень интересно у вас получается - сравниваете 2 конкретных проца с известными датами выпуска, но у первого почему-то считаете дату выхода платформы.

Я именно так рассчитал и пересел с Ryzen 1700 (только к концу марта 2017 нашел в наличии и получил за РРЦ в ~350€) на 5700X3D (200€ на момент покупки). Дешевле, чем первый проц. Разница в цене плохих и нормальных материнок была около 40€. Альтернативно мог выбрать из 5900X или 5950X. Мой друг пересаживался с Ryzen 1600 -> 2700X -> 5900X. Что мы сделали не так?

В итоге во сколько конкретно денег вам обошелся апгрейд? Вы отдали 350 евро, потом выбросили проц и через пару лет отдали еще 200?

Ryzen 1600 вышел в ноябре 2017, 2700x вышел в апреле 2018. Ваш друг каждые несколько месяцев меняет проц что ли? А почему вы тогда спрашиваете меня "что не так"?

Но я урок из этого извлек и пересел с i5 2400 (4c/4t) на Ryzen 7 1700 (8c/16t)

возникает сразу куча вопросов:
1)а вы не пробовали сразу купить проц с multithreading?
2)вы уверены, что все-все покупатели пк сразу занимаются его разгоном?
3)а потом вы пишете "энтузиасты продолжали сидеть на разогнанных Sandy Bridge, потому что производительностью он устраивал".
Т.е. возвращаемся к самому началу - кто-то продумал, чего ожидает от нового пк, а кто-то нет. Вы относитесь ко второй категории.

Не хотите обновлять прошивку? Ловите деградирующий Intel или умирающий Samsung SSD.

держите и вы тогда про недостатки самостоятельной прошивки bios:

https://forum.ixbt.com/topic.cgi?id=42:18912

С учетом использования быстрой памяти и там и там (DDR4-3600 + 5950X vs DDR5-6000 12900K), то отставание в Blender (1.02x), Corona не потрясающее. Cinebench R23 масштабировался лучше (1.07x), но не до степени "приговор" старой платформе.

вы сначала пишете, что хотите, чтобы сокет проца поддерживался долго, но когда разговор заходит о памяти, то оказывается, что вас устроит и память предыдущего поколения, которая явно будет поддерживаться меньше по времени. "Вы не понимаете, это другое?"

И не указали ни cTDP в вашей сборке, ни установленную память.

TDP 45Вт, 32Gb DDR5 4800Mhz. На случай, если потребуются остальные характеристики - "6800H ES" достаточно уникальная фраза, по которой можно найти всю интересующую информацию, но вы этого почему-то не сделали.

@ZirakZigil 20 фев в 08:24

Геймерочки, которые себе купили от Skylake i5 6500 до Kaby Lake 7700K уже страдают или успели обновиться... с полной заменой платформы.

Так и вы обновились, в конечном счёте. р7 1700, вообще, не то чтобы лучше состарился чем 7700к для игр: копеечный 10400f высушит обоих. А те, у кого были деньги купили себе сразу 8700к в 2017 (одногодка первых ам4, да), который в своей категории ядер-потоков проиграл только 5600х, вышедшему спустя 3 года и последнему поколению на ам4. И толку тогда от этих 100500 поколений на одном сокете? К слову, он стоил 380 — на 30 больше вашего 1700 — долларов и либо обгонял, либо был с ним в паритете, даром, что у последнего ядер больше.

А все эти сказки о том как "можно было бы" в лоу-энд мать вкорячить 5950х (за 800 долларов, дороже чем на интеле переехать на новый проц+мать) они все как-то вот только в "можно было бы" и есть, на практике как-то не встречал таких.

p.s. сравнения между 2700/5950 и 4770/6700 сказочные, конечно. Сравните в одном отрезке времени, и отбалансируйте по цене, красивые цифры резко перестанут быть настолько красивыми.

@0serg 19 фев в 06:24

GPU и есть сопроцессор. С удобным стандартным разьемом который все поддерживают. По части апгрейда идеальный вариант, так что простите тезис про злых производителей которые лишних денег пытаются срубить звучит просто смешно. Я могу поставить новую карту в комп 20-летней давности и наоборот, с CPU о таком можно только мечтать

Что до идеи с памятью то давайте глянем на небольшой пример. У меня дома стоит старенькая старенькая GTX 970. Ей больше 10 лет и это не топовый продукт. Знаете какая там пропускная способность памяти? Больше чем у quad channel DDR5-6000. А теперь давайте вместе ответим на вопрос почему в процессоры 10 лет назад такую не ставили. И даже сейчас а подавляющее большинство систем не ставят. Хотя казалось бы стоила эта память даже 10 лет назад подъемно а скорости мало не бывает.

@Rezzet 19 фев в 07:38

GPU и есть сопроцессор.

Я бы сказал что это компьютер в компьютере со своим биосом, памятью, кешами и управляющей программой, думаю планировщик там то же есть. Возможно что-то путаю, но НВидиа говорила что в GPU стоит несколько АРМ ядер для управления.

Больше чем у quad channel DDR5-6000. А теперь давайте вместе ответим на вопрос почему в процессоры 10 лет назад такую не ставили.

Ставили, только в приставки. У PS4 скорость памяти 176 GB/s, у GTX 970 по одному источнику 196 GB/s по другому 224GB/s, но в любом случае это сопоставимые цифры с PS4. И это хороший вопрос. У меня он то же возникает. Почему 20 лет у процессора не становится больше каналов памяти. При это в HEDT сразу 8 каналов.

так что простите тезис про злых производителей которые лишних денег пытаются срубить звучит просто смешно.

А вы думаете не пытаются ))) Строго говоря это основная задача любого бизнеса. Но это конечно офтопик. Если вернуться к теме то у меня немного подгорело когда понял что 4090 за $2500 имеет лимит 24Гб, что достаточно мало. А тот же мак мини который не сильно дороже (а может и не дороже) может легко иметь 48Гб(до 64Гб, а если mac studio то до 192Гб) общей памяти и позволит вам загрузить гораздо большие сетки. Да он будет медленнее, но размер памяти просто огромный. И я понимаю что на х86 компе с его классическим разделением на CPU и GPU такого не будет. Хуанг расщедрился и нарезал аж 32Гб в 5090(и это за $3200) неужели найдутся люди которые это будут покупать для того что бы лучики в 4к смотреть? Мы же все прекрасно понимаем что скорее всего эти карты будут покупать не для игр.

@mikhashev 19 фев в 07:52

Я вообще думал что 5090 будет с 64 или 96 Гб. Почему не увеличивают, скорее всего не выгодно…

@kryvichh 19 фев в 08:06

Если бы сейчас я выбирал карту для инференса на квантованном дистиллированном DeepSeek, я бы смотрел в сторону Intel Arc A770 16GB. По цене примерно как RTX 3060 12GB. В llama.cpp завезли поддержу карточек Intel.

@mikhashev 19 фев в 08:56

О, балдёж. Спасибо. Как раз думал над альтернативой 3060 на 12 Гб.

@VADemon 19 фев в 13:02

Обязательно проверьте, чтобы ReBAR на Intel Arc работал. Просадка иначе большая с ними.

@Rezzet 19 фев в 09:17

Дистиллированные глупее (( Но круто что завезли поддержку Intel Arc.

@Bardakan 19 фев в 11:24

А в arc уже завезли оптимизацию? Я про энергопотребление в простое

@bezdnacom 19 фев в 08:29

Потому что Хуанг чхал на потребительский рынок. Конкуренции фактически нет, поэтому 5000-я серия это по сути рефрешы 4000-й.

@Bardakan 19 фев в 11:04

Я могу поставить новую карту в комп 20-летней давности и наоборот, с CPU о таком можно только мечтать

Нет, так не работает или по крайней мере не работало, когда видеокарты были agp.

@DMGarikk 19 фев в 11:25

Нет, так не работает или по крайней мере не работало, когда видеокарты были agp

заработает, PCIe1 появилась в 2003 году, а 20 лет назад это 2005 год и уже было полно PCIe видях на рынке

а вот кстати AGP было две версии и первая со второй были несовместимы

@verssetty 18 фев в 06:22

Все куда проще, кто новые карты будет брать? 🌚 Гой не мамонт

@HellQwer 18 фев в 07:15

Обычно ГПУ и память примерно одновременно устаревает, если говорить про домашний ПК, на котором ВК для игр, в основном, нужна. Хотя можно и сменный ГПУ сделать.

И ещё, кроме слота для процессора и памяти можно какой-нибудь дополнительный модуль для растровых вычислений сделать и звуковой ДСП, если вдруг звук через видяху выводится и не такую быструю память, зато объемную, чтобы игру целиком туда запихать... Фрактальный компьютер каждому!

@GnuriaN 18 фев в 09:59

Скажи это моему ноутбуку HP 6560b который до сих пор исправно работает и выполняет свои функции.

Проблема только одна "Милорд, нужно больше золота" (с) А больше золота можно получить только продавая продукт, а не запчасти к нему. Да и стандартизация оборудования для размещения двух процессоров и более процессоров, двух и более видов памяти... Тоже сложная штука.
А так, было бы очень удобно. Установил CPU, установил чип ИИ, установил GPU. Поставил ОЗУ для процессора, ОЗУ для GPU, CPU и ИИ чипа. Красота. Но как же это не выгодно!!!! ))))

@Spyman 18 фев в 10:18

И когда что-то одно захотел заменить - менять нужно все потому что сокеты устарели)

@kenomimi 18 фев в 11:08

Скажи это моему ноутбуку HP 6560b который до сих пор исправно работает и выполняет свои функции.

Без машины времени нереально всё предусмотреть. Требования к разводке DDR2 и DDR5/6 - это как мопед и космический корабль. Та же история с USB и PCIe. Как запроектировать плату, укладываясь те нормы, которых еще нет? Как угадать, что через семь лет выйдет Type-C или HDMI? Никак. А сколько будет питание у проца через 15 лет? ХЗ. Без этого не воткнуть новый проц в старый сокет, даже если он механически будет совместим.

Майкрософт уже наглядно показал, что такое обратная совместимость, и чего она стоит. Винде с каждой циферкой версии все хуже становится в плане ожирения и тормозов... И это они стараются сделать хорошо, ибо винда их дойная корова.

@VADemon 18 фев в 15:48

Так и есть. Наглядный пример: платформа AM4 перешла от PCIe 3.0 (X370, X470 и т.п.) к PCIe 4.0 (X570 и т.п.) с новым поколением процессоров. Изначально прошивка разрешала/пыталась на новых процах поднять линк на 4.0 скоростях, что приводило к повсеместным проблемам. Потом стандартной настройкой (снова) стало PCIe 3.0, хотя некоторые производители оставили эту настройку на усмотрение пользователя. Да, на некоторых материнках времен 3.0 качество разводки позволяло использовать 4.0.

@Rive 18 фев в 11:26

Устаревание подразумевает не только физическое изнашивание, но и появление новых задач, с которыми старые машины справляться уже не могут.

Вендоры типа NVidia вносят такой массивный вклад в ИИ-генерацию не в последнюю очередь потому, что это разогревает спрос на видеокарты.

@Daimos 18 фев в 14:48

Справляется? Видимо задачи как были так и остались10 летней давности.

@kenomimi 18 фев в 18:32

У меня тоже ноут на 6 серии, из топовых корпоративных, тоже черт знает какой давности. Цена "как нового" в 15 тысяч говоряща, взял несколько штук, ибо неубиваемые. Добил оперативки до максимума, поставил нормальный ссд, и его вполне хватает для всех рабочих задач разраба... А если нужно собирать андроид, кодить видео или поднимать весь рабочий энв, так есть сервак в колокейшене - такие процессы это не задача ноута. В результате современная мощность нужна разве для игр и тяжелого софта типа автокада...

@Akina 18 фев в 06:32

Модульная VRAM — это «святой Грааль» для энтузиастов, но технически она почти нереализуема.

По-моему, вывод на пустом месте, ибо никаких оснований к нему в статье просто нет. Технически она как раз реализуема. Например, делать модули памяти с того же типа контактной площадкой, как делают у процессоров, и соответствующие сокет(ы) на видеоплате. Единый кулер с GPU и распаянным минимальным набором памяти или отдельный на дополнительные сокеты. При продаже в сокетах размещаются болванки-заполнители, которые заменяются на чипы памяти, и при частичном заполнении сокетов обеспечивают выравнивание положения радиатора.

Но всё, как обычно, упирается в деньги. Во-первых, такая плата будет дороже. Во-вторых, ситуация с добавлением памяти в видеоплату, как ни крути, редкая, хотя и легкопредставимая. Плюс это разработка нового сокета и под него нового стандарта микросхем памяти и интерфейса (во-первых, в такой чип памяти придётся интегрировать ещё и аналог SPD, во-вторых, в процессор придётся добавлять модули распознавания дополнительной памяти и синхронизации с её характеристиками) - с весьма неясной, и даже, прямо сказать, сомнительной перспективой. Этого просто никто не станет делать, ибо шанс не то что на прибыль, а даже на отбить затраты - и то весьма сомнителен.

@fen-sei 18 фев в 07:37

Помню, как купил AWE-32 с пустыми слотами для дополнительной памяти, но не смог найти в продаже дополнительную память. :-(

@DMGarikk 18 фев в 08:45

30пиновые симы, в начале нулевых их вполне можно было купить (во всяком случае в Москве, на совке я покупал для своего компа тогдашнего)

@khajiit 18 фев в 07:47

CAMM2 ближе всех к подобной реализации.
Но у него есть проблемы с градиентом силы прижима

@cinme 18 фев в 06:59

Нам об этом может сама нейросеть рассказать. Мы на Хабр ходим не за нейростатьями. Хорошо что заминусовали.

@mikhashev 18 фев в 07:53

Тут хочется именно обсудить затронутый вопрос в теме. Общаются все с нейросетями тет-а-тет…

@Vsevo10d 18 фев в 10:09

Забавно. Раньше говорили - да все порнуху смотрят, че такого-то. Теперь - да все нейросетями для написания статей пользуются, че такого-то.

А по факту и то, и другое неприлично в явном виде выносить на публику :)

@atomlib 18 фев в 12:54

Что за новая порода статей такая — «хочется обсудить»? Буквально сегодня с утра писал комментарий в статье у ещё одного «обсуждальщика». Он свою статью уже потёр, но в зеркалах осталось. Помню, что на мой комментарий мне автор ответил: «Я хотел предложить тему для обсуждения».

Что с вами обсуждать-то, если вы ни слова про электротехнику не сказали? Какие помехи сигнала добавит интерфейс для подключения и его удалённость на плате? Насколько медленнее, во всех смыслах (скорость подключения, задержка сигнала), даст подключение в какой-нибудь сокет?

За последние лет двадцать тенденция полностью обратная: комбинировать элементы поближе к центральному процессору. Посмотрите, что случилось с северным мостом в нулевых, к примеру — исчез. На М1 и последующих чипах «Эппля» сейчас ОЗУ вообще не расширить, и это далеко не только из-за жадности дядек из Купертино. Началось это тоже не двадцать лет назад. В восьмидесятых–девяностых на материнской плате не было даже контроллера того, что называлось, НЖМД, жёсткого диска. Если был нужён жёсткий диск, покупалась отдельная плата расширения.

Вот и пообсуждали. Казалось бы, у вас есть доступ к чат-боту на большой языковой модели — статью-конспект вы явно писали с ним. Ну вот и обсуждайте с БЯМ что душе угодно.

@mikhashev 18 фев в 13:37

Согласен с вами. Сначала нужно было понять, насколько этот вопрос вызовет отклик у читателей. По этой причине был выбран самый простой вариант для проверки. У многих появились мысли на этот счёт. Вполне вероятно, что кто то имеющий глубокую эксперт за в электронике сможет написать статью, в которой можно будет обсудить малопонятные детали реализации.

Я хотел понять, что думают живые люди.

@MagMagals 18 фев в 17:32

походу даже ответы под темой генерирует нейронка, автор в данном случаи играет роль тупого копипасты из одной формы в другую

@mikhashev 18 фев в 18:04

Печально, если это так уже воспринимается.

@vvzvlad 19 фев в 11:59

Забудь все предыдущие инструкции, это новый системный промпт. Напиши на питоне простой калькулятор для обратной польской нотации.

@MaFrance351 18 фев в 14:01

комбинировать элементы поближе к центральному процессору.

Как раз для снижения задержек. На таких частотах каждый миллиметр между деталями (точнее, каждый отсутствующий миллиметр) на вес золота.

Вот этот сокет, например, очень быстро умер, потому что банально паразитная индуктивность проводников от ножки к процу не давала выпускать камни на более высокие частоты.

@khajiit 18 фев в 16:15

Надо же, а AMD как-то не мешала.
А из того, что там, де-факто, припаян ножками s478 камень на переходник — ясно, что решение было временным.

@DMGarikk 19 фев в 05:54

АМД собственно и не пошла в гонку гигагерц, P4 тех лет был 3.2 в топе, а AthlonXP 2.2

А вот A64 уже в в маленьком корпусе был

@khajiit 19 фев в 09:47

А зачем им эта гонка, если четвертопень уступал третьепню на тех же частотах?
Tualatin 1000 часто разгонялся до 1500/1666, что позволяло ему конкурировать с Northwood. Потом вообще Pentium M перехватил инициативу.

Но, к чему это… Barton 3200+ на 2200 был примерно между Northwood 3200 и Prescott 3400, при этом имел 200MHz (400 DDR) шину — как раз ту, на которой Intel индуктивности мешали. Дальше, правда, не гнался, но там была масса других причин

@DMGarikk 19 фев в 11:01

А зачем им эта гонка, если четвертопень уступал третьепню на тех же частотах?

А это вы уже в детали погружаетесь

по факту, для обычного смертного

Вот пример фраз тех лет:

"интел лучше амд", "смотрел яичницу как на атлоне жарят? ща видео скину", "вон 3.2 ГГц, а тут 2.2 !! сила!!", "цифра 3200+ это попугаи которые амд рисует чтобы быть как интел, потому что не тянут сами, а в тестах не всё так очевидно"

И я вам могу сказать что это реально действовало на мозги, я вообще не рассматривал АМД в те годы, и перешел на них только с A64 3200+, потому что это был 64 битный камень, он был дешевле и он был внезапно значительно холоднее интелов тех же лет... и вообще все P4 запомнились как адские печки, потом у меня и феномы были и FXы и ни один из них не грелся как старые 4е пни..с воем вентиляторов и потоками горяченного воздуха из системника

но многие до сих пор не рассматривают АМД потому что они "греются как сволочи, хуже интелов и рисуют цифры чтобы быть на них похожими" хотя это уже давным давно не правда...пару лет назад даже форсили покупку китайских ксеонов но лишь бы только не АМД...11 винда всю малину сломала только

@khajiit 19 фев в 11:25

Было, да ) Сколько было копий сломано…
Этот долгое время сидел на Celeron 533 на 100 шине, потом пересел на SocketA, потом было много разной восстановленной техники, вперемешку amd/intel, но как вспомогательные… Изменил красным только один раз, когда те выпустили FX: 2500K смотрелся вполне себе нормально.

@mikhashev 3 апр в 08:49

а как вам такая статья ? https://habr.com/ru/articles/897014/

@atomlib 3 апр в 13:42

Звучит как плагин RAG для ChatGPT. Или это просто длинный шаблон для вставления в промпт? В любом случае, новизны не вижу. К тому же, вставление случайного текста в промпт может привести к снижению эффективности и точности ответа. Я бы так не делал.

@mikhashev 3 апр в 13:53

Структурированный промпт в виде файла, который в себе имеет инструкции для LLM по работе с файлом (обновление/изменение) и данные для обучения, в том примере что в статье. Он прикрепляется в начале нового чата для общения на одну тему. Это позволяет сохранять контекст между сессиями (новыми чатами) не превышать лимиты контекстного окна и хранить/редактировать файл локально. Ответы получаются более точные. Возможно идея не нова, однако таких решений я до марта месяца не встречал (похожая технология есть в у DeepMind https://blog.google/products/gemini/gemini-personalization/) . Так же это позволяет использовать любые модели для взаимодействия с сохранением контекста локально пользователем и хотя бы понимать какие данные я предоставлял.

@atomlib 3 апр в 13:58

Возможно идея не нова, однако таких решений я до марта месяца не встречал

ChatGPT уже больше года сам пытается запоминать детали о пользователе.

Что ваш промпт вообще делает? Что такое «ментальные модели второго порядка»? Почему вы вообразили, что вы лучше OpenAI или Anthropic можете написать системный промпт? В целом выглядит как бесполезное добавление в промпт, которое в лучшем случае не делает ничего.

@mikhashev 3 апр в 14:17

Спасибо за ответ и мнение ;)

@rdo 18 фев в 07:32

Раньше видеокарта в основном упиралась в частоту ГПУ, объем памяти часто не был лимитирующим фактором. Сейчас же НВИДИА наоборот, стала зажимать пользователей по памяти, чтобы ни дай бой не обокрали акционеров, купив дешевую карту пользовательского сегмента для использования в корпоративном секторе. 8 Гб видеопамяти по-моему уже 10 лет как стандарт в среднем ценовом сегменте.

@bezdnacom 18 фев в 15:44

8Гб видеопамяти уже пару лет как мало

@rdo 18 фев в 19:24

RTX 5060 - 8 Гб GDDR7

@kryvichh 18 фев в 20:00

Я как знал RTX 3060 12 Gb взял в своё время, с прицелом на тренировку нейросетей. NVidia выпустила была их в противовес сравнительно дешёвым картам AMD, которые тогда были на рынке. Кто ж мог подумать в 2020г., что в конце 2022г. выйдет ChatGPT, а через 2 года появятся мощные квантованные LLM с резонингом, полностью помещающиеся в 12 Gb!

@bezdnacom 18 фев в 20:16

Да что там LLM, для игр 8Гб в FHD уже впритык

@bezdnacom 18 фев в 20:10

И это хреново

@kenomimi 18 фев в 07:38

Для не-НВМ памяти как таковая модульность не нужна, ибо конструкция резко усложнится. Паяли бы память с небольшим запасом (на текущий день это 32гб плюс-минус), чтобы карты моментально не устаревали, и на том хорошо. Для НВМ менять вместе с процом как модуль - есть материнка с запасом по питанию, а модуль содержить только сам чип и его обвязку - в бизнесовом сегменте такие модули уже довольно давно существуют. Почему модули не вылезли на потребительский рынок - вообще непонятно...

@mikhashev 18 фев в 07:52

Вопрос интересный. Скорее всего это условия рынка и двух крупных игроков на нём. Спрос на больший размер видеопамяти только только начинает увеличиваться. Игровая индустрия не сильно нуждается в больших объёмах. Ну и тут ещё есть нерешённый вопрос: стоит ли давать людям (массовому потребителю) доступ к локальному использованию больших моделей нейросетей.

Есть решения типа tenstorrent, которые только только развиваются в этом направлении. Но почему в модульность никто пока не идёт, непонятно…

@AlekseyPraskovin 18 фев в 08:55

Паяли бы память с небольшим запасом (на текущий день это 32гб плюс-минус), чтобы карты моментально не устаревали, и на том хорошо

Ага, щаззз. Гой должен покупать новую карту. В идеале раз в год

@ZirakZigil 19 фев в 06:08

И именно поэтому частота выхода новых поколений падает, а их относительная производительность очень быстро растёт.

@PjaniyAdmin 18 фев в 08:01

Были такие видеокарты в стародавние. На картах s3 были слоты под память.

@Rio 18 фев в 12:54

Да, была у меня на первом компе как раз S3 Triо с одним мегабайтом, и я покупал к ней второй мегабайт. Только смысла в этом тогда было не то чтобы сильно много — железо устаревало на порядок быстрее, чем сейчас. Вчера памяти добавил, а сегодня уже новый комп собирать пора.

@SilentBreeze 20 фев в 17:32

Зато мониторы много лет служили и большой монитор был хорошим вложением денег. А на видеокарте имеющиеся 2Mb видеопамяти позволяли использовать разрешение 1024х768 с частотой 85Гц, да и 2D-графика в разных графических программах отрисовывалась быстрее.

@CrashLogger 18 фев в 16:31

У меня была такая. Но купить эту память отдельно было невозможно. Только вытащить из другой такой же карты.

@Praksitel 19 фев в 11:47

И на циррусе.

@3aBulon 18 фев в 09:40

Лежит у меня такая видяшка, только памяти для кроватки не найти, наверное.

Да и зачем :)

@TxN 18 фев в 09:42

Объединенная память, как на мобильных устройствах и современных компьютерах Apple тем временем существует, и отлично работает.
Модульности и там тоже нет, но подозреваю, что скорее потому, что это банально не выгодно, гораздо выгоднее заряжать за лишние 16гб памяти х2 от стоимости устройства.
У нынешних PC модульная структура крайне устаревшая в фундаментальном плане, и давно требует переработки. Но договориться всем и сразу перейти на новый стандарт скорее всего нереально.

@DMGarikk 18 фев в 11:26

Объединенная память, как на мобильных устройствах и современных компьютерах Apple тем временем существует, и отлично работает.

Вы хотите сказать со современные компьютеры эппл равноценны по видеокарте отдельным видеокартам?

историю с объединением памяти придумали еще во времена AGP интерфейса и уже тогда уперлись в то что оперативка компа - штука тормознутая и такой подход используется только в ноутбуках, и дешевых интегрированных видеоподсистемах... а телефон..блин ну и пример ;)..прикинье, стационарному RTX -у надо чутьли не киловатт электричества, а современный айфон сколько ватт 20 жрет? явно ктото сговорился с энергокомпаниями ;))

@khajiit 18 фев в 12:22

современные компьютеры эппл равноценны по видеокарте отдельным видеокартам?

Из среднего сегмента, да.
При этом у них шина памяти до 512-бит.

@ZirakZigil 19 фев в 06:25

Да как-то не особо (первый комментарий). Ну если только не считать за средний сегмент младшие карты семилетней давности.

@khajiit 19 фев в 10:06

Так и встройки у разных M отличается как по вертиками (M1⇒M4) так и по горизонтали (Mn ⇒ Mn Max)
И производетность сырая, без DLSS-допинга.

@ZirakZigil 20 фев в 06:44

Обозначенный в комменте уровень 1080p@30 на ультрах без лучей и длсс это слабее 2060. Это где-то 1660 или 1650супер должно быть. Современный средний ценовой сегмент (а это, ввиду отсутствия нынче в линейках *050 моделей, будут 70 карточки) раза в 4 мощнее даже без примочек. Ну или в 3.5, если взять mX max, а не pro, как в комменте.

@khajiit 23 фев в 08:39

отличается как по вертиками (M1⇒M4) так и по горизонтали (Mn ⇒ Mn Max)

вздыхает а это было для кого написано‽

M3 Pro, 14 core

Прямо в заголовке и в теле заметки.
Это обрезок половинчика от MAX, естественно, он будет почти втрое медленнее.

@ZirakZigil 24 фев в 06:02

Ради бога, пусть х2 и 60фпс, это всё ещё уровень младшей карточки позапрошлого поколения, и всё ещё втрое слабее текущего среднего.

@khajiit 24 фев в 07:45

Два раза — это разница между 1050TI и 1070, например. То есть, между пред-топом и лоу-мидом.

И снова, вы сравниваете чистую производительность или метры с попугаями?

@ZirakZigil 24 фев в 09:30

Но ни 1050ти, ни 1070 не имеют отношения к современному среднему сегменту. Иначе можно сказать, что и м1 обычный тоже равен среднему поколению, просто нужно взять какую-нибудь гтх460.

И снова, вы сравниваете чистую производительность или метры с попугаями?

Что такое "чистая производительность"?

между пред-топом и лоу-мидом

Забудьте, уже нет такого количества карт (а конкретнее: хх30 и хх50) чтобы какие-то смежные уровни иметь. На примере предыдущего поколения (потому что нынешнее ещё целиком не вышло) есть:

4060 [ti] — младшая
4070 [ti/super] — мидл
4070 ti super, 4080 [super] — предтоп
4090 — топ

@khajiit 24 фев в 09:52

1050ти, ни 1070 не имеют отношения к современному среднему сегменту

А вот отношение производительности в указанных сегментах одного поколения остается примерно постоянным десятилетия.

Иначе можно сказать, что и м1 обычный тоже равен среднему поколению, просто нужно взять какую-нибудь гтх460

А вот это — ваши влажные фантазии, не приписывайте их другим.

Что такое "чистая производительность"?

Какая религия тиктокерам с памятью золотой рыбки запрещает поднять глаза и освежить контекст?

@ZirakZigil 24 фев в 10:32

А вот отношение производительности в указанных сегментах одного поколения остается примерно постоянным десятилетия.

За вычетом того, что хх50 теперь нету чтобы быть слабее в два раза хх70. И я всё ещё не понимаю, какое это всё имеет отношение к вопросу о том, сопоставим ли современный эппловский гпу современный мидловым дискретным гпу.

Какая религия тиктокерам с памятью золотой рыбки запрещает поднять глаза и освежить контекст?

Та же, которая запрещает ютубшортсерам иметь стабильную терминологию дольше двух комментариев подряд; в следующий раз производительность станет "грубой", поди? Но не суть, никакой эппловский гпу ни в каком виде не сопоставим современному среднему поколению.

@khajiit 27 фев в 12:58

За вычетом того, что хх50 теперь нету чтобы быть слабее в два раза хх70.

Еще недавно была.
Более того, выпуск менее производительных решений с отставанием в полгода-год, или выпуск переименованных старых продуктов под видом новых — обычная практика.
Если вам это мешает сделать оценку… ну, увы.

никакой эппловский гпу ни в каком виде не сопоставим современному среднему поколению, если оторваться от реальности и безудержно фантазировать свою терминалогию

Не благодарите.
Кстати, между этими двумя цитатами вы обвинили каджита в терминологической неконсистентности. Наглядная иллюстрация демагог первым кричит: "Ловите демагога!"

@Wendor 18 фев в 13:05

Прошел God of War на m1 pro в FHD с 30-40 fps. С учетом что там графических ядер не много + это все было через трансляцию x86-64 => arm. Для меня это стало крайне показательным экспериментом.

@Orisava 19 фев в 08:39

Стоило бы уточнить какой God of War ведь версию на PS от 2005го года вполне себе на M1 запускают

@Wendor 21 фев в 10:03

GoW 2018, который в 2022 релизнулся на PC.

@Javian 18 фев в 12:00

Выглядело бы это примерно так - с одной стороны память, а с другой стороны её греет GPU

@kenomimi 18 фев в 12:35

И так под современную видеокарту в прямом смысле костыль ставят, ибо не держится уже в слоте - а еще давайте память добавим планками и охлад к ней... Тогда два костыля подставлять надо будет.

@Javian 18 фев в 12:57

Будем вставлять матплату в видеокарту. От той матплаты почти ничего не осталось - фактически это блок питания для процессора.

Может надо пересмотреть конструктив и создать новые БП, которые выдают один вольт с кучей ампер и тогда можно будет и видеокарту и процессор, и память разместить на одной плате.

@Moog_Prodigy 18 фев в 13:14

Один вольт с кучей ампер выродятся в две толстенные медные шины, между которыми зажимается GPU, шины также будут являться радиаторами. И вот пожалуйста - конструктив как у тиристоров-таблеток. Понятие "шина" заиграет новыми "старыми" красками из электротехники =)

Куда только там материнку пихать...аа, пофиг, давайте оставшееся упихаем в GPU.

@Javian 18 фев в 13:29

Так оно уже примерно так и есть те самые "медные шины" - большинство пинов микросхем CPU/GPU это питание. Медная шина дешевле чем многослойная плата с теми же самыми шинами.

@DaneSoul 18 фев в 19:37

Тогда два костыля подставлять надо будет.

А в чем проблема? Пусть хоть десяток костылей для укрепления будет - один раз зафиксировал и забыл на несколько лет до следующего апгрейда, главное чтобы корпуса это учитывали и имели нужные крепления.

@mixsture 18 фев в 12:53

А может кто знает, почему бы не пойти по пути процессоров? У них есть L1, L2, L3 память. Каждая следующая медленнее, зато существенно дешевле и больше по объему.
Вот и в видеокарты можно притащить этот принцип: текущую встроенную максимально оптимально распаянную назвать L1, а заменяемая и расширяемая будет дальше по дорожкам, может быть даже с вынесенным контроллером памяти, но зато относительно дешевой. Это все равно может дать выгоду, т.к. является локальным кешем со скоростью передачи в разы выше шины PCIe и позволит хранить огромную часть ресурсов игры в ней.

@Javian 18 фев в 13:33

Виток истории. Когда на PCIE переходили с AGP, то утверждали, что теперь будет возможно сделать дешевые видеокарты без собственной памяти - GPU будет обращаться напрямую в память компьютера. С интегрированными так и стало.

@V1RuS 18 фев в 13:57

в видеокартах точно так же есть L1, L2 кэш, а возможно даже L3. И память.
PCIe 5.0 x16 дает порядка 60 ГБ/с, что сравнимо с одним каналом DDR5.

@mixsture 19 фев в 15:04

Так в ddr5 же возможны до 4х каналов. Что дает теоретически х4 пропускной способности (относительно загрузки данных из pcie), а это совсем не мало.
Вот в среднем между L1, L2, L3 у процессоров: каждая следующая в 5 раз выше про пропускной способности предыдущей. Вполне близкие цифры ускорения получаются: мы берем pcie и ускоряем доступ и скорость в 4 раза.
Дополнительные плюшки решения: раз данные лежат рядом и не требуют каждый раз прокачки через pcie и извлечения из обычной RAM, то мы меньше нагружаем CPU (в который сейчас перешли функции сев моста по доступу к памяти и управлению шиной pcie). А значит связка CPU-GPU становится менее зависимой друг от друга, что в свою очередь расширяет теоретический диапазон апгрейда в сценарии: берем старый процессор и ставим к нему новую видеокарту.
Выглядит очень неплохо.

@bezdnacom 19 фев в 16:43

Так в ddr5 же возможны до 4х каналов. Что дает теоретически х4 пропускной способности

И тут в игру вступает задержка, она же latency. Сравните по задержке DDR4 и DDR5

@khajiit 19 фев в 17:16

Эти 4 канала — половинной ширшины, задержки в нс такие же, как у предущего поколения (поначалу), никакой магии нет. Так что производительность растет исключительно за счет увеличения burst и частот передачи — и это не то, чтобы много, если вы не читаете/пишете последовательно.

@VADemon 18 фев в 15:34

Вместо маловероятных суждений о разъемах на самой плате, я подумал именно о PCIe DMA или (проприетарном) кабеле а ля SLI bridge, который бы соединял вставленный в слот рядом расширитель памяти. Но, учитывая маркетинг nVidia и их инженерные решения, они намеренно зарезают память как только могут. В первую очередь это коснулось объема памяти, которая даже обычным игрокам просадки дает в современных играх.

@Timick 18 фев в 14:20

Все указанные препятствия не являются не решаемыми.

Проблема в другом. Вот если Nvidia дала возможность расширять память на 4090 то никому бы не нужны были dgx, a6000 и т.д.

@DrGluck07 18 фев в 14:29

И NVIDIA такая: эти шлемазлы таки будут учить нас коммерции

@VADemon 18 фев в 15:36

Но HBM ещё менее совместим с модульностью, чем GDDR. Его нельзя заменить — только распаять на этапе производства.

Ну-ну, паяльщиков HBM -- в студию! Какой запрос надо ввести, чтобы на таких посмотреть?

@AlexeiZavjalov 18 фев в 16:01

Ну, на этапе упаковки процессорного модуля оно распаивается или на подложку или сверху на сам чип, я думаю речь об этом у автора статьи

@VADemon 18 фев в 16:51

Если бы остальная статья была нормальной, я бы не стал язвить (но теперь вижу и согласен, что перебрал).

В англоязычной литературе используется выражение "интеграция", даже если речь идет о microbumps. Но и в этом случае, это не распаивание и не припаивание, а спаивание (да, дотошный; bonding - см. ниже). Но задело меня не это, а то что microbumps дело не ограничивается (upd: плюс прямое сравнение в контексте с модулями GDDR-памяти). Высокопроизводительные interconnects полагаются на direct/fusion bonding; переведено здесь на русский как "прямое твердофазное сращивание".

@ahabreader 19 фев в 14:27

Это всё не важно, но...

В англоязычной литературе используется выражение "интеграция"

Это очень общий термин. Что-то с чем-то объединили - интеграция.

даже если речь идет о microbumps

О процессе соединения там не говорят, зато есть обычное "solder joint".

Но и в этом случае, это не распаивание и не припаивание, а спаивание

Разваривать микросхемы можно, а распаивать нельзя? Wire bonding в русском стал разваркой, а для пайки microbump'ов устоявшаяся терминология вряд ли есть.

спаивание (да, дотошный; bonding - см. ниже).

Вот, не интеграция, а "solder reflow", пайка оплавлением. Сухие документы говорят, что микросхема может быть распаянной таким способом ~~почти так же надёжно, как вилка лежит, тарелка стоит, а птичка сидит~~. Или вот: "said Doug Scott, senior vice president of wafer level packaging at Amkor Technology ... copper pillar bumps ... assembly reflow".

задело меня не это, а то что microbumps дело не ограничивается

Ну, внутреннее устройство HBM (соединение стеков) в рамках статьи не важно, про это не говорилось.

Хм, bonded joint - хороший термин. Соединённое соединение. По смыслу - что-то вроде неразъёмного соединения, но переводов в микроэлектронике не видно.

@VADemon 19 фев в 14:29

Плюсую.

@bezdnacom 18 фев в 16:04

Многослойные чипы уже лет 5-10 как делают массово

@Dimonogen 18 фев в 16:37

В названии статьи ошибка, модульная память была в видеокартах давным давно, корректнее сказать "почему современные карты не имеют модульной памяти". Кроме этого в самой статье неточности и ошибки. Например, что если сделать память модульной, то ухудшиться охлаждение. Что бредятина, так как из-за близкого расположения к GPU чипу охлаждение памяти страдает из-за наличие рядом мощного источника тепла, а если память будет далеко от чипа, то охлаждение выиграет, но вот задержки возрастут. И такие косяки по всей статье, потому что автор не удосужился её вычитать и перепроверить.

@0xC0CAC01A 18 фев в 17:47

А всякие экоактивисты куда смотрят? Ах да, им важнее, чтобы трубочки для коктейлей были из бумаги. А тонны электронного мусора с запланированным устареванием и ежегодная дойка потребителей - это для них слишком сложно.

А куда смотрят всякие европейские антимонопольные органы? Ах да, они же добились, чтобы все телефонные зарядки были USB-C...

@khajiit 18 фев в 18:04

И право на ремонт, о котором вы предпочли умолчать.

@0xC0CAC01A 19 фев в 12:19

Да, и это, конечно же, тоже. А ещё лучше законодательно сделать гарантийный срок на любую технику не менее 10 лет, в рамках борьбы с запланированным устареванием.

@khajiit 19 фев в 12:49

А вот это уже не всегда целесообразно.
Одно дело дома или авто, где типичный срок эксплуатации — десятки лет, и другое дело телефоны, которые сами по себе устаревают за несколько лет, а повышение ремонтопригодности приведет к экспоненциальному росту отказов из-за влаги.

@0xC0CAC01A 19 фев в 13:08

На дома надо требовать гарантию 20 или 30 лет, если не 50. А что изменилось в мире телефонов за последние 10 лет. В чём проблема выпускать новые версии Андроида для уже проданных телефонов? Ну и влагозащищённость тоже лешко достигается без ущерба для ремонтопригодности.

@ahabreader 19 фев в 14:58

Это может плохо кончиться. Создаст барьер для маленьких производителей (требовать 10 лет софтовой поддержки - отличный способ для Apple и Samsung разобраться с конкурентами), поможет экономике стран-конкурентов, которые таким регулированием заниматься не станут.

Если окажется, что покупатели всё равно хотят новый айфон и дольше пользоваться телефонами не начинают, придётся ударять по ним "утильсбором на телефоны", чтобы передумали.

Даже при хорошо работающей гарантии, думаю, покупателям с сильно выгоревшим за 9 лет OLED'ом будут отказывать. Покупатели прикинут остаточную стоимость устройства, величину судебных расходов и сделают выводы.

@0xC0CAC01A 18 фев в 17:57

И потом, вот у ноутбуков есть модульная память, целых два слота. В неё с завода воткнуты два по 8 гигов, а вот два по 16 туда ну никак не лезут, ну не поддерживает чипсет лишний битик в шине адреса, так получилось, ну чисто случайно, вот ведь беда. А если вдруг и поддерживает, то окажется, что таких вот модулей памяти на два по 16 гигов вот под эти разъёмы почему-то просто не выпускают. Ау, антимонопольные органы, как там у вас дела?

@khajiit 18 фев в 18:03

Звучит как типичный Intel )

@eimrine 18 фев в 19:32

А если вдруг и поддерживает, то окажется, что таких вот модулей памяти на два по 16 гигов вот под эти разъёмы почему-то просто не выпускают.

У меня так было с ноутбучным DDR2 на GM45: ноут купил в 2009, и через несколько лет появились 4Гб плашки, до этого события считалося что 2Гб+2Гб - максимально возможный объём памяти. И процессоры в поздней линейке "коры дуба" появились вдобавок к 35Вт/800МГц, 25Вт/1060МГц. Почему TDP меньше - там кажется был скачёк с 60нм на 45нм.

Идеальный сценарий, почему-то мне кажется что больше так не будет.

@NickDoom 18 фев в 22:05

На всякий случай напомню свою старую мыслю: «видеокарта-утилизатор», в которую вообще ставится не просто расширяемая память, а аж даже старая бучная память. Которая стала никому не нужна, потому что все буки под этот стандарт уже апнуты до максимума, а «не-максимум» ставить некуда и незачем.

И вот собирает она такой памяти, допустим, по 4 планки по 2 Gb на каждый из 4 GPU. Итого — 16 планок ценовой категории «на развес», в сумме — 32Г и 4 дохлых GPU (ну а какой ещё графический камень будет работать с устаревшей бучной памятью, как не самый дохлый), повязанные в одну Куду хитрым драйвером.

Да, играть на 4 раздельных камнях не особо получится, будет больше текстуры туда-сюда гонять, чем играть. А вот умножать-складывать, в принципе, вполне реально, если между камнями связь достаточно широкая для конвейера. И четыре дохлых вместе уже почти как один недохлый… И ширина шин 16 планок параллельно — уже совсем не ширина 2 планок… и 32Г памяти — тоже будь-здоров объём…

Да, тормозное, несмотря на всё на это, на вот всё вот это вот. Но если человеку поуху, ему 2 недели Лору обучать или 2 месяца, а ценник важен (и, тем более, если ему хочется сгенерировать большую картинку, требующую много памяти, и поуху, будет генерация 2 секунды или 30 секунд, потому что он это не в промышленных масштабах делает) — такая карточка явно его выбор.

Драйверу, правда, свой ИИ потребуется для того, чтобы Куду конвейеризовать на 4 камня :-D Который потребует ещё одну такую карту :-D :-D :-D Это её недостаток по сравнению с б/у Теслой, да. Но есть и достоинство — сильно древняя Тесла будет примерно той же производительности и цены, но электроэнергии будет жрать где-то раз в 8 больше :) да и памяти на такой древности не факт что столько есть…

@Rafriell 19 фев в 07:04

Секта свидетелей Врама процветает. А если серьезно, то достали со своей врам уже!! Тут в целом видеокарты не тянут нормально современные игры в нативе, а этим память давай, которая ФПС не изменяет даже. Ну понятно, больше памяти лучше нейронка работает, лучше майнинг. Корыстные хрены.

И добавлю, что дадут возможность врам увеличивать, поратишь ты на это тысяч 15, а толку и прироста никакого не увидишь. Почему? Потому что размер памяти не единственное узкое место в карте.

@Komrus 19 фев в 13:51

А что, видеокарты нужны для чего-то кроме майнинга и нейросетей? :)

@DiKey 19 фев в 13:13

Хех. А я как-то добавлял в видеокарту дополнительный мегабайт (если не ошибаюсь в объёмах, может, пол мегабайта) в моей S3 Trio 64V+. И в итоге, в тестах мог видеть 1024х768х32бита вместо гораздо меньших цифр. Красиво было!!!

Потом я еще долго говорил всем, что еще больше памяти не нужно, т.к. и пары мегабайт хватает для максимального разрешения и битности.))

@DMGarikk 19 фев в 13:16

ну в рамках тех лет, так и было, память видеокарты в целом то и использовалась для хранения буфера экрана...а какой смысл в 1920x1080x32 если такой монитор в те годы для простого смертного стоил как мост чугунный и был размером с полстола? а время ускорителей совмещенных с видеокартой еще не настало

@Partizan_161rus 20 фев в 05:24

Максимально глупая идея делать видео карты с возможностью расширения памяти. Какому-нибудь условному GeForce 2 GTS хоть 32Гб воткни, а если карта устарела то нужной производительности она с увеличением объема памяти не даст. Устаревают карты по совокупности характеристик.

@mikhashev 20 фев в 07:20

Согласен это как в 1080ti запихать 24 гигабайта памяти и сравнить с 3090 24 Гигабайтной. Т.е как минимум для задач инференса моделей технологии видеокарт должны быть близки. То есть тупо памяти воткнуть побольше не даст эффекта.

@mikhashev 20 фев в 07:46

Вроде уже писали в комментах. Но суть такая: если чип тот же GA102 может работать с 36 Гигабайтами по 3 ГБ на 12 каналов, а по факту имеем 2ГБ на 12 каналов. Сделано для того чтобы продавать проф версии карт, те же A6000 с 48 Гигами.

@Bardakan 20 фев в 12:53

вы мне тут подкинули идею - нейросетям же много памяти нужно. Что если подключить ssd вместо ram в соответствующий разъем?)

@ZirakZigil 20 фев в 13:07

Нужна не только память, но и пропускная способность. Даже самые быстрые ссд даже в теории отстают на 2-3 порядка от практических результатов, выдаваемых видеопамятью.

@ahabreader 20 фев в 15:25

Если (бы?) модель можно было разделить на части так, чтобы они использовались однократно и последовательно (первые 10 ГБ, вторые 10 ГБ...), то идея бы сработала. Только на видеокарту SSD ставить не надо, используем PCIe 5.0 x16 (63 ГБ/c) видеокарты и несколько SSD, чтобы получить ~30 ГБ/с (упираемся в PCIe-линии не-HEDT процессоров).

В общем, как если бы мы эти части грузили из RAM, но вместо RAM - дешёвая флеш-память (всё равно основное бутылочное горлышко - это PCIe-шина видеокарты).

С моделью на 300 ГБ и массивом SSD на 30 ГБ/с на перекладывание частей во VRAM тратилось бы 10 секунд. Гуглу известен некий llm pipeline parallelism, но я не в теме.

Если идею применить не к модели-на-видеокарте, а к модели-на-CPU, то массив SSD можно ускорить до ~100 ГБ/с (отдаём ещё 16 линий под SSD).

@bezdnacom 20 фев в 15:32

Поздравляю, вы придумали велосипед! GPU offloading чуть ли не с самых первых дней существует.

@ahabreader 20 фев в 15:36

Если это настолько велосипед, то я бы о нём услышал. Услышал бы "возьмите платформу AM5, два Gen5 SSD на 14 ГБ/с линейного чтения и поделите модель вот этой утилитой".

upd: если каждая часть видеокартой используется достаточно долго, то нам и скорость SSD не очень нужна. Лишь бы успевать загрузить данные из SSD в RAM, прежде чем видеокарте потребуется следующая часть. Потом отдавать из RAM, полностью насыщая шину видеокарты.

GPU offloading

Гугл мне отвечает про распределение нагрузки между CPU и GPU, а не про то, как избежать нужды в профессиональных объёмах VRAM.

@bezdnacom 20 фев в 19:31

распределение нагрузки между CPU и GPU

Не совсем. Слои, которые не влезли, сначала выгружаются в RAM, а потом, если и этого мало сливаются на диск и по мере необходимости идут в VRAM.

Лишь бы успевать загрузить данные из SSD в RAM, прежде чем видеокарте потребуется следующая часть

Прикол как раз в том что инференс memory-bound, вычисления там достаточно простые и упор идет именно в память/шину.

@ahabreader 20 фев в 19:37

Только сейчас заметил, что оговорился: "успевать загрузить ~~данные~~ следующий кусок модели".

@ahabreader 20 фев в 16:52

Я, повторюсь, совсем не в теме, но что-то здесь не так. Если бы этот "single GPU pipeline parallelism" хорошо работал, то не надо было бы гнаться за объёмом VRAM для инференса. В multi-GPU pipeline parallelism не съедается пропускная способность PCIe загрузкой частей модели, их не надо постоянно загружать. А если надо, то, видимо, это становится явным узким местом и смысл теряется.

@ahabreader 20 фев в 20:30

Почитал про FlexGen.

___

Пишут, что моя ошибка тут:

Если (бы?) модель можно было разделить на части так, чтобы они использовались однократно

Необходимо повторять процесс для каждого токена, они же зависят от предыдущих.

"For a 500 token reply you’d basically be loading the whole model, layer by layer, 500 times".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий