Pavel_Agafonov 11 мая в 10:00

Multi-GPU Rendering для игр жив?

Сложный

33 мин

6.4K

Разработка игр*Работа с 3D-графикой*Rust*

FAQ

+36

Комментарии 28

Jijiki 11 мая в 11:28

ну это по-сути 2 киловатта(или полтора или сколько ест 3060 к примеру а их 2) поправьте меня, ради того чтобы без идеальных 16.6 не увидеть даже 6000 на вулкане, так же поидее изза подхода на 16.6 вы включали новую поддержку отрисовски на Вулкане например mailbox? при одном из них(FIFO или mailbox) будет прирост до той точки какое может дать железо

так же есть технология наниты и глобал иллюм и меш шейдинг, и интересно как ваш подход влияет на разгрузку 3д анимаций при вулкане мы можем клеить все обьекты видемые в 1 чанк(условно в 1 кусок памяти статичный)

и еще такие моменты как интрисинки получается процессор нужен всё таки хотябы выше нижнегосреднего

тоесть можно тестировать на кубиках это быстрее по развертыванию, но реализация кубического мира сама по себе основана на кусках или 1 куске тоесть на 1 карте тестовый мир из кубиков на С++ будет летать в этом и прикол при сравнении с планарным подходом, значит можно приблизиться к чанкованной отрисовке( тоесть отрисовка индексируемых планарных квадрантов с статичными обьектами относительно позиции камеры )

vicsoftware 12 мая в 11:24

Что я сейчас прочитал? Шизофазия какая-то.

И нет, 3060 не ест 2 киловатта. От силы 200 Вт. У вас ошибка на порядок.

malyazin_2010 11 мая в 11:47

У меня есть пк с тремя дискретными вилеокартами + встроенная графика. В моих задачах 3 видеокарты работают в три раза быстрее, чем одна. Подключение к работе еще и встроенной графики особо результат не улучшает, поскольку встроенеая графика слишком слабая по сравнению с видеокартами. Мой конфиг тут: https://habr.com/ru/articles/896454/

rutexd 11 мая в 12:03

Тут другой вопрос - а зачем? Что бы все еще быстрее летало?

Современные карточки очень мощные, могут намного больше чем "много" операций производить за условный такт. Даже средне бюджетные или встроенные уже далеко не самые плохие, как может показаться.

Решать надо не проблему мощностей а проблему оптимизации, которой никто не хочет заморачиваться. Учить дизайнеров эффективно рисовать \ моделировать и программистов писать эффективный код. Вместо этого, у нас (псевдо)2д стратегии которые на минималках выдают 10-15 фпс - потому что дизайнер решил что проще обмазаться шейдерами чем потратить условно неделю-месяц на нечто более оптимальное - или накидал 500 текстурок, моделек и еще кучу эффектов в один файл облака лишь бы облако выглядело естественно, когда какой нибудь средний шутер вполне себе уверенно работает на средних на том самом встроенном железе и по графике практически не отличим от передовых "ыыыы" шыдэвров.

В качестве эксперимента - интересная статья, в качестве весьма интересного потенциала использования даже двух GPU - боже упаси. Когда нибудь вопрос 2 карточек может быть и станет актуальным но сейчас точно не то время.

з.ы. речь про геймгев.

Jijiki 11 мая в 12:08

могу больше сказать на ГЛ1(thecplusplusguy если интересно ) ) стартовый плохой не оптимизированый с кое какой анимацией (из obj) в отрисовке по list(он пока наибыстрейший на нвидии покрайней мере на низах 10 серии) на лоу карте летит по рендеру, тоесть если добавить 1 кусковые планарки(не лист, а Buffer отрисовка с только нужными шейдерами) в нужных масштабах на местность можно пока еще даже на такой железке рисовать индексируемый мир. (там придётся только понять как ускорить скелетную анимацию)(и оффлайн расчет невидимых анимационых движимых-говорящих обьектов, чтобы при входе в их зону взаимодействия с ними видеть обновленные состояния, тоесть движимые обьекты принадлежат каким-то квадрантам а квадранты - чанки статичных моделей)

Pavel_Agafonov 11 мая в 12:44

Тут другой вопрос - а зачем? Что бы все еще быстрее летало?

Дополнительные миллисекунды для бюджета кадра лишними не бывают.

Решать надо не проблему мощностей а проблему оптимизации, которой никто не хочет заморачиваться. Учить дизайнеров эффективно рисовать \ моделировать и программистов писать эффективный код. Вместо этого, у нас (псевдо)2д стратегии которые на минималках выдают 10-15 фпс - потому что дизайнер решил что проще обмазаться шейдерами чем потратить условно неделю-месяц на нечто более оптимальное - или накидал 500 текстурок, моделек и еще кучу эффектов в один файл облака лишь бы облако выглядело естественно, когда какой нибудь средний шутер вполне себе уверенно работает на средних на том самом встроенном железе и по графике практически не отличим от передовых "ыыыы" шыдэвров.

Согласен. Сейчас современные игры без DLSS не вывозят стабильный и высокий фреймрейт.

rutexd 11 мая в 14:02

Согласны то вы согласны - только абзацем до вы свое согласие сводите на нет, рассказами о том что 2 гпу это решение.... Если сейчас все начнут требовать 2 гпу для очередной даже не ыыыы подделки, это будет мягко говоря победа мракобесия. Миллисекунды надо искать не посредством 2 карточки а посредством оптимизаций.

Pavel_Agafonov 11 мая в 15:41

что 2 гпу это решение....

Я нигде не утверждал, что это решение всех проблем. У меня был гипотеза "Перенос рендера Cascaded Shadow Maps на вторую видеокарту может увеличить производительность". Я реализовал прототип и подтвердил свою гипотезу.

Если сейчас все начнут требовать 2 гпу для очередной даже не ыыыы подделки, это будет мягко говоря победа мракобесия.

2 гпу - это не требование, а опция. Условная галочка в настройках "задействовать вторую видеокарту" для систем, где несколько видях.

Миллисекунды надо искать не посредством 2 карточки а посредством оптимизаций.

Оптимизации могут быть разные. В данном случае это перенос рендера теней на вторую видеокарту. Если это не оптимизация, то, по вашему мнению, использование нескольких ядер ЦПУ не является оптимизацией?

Jijiki 11 мая в 19:15

тут есть нюанс игра не сцена 1, а несколько, основная нагрузка будет не на тенях а на анимациях и движимых обьектах тоесть физике, тоесть буквально как падает дождь(он же не будет падать на сквозь здания), и как происходит взаимодействие через действие, которое постоянно оппонируется зацикленной анимацией

анимация пока самая ходовая нагрузка, конечно если без анимаций, только сцена, то тени для сцены можно ограничить радиусом, в конечном счете тени можно отрубить оставив AO

в итоге нагрузка будет на физических бросках + анимация + частички

и скопление евентов

ну и чутка тумана, ну а если все технологии разворачивать то не знаю

пак мобов 40 штук с анимациями да если еще бегут, в дефолте двигаются

Alex-Freeman 11 мая в 13:54

Потому, что к примеру 2*4090 смогли бы вывезти Alan wake 2, Wukoong и тд, даже если прибавка была только 30-40%, которые 5090 не вывозит без ухудшайзеров. При этом стоили бы меньше.

Arty_Fact 12 мая в 12:07

Жаль только 4090 нынче стоит те же 3к, что и 5090

Alex-Freeman 12 мая в 13:46

Смотря где, мне периодически попадаются на вторичном в районе €1000. Ну и вариант был бы для тех кто ранее купил карту и хочет улучшить производительность не покупая новый топ

orekh 13 мая в 04:00

По мне так одни плюсы, если бы использование множества GPU поддерживалось играми и софтом.

Во-первых автор пишет про задействование простаивающего кремния, про встройку. Так что убытка тут нет по определению.

Во-вторых, с увеличением частоты отдельного процессора его энергопотребление растёт нелинейно, а чуть ли не в третьей степени. Потому если есть возможность размазать нагрузку ровным слоем, то это нужно делать если не ради снижения потребления электроэнергии, то хоть ради снижения шума от системы охлаждения. Другое дело, что это не всегда получается, о сложностях эта статья и пишет.

И прочие фантазии, денежные. На топовые видюхи наценка больше всего и если была бы возможность подкинуть вторую средненькую карточку вместо покупки дорогой, то это выгодно. Старые карточки бы оставались актуальными. Использование карт разных вендоров опять же не дало бы Нвидии давить конкурента отдельными фишечками.

Loco2k 11 мая в 16:11

Возможно ли мульти ГПУ для VR? Рендерим на каждой карте отдельный глаз. Сцена и движение камеры почти идентичны ведь.

Pavel_Agafonov 11 мая в 17:52

Да, возможно. Я встречал работы, которые как раз этому посвящены. Только для VR понадобятся видеокарты с одинаковой производительностью.

arheops 11 мая в 16:50

Количество людей, что купят себе вторую видиокарту - минимально.

Потому оно не стоит того

Pavel_Agafonov 11 мая в 17:57

Связка дискретная + интегрированная видеокарта встречается не мало. Наибольший прирост популярности и самая большая доля использования среди GPU за последний месяц у NVIDIA GeForce RTX 4060 Laptop GPU. https://store.steampowered.com/hwsurvey/directx/?sort=chg

arheops 11 мая в 18:22

Тут сложно. Смотрите. Очень немого компьютеров в внешней видокартой расчитаны по питанию на ОДНОВРЕМЕННОЕ использование обоих.

Многие конфигурации расчитываются с минимальным зазором. Тоесть ваша игра может ломать системы, сжигать PSU

И да, в ноутах с 4060 тоже не расчитано.

Loco2k 11 мая в 18:00

Мульти ГПУ для рендеринга у Нвидиа есть для проф использования. Например две rtx8000 с мостом nvlink тащат сцену на 96гб памяти. Только вот потом nvlink для таких карт убрали, а разрабы предлагают гонять данные по pcie.

Не проверял, но думаю что поддержка в каком-то виде таки осталась. Я именно про рендеринг в реальном времени.

Javian 12 мая в 08:03

А как изменится производительность, если подсунуть этой игре DXVK, чтобы вместо DX12 работал Vulkan ? Некоторые игры у меня не выносили такой подмены, например GTA V или Feed and Grow.

Pavel_Agafonov 12 мая в 09:42

Мое предположение, что производительность будет +- такой же.

К сожалению, не разбираюсь DXVK экосистеме, но я пробежался по vkd3d и vkd3d-proton и понял, что прототип не запустится на vkd3d, так как отсутствует реализация функции d3d12_device_OpenSharedHandle, которая используется в моем коде.

В vkd3d:

static HRESULT STDMETHODCALLTYPE d3d12_device_OpenSharedHandle(ID3D12Device9 *iface,
        HANDLE handle, REFIID riid, void **object)
{
    FIXME("iface %p, handle %p, riid %s, object %p stub!\n",
            iface, handle, debugstr_guid(riid), object);

    return E_NOTIMPL;
}

В vkd3d-proton есть реализация, но только для Windows.

vikky13 14 мая в 06:51

Интересно, каким инструментом получены Диаграммы распределения времени на двух видеокартах? Хочется понять, чего именно ждет GPU -может, данных из памяти (независимо от второй карты) или вообще окончания чего-то на CPU?

Pavel_Agafonov 14 мая в 07:19

Интересно, каким инструментом получены Диаграммы распределения времени на двух видеокартах?

С помощью ID3D12QueryHeap я ставлю временные метки (timestamps) на GPU, потом пытаюсь прочитать полученные результаты. Эти результаты отправляю по TCP программе-бенчеру, которая выполняет вычисления средних значений. После сохраняю это в CSV-формате и импортирую в Excel.

Хочется понять, чего именно ждет GPU -может, данных из памяти (независимо от второй карты) или вообще окончания чего-то на CPU?

Не понял вопроса.

vikky13 14 мая в 07:55

Спасибо. Жаль, что нет более продвинутого инструмента для профилировки.
По второму вопросу - Самый большой интервал GPU0 - это Wait on GPU1. Как установлено, что это именно GPU1 ожидается? Между какими событиями (метками) это время?

Pavel_Agafonov 14 мая в 08:52

В DirectX12 помимо общей кучи (ID3D12Heap) можно сделать общий фенс (ID3D12Fence). Его могут сигналить и ожидать другие GPU.

Автор в своем коде ставит метки для разных рендер-проходов. У него есть проход с копированием ресурсов, в котором происходит синхронизация двух очередей из разных видеокарт и само копирование. То есть он ставит метку до самой синхронизации и метку после копирования.

vikky13 19 мая в 14:57

Спасибо! Тогда непонятно, что странно в графике ожидания. Если одна карта явно ждет другую, то просто такой алгоритм разделения работы - не самый оптимальный.

Pavel_Agafonov 19 мая в 15:34

Если одна карта явно ждет другую, то просто такой алгоритм разделения работы - не самый оптимальный.

Автор тоже приходит к такому выводу и демонстрирует асинхронный подход, но почему-то на графиках также присутствуют "Ожидание GPU0 другой GPU1". Мне это не понравилось, потому что у себя в реализации у меня никакого ожидания: рендеринг карт теней и передача полученной текстуры происходят асинхронно. Я могу посчитать отдельно сколько что занимает, но в общее время кадра оно не входит.

svkozlov 14 мая в 15:50

интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий