dalerank 18 июл в 00:17

И целых 20 ядер мало

Простой

27 мин

18K

Высокая производительность*Ненормальное программирование*Программирование*C++*Разработка игр*

Ретроспектива

+76

Комментарии 52

ChizhM 18 июл в 00:36

Бенчмарки это все здорово... а в реальной жизни 6 ядер 3.7Ггц дадут больший комфорт в работе, чем 20 ядер 2.6ггц, хотя попугаи будут говорить нам что второй быстрее в 3 раза.

+10

voldemar_d 18 июл в 07:19

20 ядер 2.6 ГГц - это какой-нибудь Xeon? Кто мешает вместо него поставить Extreme Edition, у которого частота ядер выше, а стоимость примерно такая же? А еще есть AMD Epyc, там 24 ядра (настоящих, не виртуальных) не так уж дорого стоят.

VBDUnit 1 авг в 23:06

Есть Xeonы с достаточно высокой частотой. Но вообще — чем больше ядер, тем ниже частота.

Проведу аналогию с автомобилями:

Мало ядер, высокая частота — быстрая, отзывчивая и лёгкая Феррари
Много ядер, низкая частота — неторопливый 300-тонный карьерный самосвал

voldemar_d 2 авг в 01:08

чем больше ядер, тем ниже частота

Смотря сколько ядер. Бывают 10-ядерные процессоры, частота ядер которых выше, чем у 4-ядерного.

неторопливый 300-тонный карьерный самосвал

Нет здесь прямой аналогии. Процессор выполняет вычисления. У многоядерного процессора могут быть наборы инструкций, позволяющие выполнять вычисления быстрее, чем процессор, у которого меньше ядер, и не имеющий таких наборов инструкций. У них могут быть разные объемы кэшей и прочие факторы, влияющие на скорость вычислений.

kenomimi 18 июл в 07:50

Смотря где и в какой работе. Если сидеть часами в одной эксельке, играть или гыгыкать над котиками в ютубе, то да, нужно пару ядер и выше частоты.

А если работать, когда запущена идея, эклипс, что-то фоном собирается в локальном гитлаб-раннере, ты в это время дебажишь, еще в это же время открыто 10-20 активных вкладок, дока в редакторе, еще поднято всё тестовое рабочее окружение (которое влезает в 256 гигов оперативки, конечно) ... - вот тут 20-40 ядер вне конкуренции. Ах, да, это только одна виртуалка - а их 3 на машине-хосте - одна с виндой, одна с текущим дебианом, и одна с астрой, чтобы тестировать совместимость клиента со старыми дистрами - все три имеют свою видяху и объединены в единый рабочий стол посредством barrier. И все это работает без лагов и фризов. На десктопе такое нереально собрать (или конски дорого), только на серверном железе.

dartraiden 21 июл в 09:29

Ну, сами считайте, если у вас будет солюшн в VS собираться в разы быстрее, даст вам это больший комфорт или нет. Особенно учитывая, что солюшн может легко собираться несколько десятков минут.

Или, например, мне нужно запускать одновременно пару (а то и тройку) клиентов онлайн-игр, при этом в фоновом режиме работает виртуальная машина (с совсем другой задачей, не относящейся к играм). На 6 ядрах это будет совсем-совсем впритык, отчего я в своё время и брал топовый 8-ядерник.

bfDeveloper 18 июл в 01:01

Всё, указанное в статье, несомненно верно и полезно. Только реальная причина тормозящих игр скорее не в кэшах, а в культуре разработки, которая приводит к большим алгоритмическим ошибкам, как было в GTA Online с квадратичным чтением текстового файлика.

Игры оптимизируют по параметру цены разработки и по возможности сделать рекламный ролик, а не по реальным FPS у игрока.

+11

BugM 18 июл в 02:26

А кто мешает вылизать движок и рендеринг сеньорами и отдать написание разбора конфига стажеру? Ну кто сможет запороть задачу разбора конфига если тесты есть и они нормальные?

VBDUnit 1 авг в 23:08

А кто мешает вылизать движок и рендеринг сеньорами и отдать написание разбора конфига стажеру?

Жадность. И вообще, в нынешних конторах, судя по результату, принято другое вылизывать

Avangardio 18 июл в 01:20

Хорошая статья. Когда увидел про физику в 30 фпс, вспомнился элден ринг с его жестким локом на 60фпс с привязанными фреймами того же парирования 🙈.

Starl1ght 18 июл в 02:18

Японцы никогда не умели в программирование хорошо.

oficsu 18 июл в 01:36

и использование таких операндов приводило к тяжеловесным ассемблерным инструкциям приведения типов от одного к другому

Только вот в современном мире почти везде используются two's-complement-числа, для которых это приведение типов — no-op. И, вероятно, бенчмарки показывают такую разницу не из-за разности типов, а из-за, собственно, unsigned, код вокруг которого, предположительно, хуже поддаётся оптимизации из-за допустимости его переполнения с точки зрения стандарта (в отличие от signed, переполнение которого не определено стандартом)

dalerank 18 июл в 01:49

Совершенно верно, дополнительный код сильно упростил логику cpu, в случае беззнаковых типов переполнение вызывает возврат к началу численного диапазона, для знаковых технически поведение программы не определено, но в с/c++ зачастую происходит также возврат. Это мешало, и мешает и будет мешать, приводя к ошибкам, ловить такие ошибки хочется но дорого.

oficsu 18 июл в 02:05

Я просто пытался сказать, что содержимое заголовка и текста абзаца не вполне соответствует бенчмарку (ибо дело не в согласовании signed/unsigned, а конкретно в unsigned, код с которым, предположительно, окажется медленнее, даже если везде будет unsigned)

beeruser 18 июл в 05:35

func_signed_signed(int): # @func_signed_signed(int)

mov eax, 10

ret

func_unsigned_signed(int): # @func_unsigned_signed(int)

xor ecx, ecx

cmp edi, -10

mov eax, 10

cmovae eax, ecx

ret

Ваш цикл кстати превращается в... ничто.

использование таких операндов приводило к тяжеловесным ассемблерным инструкциям приведения типов от одного к другому.

О каких тяжеловесных инструкциях идёт речь?

Таких инструкций просто не существует, т.к. делать ничего не нужно.

Есть только инструкции расширения знака (extsb,extsh,extsw). Двухтактовые, как и любые простые ALU операции.

Единственный косяк PPE в этом плане был в том, что знаковая загрузка из памяти с расширением знака (lha, lwa) делалась микрокодом, который блокировал конвейер на пару десятков тактов, поэтому компилятор пихал пары lwz / extsw.

Starl1ght 18 июл в 02:14

При том, что все эти 30 — 60 — 120 — 200 фпс в играх, это чисто маркетинговый показатель, это время с которой движок может создавать фреймы для видеокарты, но движок это не только картинка, есть физика — а она как работала на 30 фпсах 10 лет назад, так и работает.

Что за чушь. Разница между 30 фпс и 120 фпс очевидна даже человеку, который первый раз сел играть в компуктерн. Да и тикрейт в онлайн дрочильнях уже давно 120\с всюду.

oficsu 18 июл в 02:18

Простите, а где вы увидели в тексте заявление о том, что эта разница незаметна? Там написано совсем не это

Starl1ght 18 июл в 04:17

Когда пишется "чисто маркетинговый показатель", подразумевается что это буллшит. Это не буллшит.

oficsu 20 июл в 00:49

Давайте я переформулирую мысль из поста:

Картинка в 200 фпс в играх не являются достаточными условием для плавного геймплея, поскольку для него нужна ещё и обработка физики с высокой частотой

И под "чисто маркетинговый показатель" подразумевалось именно несоответствие одного другому, поскольку этот показатель не может отобразить плавность/комфорт игры в отрыве от частоты обработки физики, который не указан. И такие показатели как раз и принято называть "чисто маркетинговыми"

Вы же, прочитав текст, не вникая в его смысл, сформировали у себя в голове почти противоположный тезис "картинка в 200 фпс в играх не являются необходимым условием..." и оспариваете его, хотя он заявлен не был автором

Starl1ght 20 июл в 04:54

Я может чего-то не понимаю, но кадр в игре строится после обновления мира. Я не верю, что есть какая-то логика "Ровно 30 раз в секунду обсчитываем физику, а кадр рисуем 200 раз в секунду".

Конечно можно обсудить фреймген типа DLSS3, но там этого нет.

-1

dalerank 20 июл в 12:06

Про физику вот тут написано хорошо https://www.google.com/amp/s/habr.com/ru/amp/publications/801479/

Кратко, время графического фрейма плавает, один фрейм 14 второй 18, в среднем 16 получим. Человек этого не замечает, картинка плавная, но если вы попробуете на таких качелях стимулировать коллизии то получите, что объекты пролетают друг в друга, или пули пролетают сквозь стены. Поэтому физике в играх больше важна стабильносмть, т.е. симуляция системы на стабильных 30фпс будет более достоверной чем на нестабильных 60 или 100

dalerank 18 июл в 02:46

Внутри все работает без привязки к фпс, иначе мы будем иметь кучу проблем с подсистемами игры, все апдейты идут с delta time. Если отработали раньше времени сл фрейма, то просто ждём его наступления, но обычно все немного сложнее, в конце текущего фрейма можно считать части следующего, будущие анимации, грузить текстуры, считать сл фрейм физики. Тикрейт больше относится к сетевой части, обычно это показатель количества пакетов пришедших от сервера, он конечно связан с рендером, физикой и др, но опосредованно, конечно разница будет, попробуйте построить кривую по 3 точкам и по 60. в играх также применяется симуляция наперёд, а когда приходят реальные данные они апроксимируются на уже вычисленные значения.

fen-sei 18 июл в 14:43

При том, что все эти 30 — 60 — 120 — 200 фпс в играх, это чисто маркетинговый показатель, это время с которой движок может создавать фреймы для видеокарты, но движок это не только картинка, есть физика — а она как работала на 30 фпсах 10 лет назад, так и работает.

Ещё на первых чемпионатах Quake, чтобы выполнять все трюки требовался FPS выше 100, и чем выше тем, лучше, а высокий FPS даёт ощутимые преимущества в бою против человека.

voldemar_d 18 июл в 07:21

есть физика — а она как работала на 30 фпсах 10 лет назад, так и работает

А почему физика до сих пор на 30 fps работает? Её невозможно дальше оптимизировать?

И по поводу загрузки уровня в редактор за 5 минут вместо 8 - как-то все равно сурово. Откуда такие жуткие времена? Графика для текстур долго грузится, объемы данных большие?

Я это к чему: если, например, поиск в каких-то контейнерах при загрузке долго производится, может, для ускорения поиска дополнительно какие-нибудь map добавить, пусть даже при некотором увеличении объема памяти? ИМХО, в редакторе экономия памяти менее важна, чем в самой игре.

lgorSL 18 июл в 15:36

Физику можно и чаще считать, в автосимуляторах видел цифры порядка 400- 1600 шагов физики в секунду.

Но в остальных играх высокая точность не сильно нужна, достаточно чтобы оно выглядело более-менее правдоподобно.

dartraiden 21 июл в 09:39

Физику можно и чаще считать, в автосимуляторах видел цифры порядка 400- 1600 шагов физики в секунду.

Только это поставит CPU на колени. Я ради интереса на днях включил физику в настройках игры 2011 года. Игра честно предупредила, что ни выделенной железки для обсчёта физики, ни видеокарты NVIDIA с поддержкой PhysX, не обнаружено и начала тормозить так, что играть стало абсолютно некомфортно.

beeruser 22 июл в 05:00

Только это поставит CPU на колени

С чего бы? Вы тёплое с мягким не путайте. Речь о физике автосимуляторов, а не о PhysX.

Физику 300-400Hz легко тащит jaguar на превген консолях. И ничего там не тормозит.

Assetta Corsa - 333Hz

Forza Motorsport 8 - 360Hz

Colin McRae: Dirt - 1000Hz (игра 2007г)

iRacing

https://www.iracing.com/physics-modeling-ntm-v7-info-plus/

11) What is the sampling rate of your physics model?

360 Hz, is the short answer. But we calculate forces twice per update step, so we do player tire force calculations at least 4x2x360 = 2880 times per second. More if some of the tires are contacting multiple surfaces (i.e. curbs). We use IEEE floats.

dalerank 18 июл в 15:55

В редакторе (возьмите что Юнити, что Анриал) все объекты, их свойства, зависимости, ссылки хранятся в виде текста, оно нечитаемое (ну т.е. читаемое конечно, но не для человека), собственно загрузка и обработка этих данных требует прилично так времени, описание объектов на одном слое занимает под 100мб, таких слоев на уровне под 50 и больше (каждый дизайнер работает на своем слое), чтобы не мешать соседям. Можно конечно хранить это все в бинарном виде, но профит не особо большой, а проблем с поддержкой своего формата намного больше. 5 минут это очень быстро, поверьте, загрузка большого уровня в Unreal спокойно улетает за 15 минут

ffs 19 июл в 01:01

В современных играх физика чаще всего настолько рудиментарна, что и 30 фпс хватает

kia00000 18 июл в 12:46

Имхо все эти игры дуракавалянье. Потому москвичей и ненавидят. Предлагаю для отрезвления использовать 486. Некоторые за всю жизнь кроме экрана ничего не видели, молодежь не умеет писать по русски, и это длится годами.

-17

GuessWho 18 июл в 15:28

это бейт какой-то или вы серьезно сейчас?

voldemar_d 18 июл в 18:03

В Вашем сообщении не хватает одного тире, одного дефиса и четырёх запятых.

kterik 20 июл в 13:39

Одна запятая после «Имхо», две для обособления «кроме экрана», а четвёртую запятую куда?

voldemar_d 20 июл в 14:50

Потому. Дальше спорно, но можно ещё и "для отрезвления" окружить запятыми.

kterik 20 июл в 14:53

В предложении «Потому москвичей и ненавидят» не нужна ни одна запятая.

orefkov 19 июл в 11:51

Что-то нативный strlen у вас как-то плохо работает. Вроде как в современных рантаймах он по самое не могу оптимизирован. Очень странно. В clang там вообще вроде интринсинк '_builtin_strlen' подставляется.

dalerank 19 июл в 12:12

Msvc 19.2.xxx, xbox rel, /Ox, на кланге не такой разрыв, но тоже в пару раз выигрыш. Интринсики есть не для всего, хороший суммарный выигрыш получается при переводе всех функций. Сейчас посмотрю на quickbench другие компилирены.

orefkov 19 июл в 12:26

Спасибо. Хотелось бы ещё узнать, как поменяется результат бенчмарков, если длину строки считать не с 0, а с первого символа, т.е. если начало строки гарантировано не выровнено по 16 байт.
А во флагах компиляции указывали использовать SSE?

dalerank 19 июл в 12:53

На боксе/плойке всегда sse включён, без него сдк не собирается уже лет 7 гдето.

dalerank 19 июл в 12:53

Del

Panzerschrek 21 июл в 09:56

На счёт тригонометрических функций: видел в свежих версиях clang оптимизацию, когда они вычисляются во время компиляции, если аргументы - constexpr значения.

dalerank 21 июл в 10:04

Это ещё должно поддерживатья в культуре разработки, если код рассчитан на рантайм вполнение, то никакие оптимизации не помогут. На текущем проекте выносили константы около года, и только сейчас стала видна разница на времени работы в рантайме.

Panzerschrek 21 июл в 10:09

На счёт смешанных вычислений float/double: а зачем вообще нужен double в играх? Его точность для них как правило избыточна. Так что лучше его сознательно нигде не применять, а случаи вида *= 2.0 отлавливать предупреждениями компилятора с рассматриванием предупреждений как ошибок.

Onito 21 июл в 10:22

Недавно на хабре была статья о разработке эмулятора солнечной системы в натуральных размерах и там пришлось очень много хитростей придумать чтобы решить проблему с недостаточной точностью флоатов. И автор в одном месте пишет что-то вроде " понятно зачем в движках есть возможность использовать даблы". Хотя ситуация конечно очень специфичная но тем не менее

Panzerschrek 21 июл в 10:14

Применение фильтров и поиск объектов на сцене становится затратной задачей и занимает секунды реального времени

Вот чтобы избежать такой проблемы был изобретён подход ECS. В нём компоненты разнородных объектов хранятся последовательно, что улучшает кеш-локальность при выполнении алгоритмов с перебором определённых компонентов.

dalerank 21 июл в 12:50

У ecs куча других проблем, которые не перекрывают профит от скорости, например необходимость переобучения коллег, физическое разделение данных и логики, лавинообразный рост зависимостей между системами, неявные зависимости, которые приходится костылить, постоянное активное перемешивание кеша, невозможность отладки в студии, надо писать свои дебагеры, еcs непереносимы между проектами за исключением самых простых кейсов. Хорошо сделаный сценграф не сильно уступает по перфу. У каждого подхода есть свои плюсы, зачем тащить в движок неоптимальную вещь ради прозрачных 10% перфа. Вы пока этих процентов добиваетесь потратите время, которое бы ушло на разработку игры.

dsshubin 21 июл в 23:32

Самые лучшие и важные оптимизации - алгоритмические. Они могут дать прирост и в разы и на порядки. О чём очень кратко и незаслуженно мало сказано в последнем абзаце. Много раз встречался, когда для программистов оптимизация - это только вот эти технические приёмы, но это не так. Они способ выжать последние проценты.

aakhamef 2 авг в 23:34

Статья очень интересная, но при чём тут это?

загружаемые 100 гигабайтные игры

Основной объём игр — ассеты. Да, они могут быть лишними, забытыми и т.д. Но если вы хотите, грубо говоря, две рубашки персонажу вместо одной, придётся добавить текстуру второй рубашки, что уыеличит объём данных. Я, конечно, играл в .kkrieger, но это как-бы совсем не то, о чём разговор

dalerank 3 авг в 00:02

Чем больше размер данных, тем дольше они грузятся. Проблема "двух рубашек" давно уже не стоит, для текстур давно есть инструменты, которые оставляют только изменения. А вот проблема уникального генеративного контента, например из Houdini есть, два одинаковых с виду камня сделаные в этом прекрасном инструменте, без сарказма, имеют разную геометрию, разные текстуры, разные нормали, которые тулзами практически не унифицировать.

BugM 3 авг в 00:36

Эта проблема тоже решена. Не надо хранить сгенерированные штуки. Надо их генерировать на лету. Есть проблема скорости генерации, но она решится сама собой со временем.

dalerank 3 авг в 00:52

Тогда никакой видяхи не хватит, генерированный контент только в демках хорошо выглядит, и чтобы инвесторам картинку продать. В прод такое пускать себе хуже сделаете, пока консоли не шагнут за 32гига видео памяти а то и больше, даже смысла нет пускать что-то генеративное в игры.

BugM 3 авг в 02:17

Это уже дело техники. Видяхи нормально развиваются. Инвестиции в развитие (спасибо нейросеткам) офигенные. Несколько лет и вероятно все будет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

И целых 20 ядер мало

Комментарии 52

Публикации

Истории