Комментарии / Профиль uxgen / Хабр

Андрей@uxgen

фрилансер (c++, vulkan, оптимизация)

0,1

Рейтинг

Подписчики

ПрофильСтатьи1ПостыНовостиКомментарии173

Виртуальность в 2026 году: перспективы монетизации и тренды

uxgen 7 мая в 14:01

Только VR теперь без XXX не работает, даже PICO не хочет обновляться, а платежи еще до блокировок не принимали.

Я сделал приложение за вечер без навыков программирования. Зачем теперь разработчики?

uxgen 5 мая в 10:21

Чем теперь будут заниматься разработчики?

Писать код, который не поймет ИИ. У меня например куча асинхронщины, подписки на события и тд, разобраться в этом можно только с самодельным визуальным отладчиком. А если еще почаще кидать исключения и ловить их на глубине в 10-20 вызовов, то вообще никто не разберется, что там происходит.

Операторы сообщили об отключении интернета и SMS в Москве и Санкт-Петербурге с 5 по 9 мая

uxgen 5 мая в 09:01

Стоит с телефона в дефолтном браузере поискать кухни, так сразу раздается звонок с предложениями. А тут БПЛА от обычного пользователя все никак не могут отличить.

Минпромторг РФ исключил из перечня товаров для параллельного импорта ПК и запоминающие устройства ведущих производителей

uxgen 4 мая в 09:23

Я находил что у двух производителей есть проблема, когда видеокарта фиксируется на 210МГц и все тормозит, мне хоть повезло и само восстановилось через неделю. Проблема с WiFi вообще массовая, даже дешевый USB адаптер лучше. Еще сильно греется при подключении к USB-C прямо под рукой.

uxgen 3 мая в 07:01

У меня тоже самое на Asus за 150к. Хотя с ноутами мне вообще не везет.

52 ядра и ответ AMD: Intel готовит Nova Lake с гигантским кешем для игр

uxgen 22 апр в 05:42

Двухканальная DDR5-8000 это всего 128Гб/с, на 52 ядра это 2.5ГБ/с. Если кто-то сможет распределить задачи на столько ядер.

Кстати, текстуры в играх используются не процессором, они перегоняются с диска на ГПУ через ЦП, а объемы данных такие, что кэш никак не поможет. Если скорость PCI-E около 64ГБ/с, то половина пропускной способности памяти будет уходить на подгрузку открытых миров.

Сегодня я узнал нечто новое о GPU благодаря багу в своей игре

uxgen 15 апр в 17:22

Все решается проще через flat квалификатор. Была бы там поддержка интов, без него вообще бы шейдер не скомпилировался.

Введение в высокопроизводительные вычисления на С++ для CPU

uxgen 17 мар в 18:55

Под AVX тоже есть расширения, например AVX-VNNI для Intel, который повторяет AVX512-VNNI.

Я все же про то, что решает распараллеливание инструкций, а не длина SIMD.

Введение в высокопроизводительные вычисления на С++ для CPU

uxgen 17 мар в 11:25

Сейчас не так важно что за SIMD 128-512 поддерживается, так как в железе может быть 4х 128битных пайплайна, то есть 4 инструкции выполняются параллельно. Такое сделано например на Intel E-ядрах и Cortex X4. А на AMD Zen4 был SIMD256 dual issue для эмуляции SIMD512 пока они не сделали полноценные 512 бит на Zen5.

Почему у нас нет кешей L5?

uxgen 12 мар в 10:37

У ЦП reorder buffer 300+ микроинструкций, задержка на чтение RAM около 60нс, на 5ГГц это 300 тактов. Так что в идеальном случае память прочитается даже без кэшей.

В некоторых случаях кэши даже вредны, например memcpy при копировании более 2Мб включает некэшируемое копирование, иначе на заполнение кэшей тратится в 3 раза больше времени.

Принципы DOD в C++: Часть 2. AoS, SoA. Мнимая панацея для быстродействия

uxgen 11 мар в 09:15

Для корректности теста автовекторизацию лучше выключить настройками компилятора. А еще неплохо бы посчитать флопсы и Гб/с.

Насчет кэш промахов при случайном доступе нужно считать Гб/с и сравнивать с аналогичным memcpy, тогда будет видно сколько реально идет в RAM, а сколько в кэши. Ничего не мешает ЦП читать массив индексов наперед и префетчить, потери идут только из-за прыгания по кэш линиям из-за чего железо не успевает подгружать данные, а была бы память побыстрее, то и потерь не было бы.

Как в Unreal Engine генерируется Hierarchical Z Buffer

uxgen 11 мар в 06:52

Как в UE не знаю, но я тестировал разные варианты и на всех встройках быстрее через пиксельный и с sampler min фильтром вместо gather4. Округление до степени 2 тоже быстрее работает, хоть и меньше точности.

Тут мой ресерч по HiZ.

Как в Unreal Engine генерируется Hierarchical Z Buffer

uxgen 10 мар в 09:21

Только подход не универсальный, так как запись в UAV идет без компресии (кроме AMD), поэтому на встройках и мобилках такой код работает в разы медленее.

NPU, Copilot+ PC и нейросети. Использую NPU в повседневной жизни

uxgen 10 мар в 08:13

8745HS на Zen4 с llama.cpp выдает 20tps на GPU и около 12tps на CPU. На Zen5 должно быть побыстрее.

Принципы DOD в C++: Часть 1. Оптимизация структур

uxgen 22 фев в 12:24

pack(1) падает на ARM, если при компиляции не разрешить чтение невыровненых данных, что замедлит весь код

SIMDe, дополнение к DOD архитектуре

uxgen 11 фев в 17:17

С переходом на simd начинается веселье типа:

как быстро удалить элементы из x[], y[], z[] массивов
ни в коем случае не использовать скаляры, иначе производительность падает в 5 раз
как сделать ветвление: сгруппировать по типам или использовать маски
как выбрать определенные элементы из массива и плотно упаковать их не переходя на скаляры
как разместить иерархию в памяти: проще когда по 16 нод цепляется, но такого не бывает и нужно заполнить например один simd регистр из 3х родителей и второй simd из 16 их детей и не потерять на этом производительность

Что же такое DOD и почему мы это забыли?

uxgen 6 фев в 06:05

А если капнуть глубже, то современные ЦП способны читать из L1 в 2 регистра по 64байт выровненных данных за такт, но пока мы используем скаляры все это замедляется до 2х 4 байт за такт. И используем только одну инструкцию на скаляр вместо инструкции на 16х скаляров.

Мы иногда во внутреннем чате обмениваемся фрагментами кода...

uxgen 15 янв в 14:52

#define StaticAssertMsg( _expr_, _msg_ )  static_assert( bool{_expr_}, _msg_ )
#define StaticAssert( ... )  static_assert(bool{ __VA_ARGS__ })

Сделал так и нашел у себя такую же ошибку.

Кстати, для ассертов уже давно добавил bool{} конструктор чтобы отлавливать неправильные касты.

В России подскочил спрос на дешевые смартфоны для установки MAX

uxgen 15 янв в 14:24

Лучше тогда андроид ТВ приставку с али за 4К. Там нет видеокамеры и микрофона, 100% отключается при выдергивании из розетки.

РКН засудил 33 операторов связи за обход цензуры

uxgen 12 янв в 14:59

А кто их засудит за недоступ к еще разрешенным ресурсам?

2 3 ...

8 9