"представители компании сообщили, что их интересуют эксплойты для BSD. На этот раз вознаграждение может составить до 500 000 долларов за работающий эксплойт."
поводу матриц пикселей тут как раз все норм: если это RGB, то нужно обрабатывать 3 матрицы параллельно.
Бессмыслица какая-то. Изображение это двухмерный массив данных. Причём тут вообще матрицы? Современные шейдеры намного сложнее чем перемножение пары матриц - там и проходы по спискам, обходы иерархий, много целочисленной математики - тысячи инструкций на пиксель.
Параллельно обрабатываются не "3 матрицы" , а одна и та же операция на всех SIMD слотах.
Однако все же MAC операций в GPU насыпано в разы больше, чем любых других арифметико-логических.
Если мы говорим про рендер 3D графики, это не так.
Откройте в вашей ссылке блок-схему мультипроцессора Figure 7. Количество int32 блоков и fp32 блоков одинаково. Другие блоки не участвуют в рендере. DLSS пост процессинг, где работают тензорный ядра - опционален. На многих актуальных GPU их вообще нет.
Я конечно понимаю, что про GPU у вас написано "для затравки", но всё равно "кровь из глаз".
Поскольку каждое изображение представляет собой трехмерную матрицу пикселей
Двухмерную
В отличие от CPU, графические ускорители состоят из тысяч небольших по размеру ядер, в которых реализованы только сумматоры и умножители: все, что нужно для эффективной работы с матрицами.
Что-то из начала нулевых?
Современные GPU ядра выполняют все те же инструкции, что и " универсальные вычислительные ядра". В отличие от обычных RISC процессоров, они имеют аппаратные реализации тригонометрических функций, а так же имеют множество специализированного железа - текстурники, тензорные блоки, рейтрейсинг.
Использую qwen и glm. На python qwen пишет красиво и компактно, но не всегда работает. GLM-5 пишет несколько раздуто, но пока запускалось и работало с 1 промта (в режиме агента). Но надо конечно нормально настроить агентов и вот это всё.
Когда видят то, чего нет, это называется галлюцинацией =)
Ещё раз - тут нет никакого растеризатора и 3D пайплайна (трансформация-проекция-растеризация). Блендер рендерит анимацию, а потом пиксельная программа, т.е. шейдер, на геймбое подсвечивает карту нормалей.
"представители компании сообщили, что их интересуют эксплойты для BSD. На этот раз вознаграждение может составить до 500 000 долларов за работающий эксплойт."
Нормальная экономика =)
Поддержка Apple Silicon в llama.cpp как раз "в первых рядах" появилась.
UMA, кэш-когерентность GPU, наличие NPU. Это всё идеально подходит для AI, в отличие от "традиционного железа".
Бессмыслица какая-то. Изображение это двухмерный массив данных. Причём тут вообще матрицы? Современные шейдеры намного сложнее чем перемножение пары матриц - там и проходы по спискам, обходы иерархий, много целочисленной математики - тысячи инструкций на пиксель.
Параллельно обрабатываются не "3 матрицы" , а одна и та же операция на всех SIMD слотах.
Если мы говорим про рендер 3D графики, это не так.
Откройте в вашей ссылке блок-схему мультипроцессора Figure 7. Количество int32 блоков и fp32 блоков одинаково. Другие блоки не участвуют в рендере. DLSS пост процессинг, где работают тензорный ядра - опционален. На многих актуальных GPU их вообще нет.
Я конечно понимаю, что про GPU у вас написано "для затравки", но всё равно "кровь из глаз".
Двухмерную
Что-то из начала нулевых?
Современные GPU ядра выполняют все те же инструкции, что и " универсальные вычислительные ядра". В отличие от обычных RISC процессоров, они имеют аппаратные реализации тригонометрических функций, а так же имеют множество специализированного железа - текстурники, тензорные блоки, рейтрейсинг.
GPU выполняют обычный C++ код.
для тех, кто не знает, как представляются числа в дополнительном коде.
В любом случае оригинальный
if(data[j] >= 128компилятор сворачивает в cmov и ничего делать не нужно.https://gcc.godbolt.org/z/6TzYzohfr
Непонятно что вы хотите доказать, но TAGE был придуман в 2006, а первые процессоры с таким предсказателем вышли в 2010+.
То что было 30 лет назад, сейчас никуда не годится.
Для большинства людей, что-то более низкоуровневое чем Python, это тёмный лес.
Там больше мегабайта SRAM.
На RP2040 полноценный дум работает на 240Кб
https://github.com/kilograham/rp2040-doom
Вот выпустил бы charblanchard 1.0.0 и забил на gpl-ную версию. Думаю тогда бы вопросов не возникло.
3.5 379B, до этого max
Использую qwen и glm. На python qwen пишет красиво и компактно, но не всегда работает. GLM-5 пишет несколько раздуто, но пока запускалось и работало с 1 промта (в режиме агента). Но надо конечно нормально настроить агентов и вот это всё.
Хотя в llama.cpp есть поддержка NPU у X Elite, но в LM Studio пока не завезли. На CPU-only у меня 10-11 токенов в секунду на qwen3.5-9b (q4)
Зачем нам неудачники?(с)
https://hh.ru/vacancy/126406862?ysclid=mmbox9gqnf959200717
Обязанности:
Разработка Web приложений;
Требования:
1. ОБЯЗАТЕЛЕН опыт программирования на языке ASSEMBLER (х86, ARM и других архитектурах) - не менее года;
Когда видят то, чего нет, это называется галлюцинацией =)
Ещё раз - тут нет никакого растеризатора и 3D пайплайна (трансформация-проекция-растеризация). Блендер рендерит анимацию, а потом пиксельная программа, т.е. шейдер, на геймбое подсвечивает карту нормалей.
https://github.com/nukep/gbshader/blob/main/src/shader.asm
Где вы тут нашли ФФП? Ведь кроме "шейдера" ничего нет.
Может не стоит обобщать? ARM v8 поддерживает невыравненный доступ к данным.
AArch64 provides support for 16, 32, 64 and 128-bit data unaligned accesses.
А зачем нужна высота в IDE? У вас всё занято бесполезными панельками?
В ширину 2-3 исходника (cpp/h) / доки. Диффы удобно смотреть.
21:9 кайф.
Есть ли жизнь на Максе, нет ли жизни на Максе - это науке не известно(с)
Так и сидите на 20-летнем ПК. Кто вам мешает?
Только вот зачем другим вы хотите помешать?
А где-то было заявлено что это супер-быстрый и оптимальный код? Чего вы тут оптимизировать-то собрались?
Если вам не интересно - не читайте.
Такие проекты - это огромная помощь людям, кто хочет разобраться в работе нейросетей не тратя на это месяцы, а то и годы.