Обновить
-12
Моё имя — стёршийся иероглиф@beeruser

Пользователь

0,2
Рейтинг
13
Подписчики
Отправить сообщение

А тут эпл под который это все в принципе не заточено

Поддержка Apple Silicon в llama.cpp как раз "в первых рядах" появилась.

UMA, кэш-когерентность GPU, наличие NPU. Это всё идеально подходит для AI, в отличие от "традиционного железа".

поводу матриц пикселей тут как раз все норм: если это RGB, то нужно обрабатывать 3 матрицы параллельно.

Бессмыслица какая-то. Изображение это двухмерный массив данных. Причём тут вообще матрицы? Современные шейдеры намного сложнее чем перемножение пары матриц - там и проходы по спискам, обходы иерархий, много целочисленной математики - тысячи инструкций на пиксель.

Параллельно обрабатываются не "3 матрицы" , а одна и та же операция на всех SIMD слотах.

Однако все же MAC операций в GPU насыпано в разы больше, чем любых других арифметико-логических.

Если мы говорим про рендер 3D графики, это не так.

Откройте в вашей ссылке блок-схему мультипроцессора Figure 7. Количество int32 блоков и fp32 блоков одинаково. Другие блоки не участвуют в рендере. DLSS пост процессинг, где работают тензорный ядра - опционален. На многих актуальных GPU их вообще нет.

Я конечно понимаю, что про GPU у вас написано "для затравки", но всё равно "кровь из глаз".

Поскольку каждое изображение представляет собой трехмерную матрицу пикселей

Двухмерную

В отличие от CPU, графические ускорители состоят из тысяч небольших по размеру ядер, в которых реализованы только сумматоры и умножители: все, что нужно для эффективной работы с матрицами.

Что-то из начала нулевых?

Современные GPU ядра выполняют все те же инструкции, что и " универсальные вычислительные ядра". В отличие от обычных RISC процессоров, они имеют аппаратные реализации тригонометрических функций, а так же имеют множество специализированного железа - текстурники, тензорные блоки, рейтрейсинг.

GPU выполняют обычный C++ код.

это же колдунство какое то

для тех, кто не знает, как представляются числа в дополнительном коде.

В любом случае оригинальный if(data[j] >= 128компилятор сворачивает в cmov и ничего делать не нужно.

https://gcc.godbolt.org/z/6TzYzohfr

30+ лет назад...

Непонятно что вы хотите доказать, но TAGE был придуман в 2006, а первые процессоры с таким предсказателем вышли в 2010+.

То что было 30 лет назад, сейчас никуда не годится.

Это вроде совсем основы IT?

Для большинства людей, что-то более низкоуровневое чем Python, это тёмный лес.

Там больше мегабайта SRAM.

На RP2040 полноценный дум работает на 240Кб

https://github.com/kilograham/rp2040-doom

Вот выпустил бы charblanchard 1.0.0 и забил на gpl-ную версию. Думаю тогда бы вопросов не возникло.

Использую qwen и glm. На python qwen пишет красиво и компактно, но не всегда работает. GLM-5 пишет несколько раздуто, но пока запускалось и работало с 1 промта (в режиме агента). Но надо конечно нормально настроить агентов и вот это всё.

Хотя в llama.cpp есть поддержка NPU у X Elite, но в LM Studio пока не завезли. На CPU-only у меня 10-11 токенов в секунду на qwen3.5-9b (q4)

Зачем нам неудачники?(с)

https://hh.ru/vacancy/126406862?ysclid=mmbox9gqnf959200717

Обязанности:

Разработка Web приложений;

Требования:

1. ОБЯЗАТЕЛЕН опыт программирования на языке ASSEMBLER (х86, ARM и других архитектурах) - не менее года;

я вижу только обычный ффп софтовый растеризатор

Когда видят то, чего нет, это называется галлюцинацией =)

Ещё раз - тут нет никакого растеризатора и 3D пайплайна (трансформация-проекция-растеризация). Блендер рендерит анимацию, а потом пиксельная программа, т.е. шейдер, на геймбое подсвечивает карту нормалей.

https://github.com/nukep/gbshader/blob/main/src/shader.asm

Где вы тут нашли ФФП? Ведь кроме "шейдера" ничего нет.

Может не стоит обобщать? ARM v8 поддерживает невыравненный доступ к данным.

AArch64 provides support for 16, 32, 64 and 128-bit data unaligned accesses.

А зачем нужна высота в IDE? У вас всё занято бесполезными панельками?

В ширину 2-3 исходника (cpp/h) / доки. Диффы удобно смотреть.

21:9 кайф.

Есть ли жизнь на Максе, нет ли жизни на Максе - это науке не известно(с)

Так и сидите на 20-летнем ПК. Кто вам мешает?

Только вот зачем другим вы хотите помешать?

А где-то было заявлено что это супер-быстрый и оптимальный код? Чего вы тут оптимизировать-то собрались?

Если вам не интересно - не читайте.

Такие проекты - это огромная помощь людям, кто хочет разобраться в работе нейросетей не тратя на это месяцы, а то и годы.

1
23 ...

Информация

В рейтинге
3 380-й
Дата рождения
Зарегистрирован
Активность

Специализация

Десктоп разработчик, Разработчик игр
Ведущий
От 300 000 ₽