Мне просто очень интересна эта тема, с локальными LLM. Это хобби и я просто делаю разные эксперименты со своим железом. На моей плате gigabyte z590 AX PRO три PCI-E разъема, x16-4.0, x4-3.0, x4-3.0. С тремя RTX 3060 по 12Гб, как уже писал выше скорость QwQ 32B в районе 8 токенов в секунду (и нагрузка между видео картами распределена поровну, колеблется в районе 33% на каждой). Если убрать одну видеокарту то получаю скорость генерации в районе 14 токенов в секунду (нагрузка колеблется в районе 50% на каждой карте). Поэтому я думаю что если бы модель смогла поместится целиком в памяти одной видеокарты, скорость генерации могла бы быть в районе 26 токенов в секунду. Но проверить это на моей модели видеокарты нельзя.Я делал интересный эксперимент с Qwеn-coder-32B-instruct-q4-k-m (размером 18.49GB) c вариантами в две и три видеокарты и аналогичными скоростями генерации как у QwQ 32B. Но стоило добавить черновую модель Qwеn-coder-3B-instruct-q4-k-m (1.8 GB) как скорость генерации в конфигурации с тремя видюхами возросла с 8 до 20 токенов в секунду, при 70% одобрения токенов черновой модели. В конфигурацию с двумя видюхами обе модели не помещаются, а для QwQ 32B черновой модели нет. Поэтому лично мне очень интересна скорость генерации таких моделей как QwQ 32B или Qwеn-coder-32B-instruct если они целиком будут крутится в одной видеокарте с 24GB памяти, что бы рассматривать такой вариант, как возможность дальнейшего апгрейда.
Мне просто очень интересна эта тема, с локальными LLM. Это хобби и я просто делаю разные эксперименты со своим железом. На моей плате gigabyte z590 AX PRO три PCI-E разъема, x16-4.0, x4-3.0, x4-3.0. С тремя RTX 3060 по 12Гб, как уже писал выше скорость QwQ 32B в районе 8 токенов в секунду (и нагрузка между видео картами распределена поровну, колеблется в районе 33% на каждой). Если убрать одну видеокарту то получаю скорость генерации в районе 14 токенов в секунду (нагрузка колеблется в районе 50% на каждой карте). Поэтому я думаю что если бы модель смогла поместится целиком в памяти одной видеокарты, скорость генерации могла бы быть в районе 26 токенов в секунду. Но проверить это на моей модели видеокарты нельзя.Я делал интересный эксперимент с Qwеn-coder-32B-instruct-q4-k-m (размером 18.49GB) c вариантами в две и три видеокарты и аналогичными скоростями генерации как у QwQ 32B. Но стоило добавить черновую модель Qwеn-coder-3B-instruct-q4-k-m (1.8 GB) как скорость генерации в конфигурации с тремя видюхами возросла с 8 до 20 токенов в секунду, при 70% одобрения токенов черновой модели. В конфигурацию с двумя видюхами обе модели не помещаются, а для QwQ 32B черновой модели нет. Поэтому лично мне очень интересна скорость генерации таких моделей как QwQ 32B или Qwеn-coder-32B-instruct если они целиком будут крутится в одной видеокарте с 24GB памяти, что бы рассматривать такой вариант, как возможность дальнейшего апгрейда.
У меня на двух видеокартах rtx 3060 по 12Гб QwQ 32B генерирует 13 токенов в секунду. На трех rtx 3060 всего 8 токенов в секунду.