Comments 6
6-битная квантизация избыточна для пользователя. Разница в качестве с 4_Q_M на практике не видна, а по ресурсам - почти в 2 раза.
Сети 8х7 удивительно быстро работают на CPU. если у вас мощный процесор и 64Гб памяти, но нет 4090 - стоит посмотреть на этот вариант. Разница в качестве с 7b огромная.
Тут возможно еще влияет качество подготовки моделей, но 4060 на 8 Гб 5-6 бит квантизация нормально переваривается, и я уперся только в размер модели и ее объем. LM Studio все-таки не самый оптимизированный вариант. Но задача была показать, что все можно сделать на "раз-два" и на достаточно типичной машине. Я на H100 тестил LLAMA2 на 70B, вот там вещь конечно. Ну и ориентируюсь на рекомендации авторов моделей, а они на 7B или 10.7B рекомендуют использовать Q5-6 M.
По CPU - я тут пытаюсь найти информацию про запуск на многоядерных процессорах типа AMD Epyc 4 поколения нейросеток и нахожу только или научно-исследовательские статьи или отклики про сырой и глючный ROCm. Не подскажете, в какую сторону "копать", так как тема утилизации именно CPU мощностей интересна и судя по тому, что находил, там выигрыш хороший может быть?
Информация к размышлению:
.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf --usecublas --gpulayers 25
--contextsize 8192 --benchmark
ProcessingTime: 33.83s
ProcessingSpeed: 239.17T/s
GenerationTime: 8.90s
GenerationSpeed: 11.23T/s
.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf --usecublas
--contextsize 8192 --benchmark
ProcessingTime: 54.16s
ProcessingSpeed: 149.42T/s
GenerationTime: 23.48s
GenerationSpeed: 4.26T/s
.\koboldcpp.exe --model .\Fish-8x7B-Q4_K_M.gguf
--contextsize 8192 --benchmark
ProcessingTime: 341.80s
ProcessingSpeed: 23.67T/s
GenerationTime: 22.74s
GenerationSpeed: 4.40T/s
RTX4090, Ryzen 9 3950Х.
Первый вариант - с использованием GPU и видеопамяти, второй - с использованием GPU только для обработки входящих данных, это не требует много памяти. Последний вариант - без GPU.
Даже последний вариант может генерировать текст со скоростью не спеша читающего человека, если не требуется много входных данных. В случае задач перевода текста, много входных данных требуется, но тут любая Nvidia нам поможет, 24Гб памяти не нужно.
8x7B модельки тяжелые, только для 4090 с 24 гигами или для 7900 если на GPU. Но вот на CPU теперь уже интересно проверить на AMD Epyc и Intel Xeon + сравнить на этих моделях A4000/5000 4090 и H100 (благо есть такая возможность).
Для той модельки, которая у меня на переводе, с моим процем и памятью на рабочей машине CPU совсем грустно и оптимально именно на видеокарте:
Model: Starling-LM-10.7B-beta-Q5_K_M
MaxCtx: 8192
GenAmount: 100
GPU
ProcessingTime: 19.89s
ProcessingSpeed: 406.92T/s
GenerationTime: 24.04s
GenerationSpeed: 4.16T/s
TotalTime: 43.92s
Coherent: True
Output: 11111
GPU + CPU
ProcessingTime: 28.55s
ProcessingSpeed: 283.39T/s
GenerationTime: 35.78s
GenerationSpeed: 2.80T/s
TotalTime: 64.33s
Coherent: True
Output: 11111
CPU
ProcessingTime: 968.03s
ProcessingSpeed: 8.36T/s
GenerationTime: 36.64s
GenerationSpeed: 2.73T/s
TotalTime: 1004.67s
Coherent: True
В VS-code есть плагин Refact.ia. Можно подключить GPT-3.5-turbo на бесплатном тарифе. Он тоже переводит неплохо. На английской статье проверял - рецензенты не ругались. Лучше Google переводчика. Он же ставит on-line помощник в написании кода. Есть локальная установка, но работает и на ноуте без видеокарты.
Не DeepL-ом единым. Нейросетевой переводчик для ваших проектов в VS Code за пару кликов