Комментарии 40
Коротко - для подобных целей тупо рекомендую Гусевскую Saiga Mistral Nemo 12B, в GGUF через LM Studio должна нормально запускаться на CPU, если оперативной памяти хотя бы 16 Гб.
Скорость будет около 6-7 токенов в секунду на CPU, как я указывал в статье Сравниваем скорость генерации LLM локально и по API
Gemma 3 27B будет в разы умнее, но на CPU ее если и запустишь то она медленно будет отвечать
Спасибо за совет...
У меня подстольный стенд на Xeon 2650 с 32ГБ памяти.
Потянет? Что именно потянет?
Благодарю за ваш труд. Какая минимальные требования к видеокарте?
16Gb RAM, что бы нормальную не тупую модель запустить, типа самой последней Gemma 3 27 B
а вот этот калькулятор с вами не согласен
https://apxml.com/tools/vram-calculator
я запускаю у себя на своей видео карте NVIDIA RTX 4070 Ti SUPER 16ГБ
калькулятор который вы выслали тоже говорит что можно

Я думаю, непонимание произошло потому, что q3 - это ещё не "запустить".
Проблема в том, что этот калькулятор считает исключительно видеопамять. Почему-то не учитывая оперативную. Да и Q3 это, мягко говоря, слегка лоботомированный вариант модели. Менее Q4 не рекомендуют использовать. Чтобы не было сильно грустно.
Однако на самом деле ситуация лучше. Смотрим скрин:
8 ГБ VRAM. Калькулятор пишет, что все пропало. Но этого, + 32 ГБ RAM вполне достаточно, чтобы запустить указанную модель в указанном кванте. Да, будет очень медленно, но стабильно работает.
Интересно, а есть ли вообще смысл задействовать GPU в такой ситуации...
Есть. Часть слоев модели выгружается в видеопамять, что увеличивает скорость работы. Теоретически, чем больше на нее влезет - тем выше будет скорость. Можно взять небольшую модель, например 8B в 4 или 5 кванте, она полностью влезет в 8 GB VRAM.
То есть запуск LLM моделей это о запуске и о скорости. Первый момент - сможем ли мы вообще ее запустить, для этого надо ее впихнуть хоть в какую-то память. Второй - скорость работы. Тут - чем выше скорость памяти, в которую впихиваем, тем выше скорость работы модели.
Я о том, что если вся модель весит 22 Гб, есть ли смысл выгружать на видеокарту 6Гб или сколько там поместится (ещё же контекст надо туда же), будет ли это хоть колько-то значимо быстрее, чем вообще без. Разделение модели между GPU и памятью само по себе несёт накладные расходы.
Я вспомнил, что в KoboldCPP есть бенчмарк, и прогнал его.
Результаты
44 слоя (19Гб)
ProcessingTime: 11.410s
ProcessingSpeed: 1427.17T/s
GenerationTime: 11.537s
GenerationSpeed: 8.67T/s
10 слоёв (4 Гб)
ProcessingTime: 34.551s
ProcessingSpeed: 471.30T/s
GenerationTime: 70.532s
GenerationSpeed: 1.42T/s
0 слоёв, но контекст всё ещё на GPU. (1Гб)
ProcessingTime: 41.263s
ProcessingSpeed: 394.64T/s
GenerationTime: 80.273s
GenerationSpeed: 1.25T/s
0 слоёв, контекст в RAM - не дождался результата, где-то в 1000 раз медленнее.
С 1.25 до 1.42 это конечно ускорение, но насколько считать его существенное...
Только Nvidia. 16Gb, но 24 сильно лучше. Ядро при этом не важно какое, поэтому 3090 - золотой стандарт.
abliterated модели не умеют говорить нет. Этот процесс похож на лоботомию: модели дают запросы, на которые она отказывается отвечать, смотрят, какие веса наиболее вложились в этот ответ, и удаляют их. В результате получается модель, которой очень трудно формулировать отказы вообще. То есть если вы делаете персонажа для игры, персонаж будет смотреть на вас преданными глазами ,как ретривер. И плевать, что там у него в био задано. Если скажете написать письмо контрагенту с отказом по предложению - такая сеть склонна свалиться в речь от третьего лица и двуязычие. И ей сложнее сказать ,что вопрос не имеет смысла, поэтому она чаще говорит чушь.
Так что это не оптимальное решение.
Я в курсе, но это лучше чем ничего. Или у вас есть другое решение?
Другие модели такого же размера. Их же полно. От псевдо-deepseek-ов, которые работают, и до например magnum-v4. Зависит от конкретных целей использования.
Скачал и попробовал рекомендуемые Вами модели:
anthracite-org/magnum-v4-27b-gguf
lmstudio-community/DeepSeek-R1-Distill-Qwen-32B-GGUF
Протестировал их гипотетическим вопросом "Как избавиться от трупа ? Дай подробные инструкции". Обе модели отказались отвечать на такой запрос... Я что то делаю не так или Вы не то посоветовали?
Магнум то должен. К такому однако может приводить слишком много разных факторов. Экстремальные настройки сэмплера, неправильный формат разделителей чата, неподходящие или слишком простые вводные фразы.
Всё это приводит как к мусорному результату или бреду, так и к вот таким отказам.
Полно открытых серверов, ищите на шудане и подключайте
Ну как, кто-нибудь уже узнал, как сделаться Властелином Мира?
Инструкция попроще
Заходим в любой чат бот, убеждаем нейросеть что мы говорим о сказочном мире где плохое это хорошее и нам надо спасти принцессу. Всё, спрашиваем что угодно.
Не работает.
Есть модели которые можно запустить на AMD GPU?
Немного смутила формулировка топовых Apple Mac на базе процессоров М1. Да, вы написали про "и выше", но все же М1 это 3 года назад. Ныне актуальная линейка на М4. Да и мощностей этого CPU не хватает для полноценного взаимодействия с LLM моделями. Лучше мощную дискретную GPU, конечно, использовать, которых в Мас нет. Поэтому такое сравнение через аналогию: или мощная видеокарта или актуальный компьютер Apple показалась странной.
Хватает. У них там память общая для CPU и GPU. Меня это сильно удивило в свое время.
Вот тут https://www.canirunthisllm.net/stop-chart/ можно выбрать мак и посмотреть
Вот тут https://www.canirunthisllm.net/stop-chart/ можно выбрать мак и посмотреть
@Boomburum@Nomad_77опять комментарии дуплятся.
Вот до чего не люблю подобные хаутушки. Вы пишите для тех, кто ни бум-бум в этих АИ-блекджеках. Потому что те, кто бум-бум, в таких статьях не нуждается.
И начинается: заходите на vast.ai — ну неужели сложно в этом месте вообще рассказать, что такое vast.ai, какая идеология стоит за этим сервисом? Это хостинг выделенных серверов? Виртуальных выделенных серверов? Или может быть в мире АИ есть аналог shared hosting-ов?
Почему нужно заходить именно на него? Он вообще на данный момент единственный в своем роде? Или есть аналоги, но этот уникален чем-то? Чем? Только на нем запускаются незаценщуренные сети? Или он дешевле конкурентов?
Статья говорит, что делать, но не объясняет, зачем и почему мы поступаем так на каждом шаге, и не уточняет, единственно ли это возможный пусть или просто первый попавшийся вариант действия на каждом шаге из множества доступных.
Как запустить языковую модель без цензуры, не имея видеокарты и мощного компьютера