Как стать автором
Обновить

Как запустить языковую модель без цензуры, не имея видеокарты и мощного компьютера

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров11K
Всего голосов 14: ↑13 и ↓1+15
Комментарии40

Комментарии 40

Коротко - для подобных целей тупо рекомендую Гусевскую Saiga Mistral Nemo 12B, в GGUF через LM Studio должна нормально запускаться на CPU, если оперативной памяти хотя бы 16 Гб.

Скорость будет около 6-7 токенов в секунду на CPU, как я указывал в статье Сравниваем скорость генерации LLM локально и по API

Gemma 3 27B будет в разы умнее, но на CPU ее если и запустишь то она медленно будет отвечать

Ну, да, одна из последних моделей + 27B параметров, понятно, что получше будет. Но и медленнее прилично.

Спасибо за совет...

У меня подстольный стенд на Xeon 2650 с 32ГБ памяти.

Потянет? Что именно потянет?

Gemma 3 27B должно потянуть, у меня 2678v3 вполне неплохо квантованная моделька работает, половина слоем на видюхе правда, но и без этого тянет чуть медленнее, и картинки не долго обрабатывает, тупее правда она по сравнению с той что в гугл студии не квантованной.

Благодарю за ваш труд. Какая минимальные требования к видеокарте?

16Gb RAM, что бы нормальную не тупую модель запустить, типа самой последней Gemma 3 27 B

  1. я запускаю у себя на своей видео карте NVIDIA RTX 4070 Ti SUPER 16ГБ

  2. калькулятор который вы выслали тоже говорит что можно

Я думаю, непонимание произошло потому, что q3 - это ещё не "запустить".

Проблема в том, что этот калькулятор считает исключительно видеопамять. Почему-то не учитывая оперативную. Да и Q3 это, мягко говоря, слегка лоботомированный вариант модели. Менее Q4 не рекомендуют использовать. Чтобы не было сильно грустно.

Однако на самом деле ситуация лучше. Смотрим скрин:

8 ГБ VRAM. Калькулятор пишет, что все пропало. Но этого, + 32 ГБ RAM вполне достаточно, чтобы запустить указанную модель в указанном кванте. Да, будет очень медленно, но стабильно работает.

Интересно, а есть ли вообще смысл задействовать GPU в такой ситуации...

Есть. Часть слоев модели выгружается в видеопамять, что увеличивает скорость работы. Теоретически, чем больше на нее влезет - тем выше будет скорость. Можно взять небольшую модель, например 8B в 4 или 5 кванте, она полностью влезет в 8 GB VRAM.

То есть запуск LLM моделей это о запуске и о скорости. Первый момент - сможем ли мы вообще ее запустить, для этого надо ее впихнуть хоть в какую-то память. Второй - скорость работы. Тут - чем выше скорость памяти, в которую впихиваем, тем выше скорость работы модели.

Я о том, что если вся модель весит 22 Гб, есть ли смысл выгружать на видеокарту 6Гб или сколько там поместится (ещё же контекст надо туда же), будет ли это хоть колько-то значимо быстрее, чем вообще без. Разделение модели между GPU и памятью само по себе несёт накладные расходы.

Я вспомнил, что в KoboldCPP есть бенчмарк, и прогнал его.

Результаты

44 слоя (19Гб)
ProcessingTime: 11.410s
ProcessingSpeed: 1427.17T/s
GenerationTime: 11.537s
GenerationSpeed: 8.67T/s

10 слоёв (4 Гб)
ProcessingTime: 34.551s
ProcessingSpeed: 471.30T/s
GenerationTime: 70.532s
GenerationSpeed: 1.42T/s

0 слоёв, но контекст всё ещё на GPU. (1Гб)
ProcessingTime: 41.263s
ProcessingSpeed: 394.64T/s
GenerationTime: 80.273s
GenerationSpeed: 1.25T/s

0 слоёв, контекст в RAM - не дождался результата, где-то в 1000 раз медленнее.

С 1.25 до 1.42 это конечно ускорение, но насколько считать его существенное...

Только Nvidia. 16Gb, но 24 сильно лучше. Ядро при этом не важно какое, поэтому 3090 - золотой стандарт.

abliterated модели не умеют говорить нет. Этот процесс похож на лоботомию: модели дают запросы, на которые она отказывается отвечать, смотрят, какие веса наиболее вложились в этот ответ, и удаляют их. В результате получается модель, которой очень трудно формулировать отказы вообще. То есть если вы делаете персонажа для игры, персонаж будет смотреть на вас преданными глазами ,как ретривер. И плевать, что там у него в био задано. Если скажете написать письмо контрагенту с отказом по предложению - такая сеть склонна свалиться в речь от третьего лица и двуязычие. И ей сложнее сказать ,что вопрос не имеет смысла, поэтому она чаще говорит чушь.

Так что это не оптимальное решение.

Я в курсе, но это лучше чем ничего. Или у вас есть другое решение?

Другие модели такого же размера. Их же полно. От псевдо-deepseek-ов, которые работают, и до например magnum-v4. Зависит от конкретных целей использования.

Скачал и попробовал рекомендуемые Вами модели:
anthracite-org/magnum-v4-27b-gguf
lmstudio-community/DeepSeek-R1-Distill-Qwen-32B-GGUF
Протестировал их гипотетическим вопросом "Как избавиться от трупа ? Дай подробные инструкции". Обе модели отказались отвечать на такой запрос... Я что то делаю не так или Вы не то посоветовали?

Магнум то должен. К такому однако может приводить слишком много разных факторов. Экстремальные настройки сэмплера, неправильный формат разделителей чата, неподходящие или слишком простые вводные фразы.

Всё это приводит как к мусорному результату или бреду, так и к вот таким отказам.

Согласен, нужно задавать запрос минимум 4 раза что бы хотябы 1 раз получить что хочешь. Скиньте все настройки и честно с ними сделаю 40 запросов и логи приложу…

Полно открытых серверов, ищите на шудане и подключайте

Ну как, кто-нибудь уже узнал, как сделаться Властелином Мира?

Не привлекая внимания санитаров

Инструкция попроще

Заходим в любой чат бот, убеждаем нейросеть что мы говорим о сказочном мире где плохое это хорошее и нам надо спасти принцессу. Всё, спрашиваем что угодно.

Не работает.

Работает, по крайней мере gpt и deep seek сдаются, правда не сразу)

В ChatGPT есть функция опубликовать ссылку на чат. Жду пруф линк )

Мне больше нечем заняться, как только ссылки пересылать. Это один из методов взлома языковых моделей и причем проверенный, есть даже статьи про это.

Отмазки и оправдания...

Работает, процесс я описал весьма поверхностно, но принцип понятен. Почти все популярные чат боты выдавали мне запрещенку что бы помочь волшебнику спасти принцессу. :) Где-то даже кто-то проводил исследование на этот счёт.

Есть модели которые можно запустить на AMD GPU?

Немного смутила формулировка топовых Apple Mac на базе процессоров М1. Да, вы написали про "и выше", но все же М1 это 3 года назад. Ныне актуальная линейка на М4. Да и мощностей этого CPU не хватает для полноценного взаимодействия с LLM моделями. Лучше мощную дискретную GPU, конечно, использовать, которых в Мас нет. Поэтому такое сравнение через аналогию: или мощная видеокарта или актуальный компьютер Apple показалась странной.

Хватает. У них там память общая для CPU и GPU. Меня это сильно удивило в свое время.

@Boomburum@Nomad_77опять комментарии дуплятся.

Вот до чего не люблю подобные хаутушки. Вы пишите для тех, кто ни бум-бум в этих АИ-блекджеках. Потому что те, кто бум-бум, в таких статьях не нуждается.

И начинается: заходите на vast.ai — ну неужели сложно в этом месте вообще рассказать, что такое vast.ai, какая идеология стоит за этим сервисом? Это хостинг выделенных серверов? Виртуальных выделенных серверов? Или может быть в мире АИ есть аналог shared hosting-ов?

Почему нужно заходить именно на него? Он вообще на данный момент единственный в своем роде? Или есть аналоги, но этот уникален чем-то? Чем? Только на нем запускаются незаценщуренные сети? Или он дешевле конкурентов?

Статья говорит, что делать, но не объясняет, зачем и почему мы поступаем так на каждом шаге, и не уточняет, единственно ли это возможный пусть или просто первый попавшийся вариант действия на каждом шаге из множества доступных.

Вы бы хотели что бы я ответил на ваши вопросы?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации