Как стать автором
Обновить

За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров55K
Всего голосов 103: ↑78 и ↓25+69
Комментарии121

Комментарии 121

очередная пустая статья ниочём.

зачем в этой схеме докер, почему webui а не что-то поудобнее, ни слова о производительности, ни сравнения с другими моделями (скорее всего потому что нормальным моделям нужно сиииильно больше памяти)..
мог бы минусануть - минусанул бы

Очевидно же, что статья для новичков. А docker, ollama и openui выбраны как самые простые способы установить ИИ и начать с ней РАБОТАТЬ

Это сложные способы. Особенно если Докер не стоит уже налаженный и пользоваться им человек не умеет. Простой - это скачать KoboldCPP.EXE и запустить двойным кликом. Всё, никаких окружений, соединений контейнеров и прочего.

Если очень надо на Linux, там есть такой же бинарник.

Для новичков LM Studio. Скачал, установил. Скачиваешь из нее же любую модель (на которую хватит ресурсов машины) и пользуешься. Буквально 3-4 клика.

1009 мегабайт -- это всего лишь оболочка для скачивания моделей? :)

Чего не написали 1033216 Кб, ведь ещё внушительнее же?
Кстати, 1 Гб это в тысячи раз меньше размеров самих моделей.

Размер самих моделей никак не объясняет какого чёрта скачивалка весит гигабайт.

Нет, это оболочка для скачивания моделей, непосредственно запускалка этих моделей (включая немаленькие библиотеки куды, если память не изменяет), ну и сам интерфейс с обвязкой и полгига электрона, куда ж без этой раковой опухоли..

...и вебсервер еще для предоставления доступа к API

возможности по работе с моделями упираются в процессор и оперативную память, возможно в видеокарту. Вы на полном серьезе зажали 1 гиг ssd для среды для работы с моделями, когда в 2025 такой объем стоит копейки?

Эм. докер - очевидно для того, чтобы не геморроиться настраивать окружение, а скачать его.

Насколько я вижу, гуй к этому - другой докер. Получается всё правильно: нужен модуль - берёшь модуль, нет - нет.

Не очень я понял Вашей гневной реакции и стремления минусовать. Да статья не идеал. Я бы хотел видеть готовые конфиги уровня docker-compose (вместо ручного управления), но даже в таком виде очень хорошо:

я, например, до этой статьи и не задумывался, что можно попробовать подобного уровня вещи запускать на своём ноутбуке. А теперь вот выделю время и поиграю.

То есть у таких статей ценность не только в том, "как настроить", а в том, что посредством их доносится информация о том, что "это вообще возможно".

Я лично плюсанул.

давайте я сокращу статью:

sudo zypper in -y ollama # никакого геморроя, просто ставится
sudo systemctl enable --now ollama # никакого геморроя, просто запускается
ollama pull deepseek-r1:671b #ну тут модель конечно каждый под своё железо выбирает

а уж сколько разных клиентов есть которые будут и проще для новичков и удобнее и легковеснее я наверное промолчу. тем более что львиная доля вообще не будет юзать отдельный клиент а задействует плагин для своей ide.

Ну вот и объясните мне зачем захламлять систему лишними ненужными сервисами, лишним рантаймом и тратить время на написание статьи ниочём?

это не статья для новичков, это статья для отпугивания новичков.

Это Минервасофт, у них все статьи такие.

Устанавливал я его на ноутбуке, работает, отвечает по теме, но очень уж часто глючит, временами вообще кракозябру выдаёт.

Карма автора такая явно не просто так. Очень понравились фразы про то что DeepSeek не запустится на захламленной системе (шьто? Скачал репу, сбилдил, запустил) и что из артефактов выделил "добре", когда она там сыпет иероглифами и таким подобным. Разрешает пользователю использовать докер без root прав... Зачем??

Я не в восторге от статьи, но критика неконструктивная. Критикуя - предлагай. Чем плох OpenWebUI? Что "поудобнее"? Какие модели лучше, что не требуют много памяти?

Иначе это просто бессмысленный негатив.

Критикуя - предлагай

Критик не обязан делать предложения, но должен аргументированно указывать на «слабые», по его мнению, места. Иначе это не критика

Чем плох OpenWebUI?

да хотя бы тем что он web, кмк этого уже достаточно.

Что "поудобнее"?

как я уже написал выше любой плагин для вашей любимой ide будет поудобнее, а если ии вам нужен не для IDE то любой нативный клиент

Какие модели лучше

те которые требуют по теробайту памяти

что не требуют много памяти

вы или крестик или трусы... к сожалению чем больше моделька умеет и чем лучше работает тем больше она требует памяти, ну не хватит всем 640кб, это миф. да и проца вам не хватит.. и нервов..

зато в тренде

Последние 2 цифры картинки это видимо айфоны и LLM, а остальные про что?

До этого был хайп с нанотехнологиями. Кстати, где они сейчас ?

До этого 21й век .

До этого мода на 2000й год. Воооу, современно.

На счёт троников не знаю, не застал

Критикуя - предлагай

Назвать статью "За полчаса установил QWEN 1.5B..."
ого, выглядит уже не так хайпово?)

Вот это намного удобнее https://github.com/n4ze3m/page-assist это расширение для браузеров, устанавливается в браузер и работает и не только с Ollama и возможностей у него больше, в том числе есть поддержка RAG

еще и в очередной раз это хайпово называют "запустить DeepSeek" хотя им оно не является, это QWEN с 1.5B параметров, которую дообучали на синтетике от DeepSeek

Причем "родной" Qwen3 практически наверняка будет не хуже.

По крайней мере у меня когда видеопамять загружена другими задачами, и Ollama оффлоадит значительную часть qwen3:30b на CPU, это, конечно, чувствуется, но не катастрофически. Мелкие модели CPU тем более потянет.

Поддерживаю, начал чтение - и мысль - неужели тут автор обойдётся без очередной обёртки в виде Докера. Но дальше сюрпрайз - ставит Докер.

Есть же Ollama, есть llama.cpp, есть KoboldCPP - их достаточно априори, при наличии мозгов - на кой лишний гемор, занимающий место, и отнимающий ресурсы.

Риторические вопросы, имхо.

У меня сервер работает под TrueNas Scale там это все разворачивается тремя кликами, OpenWebUI можно поставить сразу с встроенным ollama, можно сделать пять кликов и поставить ollama отдельно.

Но все это действительно не имеет смысла. 1.5B это ооооочень маленькая модель, зачем она нужно вообще не сильно понятно, какой-то сервис сделать с донастройкой(дообучением) под внутренние или внешние задачи проекта(компании).

Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.

Можно локально развернуть и 670B - но тут как говорится два стула: первый развернуть на CPU и это относительно дешевый вариант, т.к. найти сервер с 1,5Tb памяти не так сложно как кажется и не так дорого, стартовый ценник от $1k, если использовать старые Xeon, до $5k, если брать что-то поновее типа EPYC. Только в любом случае получите производительно 1.5-3 токена в секунду и ответы у вас будут минут за 20 появляться, а то и больше, когда контекст разговора вырастет. Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100). И снова не сильно понятно зачем это нужно, первый вариант работает слишком медленно что бы им пользоваться, а второй вариант непонятно зачем нужен если вы можете купить доступ к апи за гораздо меньшие деньги. За те же $10k вам доступа к апи хватит надолго, даже на продовый продукт, очень сомневаюсь что в ваш стартап сразу прибегут миллионы пользователей, а привлечь какую-то аудиторию и сделать софт-ланч точно хватит и $10k.

Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090 и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.

На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет представит, но ценник все равно будет не маленький это будут тысячи долларов(думаю 5-7). Если счет идет на тысячи долларов то можно думать о NVIDIA RTX PRO 6000(96Gb) - это 70B модели будет тягать очень бодро, ценник около $12k.

Вот и все реалии. А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.

я на 4070ti super развернул gemini 27b. работает шустро, но справляется плохо и непонятно зачем оно нужно. даже разворачивал модель на 70b и она все равно справлялась плохо и вдобавок работала на 2 токена в секунду (да, это обычный домашний комп с 64 гигами оперативки). Нормальные, обученные модели - все равно прерогатива больших компаний, которые делятся с тобой частичкой благодати через браузер (для большинства пользователей).

gemini 27b не самая лучшая модель. Если хотите хорошие локальные модели то это: gemma3:27B, qwen3(чем больше тем лучше), QwQ-32B

да, прошу прощения. имел в виду именно gemma3:27b

А вы внимательно прочитали мое сообщение? прочитайте еще раз текст написанный до "QwQ-32B".

точно, начало и конец прочитал, а середину - нет :)

Gemma - одна из лучших в целом моделей которые сейчас есть под руками.

Вопрос, опять же, в том, чего вы от неё хотите.

Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.

Вот да - постоянно объясняю, что стоимость вызова на какой-нибудь дешевой Google Flash 2.5 будет 1-2 копейки за вызов, около 100 токенов в секунду скорость генерации. У Дипсика будет... ну 2-5 копеек. На 1000 вызовов - 20-50 рублей, оно вообще ни о чем.

И домашний вариант - ну, на небольшой модели можно выжать до 30-40 токенов в секунду, модели побольше уже 5-8, если влезут.

Облачные версии поголовно зацензурированы. Тогда как для локальных открытых энтузиасты делают файнтюны эту проблему решающие. Плюс не хочется зависеть от наличия интернета/блокировок ркн. Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.

Можно использовать провайдеров OpenSource LLM, которые дают OpenAI compatible api и ничего не цензурируют сами. Подключать к тому же Open WebUI и всё

Так цензура уже в весах моделей зашита. В т.ч. в большинстве моделей с открытыми весами. Потому и нужно на hf выискивать файнтюны которые ее убирают. Причем расцензуривают как правило небольшие модели как раз, которые и так на локальной железке можно запустить, и не тратить совсем ничего, плюс не зависеть от сети.

Просто есть ещё модерация поверх самой модели в нативных чатах (DeepSeek, вырезающий упоминания Си, и. т. п.). А, если именно ту цензуру что в весах, то да. Тут только локальные расцензуренные.
Ну и они всегда будут маленькие, потому что переобучить большие у энтузиастов ресурсов нет :(

С другой стороны современные небольшие (30b и около) модели в целом уже достаточно хороши. Сравнимы с chatgpt 3, а то и 3.5. И для простых задач типа переводов, отыгрышей персонажей, по мелочи код поправить или объяснить и т.п. их в целом хватит.

Но облако в котором вы это развернули, тоже не бесплатное...

Зачем облако, если речь про запуск на локальном компе/домашнем сервере (который и так под разные selfhosted сервисы стоит)?

Аргумент) если конечно у вас просто "свободные" такие вычислительные мощности и достались бесплатно + не просят розетку :)

Ну как бесплатно. ПК, на котором у меня ollama крутится дома, для игр и VR используется в основном. Так что 4080 super там стоит на 16 гигов. Модели до 22b (с квантизацией, конечно) на ней неплохо работают. Впрочем, qwen3:30-a3b там и чисто на CPU отлично работает, даже если ни слоя в видеопамять не загружать - 10 токенов в секунду, а если закинуть часть слоев в GPU то и того быстрее. qwq:32b уже облом что на GPU с таким объемом памяти, что на CPU, банально медленно слишком, токен в секунду, где то. Хотя когда qwq:32b пользовался - запускал ее на M1 max с 32 гигами RAM, там работала неплохо, хоть ноут и звучал так будто взлетать собрался.

Ну а уж потраченное на эти запросы электричество точно меньше чем плата облачным провайдерам за вызовы api.

З.Ы. Стоит уточнить что большие тексты я не обрабатываю с LLM. Типичный промпт за пару тысяч токенов у меня почти никогда не вылезает. А 95 перцентиль наверно и вовсе не вылезает за 500. Если именно с большими текстами работать надо - тут ради удобства логичнее какой-нибудь моделью на openrouter воспользоваться.

  1. Ну, не поголовно... оригинальный DeepSeek (большой) вообще-то почти без цензуры.

  2. Скорости в локальных генерациях довольно малы, я писал про оценки здесь: https://habr.com/ru/articles/896204/

Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.

У вас бесплатное электричество?

На фоне стоимости за вызовы api (даже если именно те же самые модели по api дергать) - можно сказать что и да. Рублей 400 в месяц за все электричество потраченное всеми потребителями в квартире плачу. Где-то раз в 100 дешевле выходит, чем api, думаю. Если не в тысячу. Ну а вы кажется любите к словам прикапываться.

Ну а что делать, если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать? Мне бы просто загрузить в контекст модели pdf и вопросы позадавать по нему хотя бы. Пусть хоть медленно, но хоть что-то. Так-то да, через openrouter вообще куча моделей доступна как free, в том числе даже deepseek-chat-v3-0324:free. Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты. На том и живут. А для дома... ну это как хобби проект, чтобы применить знания работы с локальными LLM потом где-то ещё.

 если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать?

Это да, без вариантов ))

Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты.

Бесплатные да, платные обычно нет, но надо смотреть, конечно. И чувствительные данные, согласен, только на локалке )

Я вообще-то просто про пет-проекты написал, типа, что-нибудь там проклассифицировать 1000 накаченных PDF-ок. Там имхо удобнее через API, и быстрее.

все чёрным-по-белому пишут, что собирают пользовательские промпты

Всё же не все. На openrouter есть специальная пометка по поводу сохранения данных и ссылка на Privacy policy, так что можно самому прочитать по конкретному провайдеру. Я ресерчил этот вопрос. Есть те, кто явно пишет что ничего не сохраняет, как DeepInfra или Groq. Есть те, кто помечены как несохраняющие, но в их соглашениях промпты просто не упоминаются ни в одну ни в другую сторону. Есть те, кто изначально писал что будут тренить свои модели, как Nebius AI, но потом обновили соглашение и убрали пункт (но осадочек остался, да).

Доверять тому, что написано в соглашении - такое себе, особенно, если ты не многомиллиардная компания со штатом юристов. Чувствительные данные всё равно стрёмно отсылать.

Все не-локальные решения чреваты тем, что завтра какая-нибудь очередная говорящая голова что-нибудь скажет или сделает - и хозяева сервиса обидятся и вам доступ отрубят, за компанию.

Потому что у говорящих голов своя реальность и на ваши мелкие проблемы чихать.

1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.

2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.

3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.

Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история

Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100)

Нет.

Сейчас предел для энтузиаста это модели 30B

Нет.

А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.

Отличные классификаторы, особенно после дообучения.

На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет

Китайцы уже продают 4090 на 48GB за 3.5к$.

Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090

Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб, чтобы вмещать 72B IQ4_XS полностью в vram.
А 5090 + 16гб открывает доступ к 123B моделям (Large 2 123B или Command A 111B).

и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.

Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать, чтобы случайно не залезть в него.
Падение на 70B моделях с 2 t/s до 0.01 t/s.

Вот и все реалии.

Еще со времен первой MoE модели, которую Mistral представили 2 года назад, это не так.
У них была Mixtral-8x7B размером 46.7B и она показывала себя сильно лучше 30B тех времен, модель обходила Llama2-70B и конкурировала с chatgpt-3.5.

После этого MoE шагает по планете, включая проприетарные модели, вроде Grok, Gemini и по слухам gpt-4o.

Для энтузиастов сейчас есть такие локальные MoE:

  • Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.

  • Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.

  • Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.

  • DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.

Граница комфортного использования это где-то 5 t/s.

Детали не так важны, главное, что энтузиасты дома не заперты на 30B моделях и никогда не были. До этого была отличная MoE модель Mixtral 8x22b и её отличный файнтюн WizardLM-2.

Душные детали. Почему MoE быстрое и большое, а Dense тяжелое. Параметры запуска для ускорения

MoE модели не монолитны, они состоят из отдельных экспертов и на вычисление каждого токена на каждом шагу задействуется только часть экспертов. На каждом шагу MoE-роутер выбирает какие эксперты будут задействованы для следующего токена, они могут быть как разными, так и совпадать какое-то время, и на каждом шагу работает только ограниченное число экспертов, поэтому модель работает в разы быстрее, чем Dense модель такого же размера.

В теории Dense модели такого же размера будут лучше, но на практике это не всегда так. Был пример Dense модели Llama 3.1 размером 405B, она выступала не сильно лучше, и даже хуже, чем модель Llama 3.3 70B.

Ускорение для MoE можно достигнуть выгрузив тензоры всех экспертов в GPU, всех кроме тяжелых ffn тензоров, это делается через команду: -ot exps=CPU или --override-tensor "([0-9]+).ffn_.*_exps.=CPU"

Архитектура MoE бывает разной, например, Llama 4 имеет общих экспертов, и так как общие эксперты участвуют в вычислении токена на каждом шагу, то выгрузка тензоров дает хорошее ускорение, так как общие эксперты всегда в быстрой видеопамяти.

У Qwen3 нет общих экспертов, поэтому тут не получится получить стабильное ускорение, но можно выгрузить столько экспертов, сколько влезает через команду: -ot blk.(1[2-9]|[2-8][0-9]|9[0-3]).ffn.*=CPU
Команда указывает, что первые 11 экспертов пойдут на GPU, а остальные 82 на CPU. Тут обычное регулярное выражение, 11 слоев рассчитаны на 24гб vram.

Если несколько видеокарт, можно тензоры раскидать по устройствам:

-ot "blk\.([0-9]|1[0-2])\.ffn.*=CUDA0" -ot "blk\.(1[4-9]|2[0-3])\.ffn.*=CUDA1" -ot "ffn.*=CPU" -ngl 95

Это работает и на обычной llama.cpp, но так как много тензоров остаются на CPU, полезно будет взять ik_llama, откуда и пришли все эти оптимизации с override-tensor - это форк llama.cpp который затачивается на оптимизации работы на CPU, улучшенные кванты, которые конвертируются на лету из обычных, и немного ускоряет GPU.

В командную строку нужно добавить параметры: -fmoe -amb 512 -rtr
-rtr параметр который запускает автоматическую конвертацию модели в улучшенный квант от ik_llama, но он отключает mmap (если mmap включен и модель не влезла в память, она будет загружаться с диска), поэтому модель будет загружаться сразу в память и памяти должно быть достаточно.
-ngl сколько выгрузить слоев на gpu.

Подробнее про значение всех команд: https://github.com/ikawrakow/ik_llama.cpp/discussions/258

Благодаря оптимизациями от ik_llama, то, например, Maverick 402B если запускать его через ik_llama.cpp, то на 32k контексте скорость с 19 t/s падает всего до 15 t/s, при расходе видеопамяти 14гб.

Пример полного запуска

./llama-server -m "Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf" -fa -ctk q8_0 -ctv q8_0 -c 32768 -fmoe -amb 512 -rtr -ot exps=CPU -ngl 95 --threads 8

Если у вас больше 1 GPU, то будет ошибка при выгрузке всех возможных слоев через -ngl 95 и придется снизить её до 93-94. Это снизить скорость генерации, поэтому лучше собрать ik_llama добавив DGGML_SCHED_MAX_COPIES=1 (по умолчанию 4):

cmake -B ./build -DGGML_CUDA=ON -DGGML_BLAS=OFF -DGGML_SCHED_MAX_COPIES=1

У https://huggingface.co/ubergarm/ есть кванты заточенные под ik_llama, включая команды запуска и другие подробности.

Спасибо за ответ, достаточно познавательно.

  • Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.

  • DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.

Я о этом говорю, где граница комфорта тут каждый сам решает. Как по мне меньше 20 t/s так себе.

Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать, 

Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.

Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб

А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?

  • Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.

  • Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.

Они недавно совсем вышли, никогда их не пробовал. Для моих задач дипсика и грока хватает, мне так простой код сгенерить, еще за развернутой справкой и примерами обращаюсь. Так то код умею писать, просто тяжело всю документацию в голове держать.

Я использую text-generation-webui на 3090 и Tesla P40 (24 + 24 Гб), там ничего настраивать не надо, для квантизованных GGUF просто надо указать пропорцию разделения модели между двумя "памятями".

Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.

У Nvidia настройка CUDA System Memory Fallback или CUDA политика резерва системной памяти, по умолчанию включена, когда в память gpu не влезают данные, она загружает их в "своп" в обычную память, в эти моменты модель начинает дико тормозить, как и вся система.

Может показаться, что это работает просто от того, что ollama или LM Studio не эффективно заполняют vram, и там есть еще место. Если у вас это действительно работает, то это стоит изучить подробнее.

А так, у всех проектов основанных на llama.cpp есть возможность выгружать часть слоев на GPU, сколько хватит памяти, а часть оставлять на CPU. LM Studio делает это автоматически. В новой версии можно явно указать, чтобы модель не выходила за пределы реальной памяти.

А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?

Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.

Если у вас разнородные видяхи, например, у 4060 память имеет скорость 288 гб/с, у 5060 448 гб/с, а у 4090 1 тб/с, то нужно выбрать стратегию приоритетной разгрузки, сначала максимально загружать 4090, а потом остальные, а не разгружать слои равномерно.

Ну и еще несколько деталей:

  • В LM Studio пока нельзя указывать override-tensor, если интересует эта опция, то придется воспользоваться text-generation-webui, там это указывается в extra-flags поле. Это в основном затронет MoE модели, для остальных не важно.

  • В text-generation-webui можно легко создавать множество ролей и быстро переключаться между ними, у каждой роли будет своя история диалогов. Тут легче закидывать модели для тестирования, достаточно копировать их в models папку, не нужно создавать подпапки как в LM Studio.

  • Если есть встройка, можно в Windows в "настройках графики" указать путь до любого exe'шника, например, браузера или оболочки винды dwm, и перекинуть их на встройку, чтобы высвободить занятые пару гб под винду и браузер. Либо в браузере отключить 3d ускорение, а в настройках графики Windows отключить планирование gpu с аппаратным ускорением. Это имеет смысл, если не хватает чуть-чуть до загрузки целиком модели в vram.

  • В LM Studio полезно выбирать версии квантов, например найти unsloth версии. IQ4_XS кванты, влезают в 40гб vram для 70-72B моделей, а UD-Q2_K_XL влезет в 32гб.

  • В LM Studio или ollama не оптимально в автоматическом режиме заполняется VRAM, когда можно загрузить еще 3-4гб они не догружают. Тут поможет ручное управление, мониторить nvidia-smi или диспетчер задач, и смотреть реальную загрузку памяти.

  • У LM Studio по умолчанию выключено квантование KV-кэша, если его включить, можно еще выиграть пару гб.

Немного информации про разные кванты

У gguf есть 2 вида квантов: статические k-кванты и i-кванты с применением матрицы важности imatrix. k-кванты просто квантуют тензоры, без выбора какие тензоры важнее в общей куче. В i-квантах приоритет отдается квантам, которые подсвечиваются через imatrix. imatrix создается из txt файла с различным набором текстов, поэтому финальная модель будет квантована с учетом тех видов текстов, что там были, и можно сделать свою imatrix заточенную, например, на нужный язык.

Все квантуют по разному, поэтому кванты называются одинаково, но они будут разные. Например, самые популярные кванты от bartowski заточены на английский язык, он использует английскую imatrix везде, даже не для i-квантов, он квантует статичные k-кванты вплоть до Q6 через английскую imatrix. Если у вас приоритет на другой язык, лучше взять статичные кванты от lm-studio, или новые кванты от Unsloth.

В ik_llama есть продвинутые кванты, они на данный момент лучше остальных вариантов. Такие кванты могут конвертироваться на лету через ключ -rtr при загрузке модели, но это отключает mmap. Можно их переконверитровать и сохранить результат, либо немного готовых есть у https://huggingface.co/ubergarm. Но это для совсем энтузиастов, которые хотят выжать максимум из минимального объема, и которые не боятся компиляции и консоли, так как ik_llama не предоставляет готовые бинарники.

Они недавно совсем вышли, никогда их не пробовал.

https://openrouter.ai/meta-llama/llama-4-scout:free
https://openrouter.ai/meta-llama/llama-4-maverick:free

Регистрация на openrouter не замороченная, пускает любую почту, в поиске просто ввести free и будет много новинок, которые можно протестировать, в том числе и через API.

Например, интересный новый мердж двух моделей R1 и V3-0323:
https://openrouter.ai/tngtech/deepseek-r1t-chimera:free

Или неизвестная новинка от DeepSeek под названием Prover V2:
https://openrouter.ai/deepseek/deepseek-prover-v2:free

Проверил еще раз на модели R1 70B - 0.63 t/s. На простом запросе, более сложного не дождался. Вы оказались правы. Наверно когда грузил модели больше VRAM я не слишком сильно превышал пределы, может быть это было 40B и поэтому в памяти отпечаталось что скорость падала примерно до 1-3 t/s. В любом случае такие модели уже быстрее просто на хорошем многоядерном процессоре исполнять.

Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.

Это очень интересно. Технически достаточно дома железа что бы проверить две видеокарты в действие. У меня стоит 4090, могу временно одолжить из компьютера супруги 5070Ti (16Gb). Но это сделать сложно, использую обычную материнскую плату на AMD x470 чипсете. Там какие-то сложность с вторым PCI-E16x, если установлен второй SSD(возможно это на B450/550 чипсете).

Скажите, что важнее для второй видеокарты, скорость самого чипа или размер памяти? Или на ней то же будет производиться исполнение и важно и то и другое?

Важно и то и другое, но объем памяти важнее.

Сейчас хорошее время для сборки домашнего суперкомпьютера- фирменная мать Supermicro x10dri под xeon 26xx v3/v4 стоит на авито 20 тр и поддерживает до полутора тб озу, бум майнинга эфира завершился- 3090 сейчас стоят копейки..

Может вместо карточки от зажравшейся nvidia взять apple studio на 96гб универсальной памяти за 4к$? Если я правильно понимаю, то как раз должно хватать на 70b + чуть-чуть для рабочих задач остаться

ну или вообще mac pro на 192гб собрать. Но это уже почти 9k$

А 1,5B даже и не знаю кому и зачем может пригодиться

Мелкие модели (1.5-3B) - это, как правило, draft-модели для спекулятивного декодинга. Пока большая модель (от 70B) рожает ежа, draft-модель быстро подкидывает наиболее вероятные токены.

Вот простой способ.

  1. Качаем Lmstudio

  2. Запускаем, из неё выбираем подходящую модель, в том числе и эту.

  3. Запускаем и пользуемся хоть локально, хоть через веб.

    Делов на 3 минуты в 5 кликов. Дольше модели качать.

Заходим на чат.дипсик.ком

Пишем "как сделать омлет", и ниче качать не надо.

🥰

Подскажите, поддерживает ли LM-студия мульти GPU и (скорее всего нет, но вдруг) - кластер машин с GPU?

Молодец! Возьми с полки пирожок.

невероятно полезная а главное нужная статья. спасибо за то что захламляете интернет тоннами шлака

В таких статьях самое важное и интересное пишут в комментариях :)

Пища для обучения будущих нейросетей.

Если есть 30+ гигов RAM то лучше qwen3:30b-a3b использовать. Качество отличное 30b размеру соответствует, и с приемлемой скоростью вообще без GPU работает.

Подскажите, на каком CPU и сколько токенов\сек у Вас выдает?

i7-12700KF, DDR4 память. 8 т/с. Модель с q8 квантованием.

Скрытый текст

З.Ы. Эта же модель, но q4 на M1 max. 49т/с.

Скрытый текст

Автору спасибо!

Ещё бы кто написал такую же понятную статью о том, как новичку организовать свою подключаемую rag память. И чтобы было также локально у себя на ПК.

Скачать gpt4all и в нем в три клика добавить файлы :)

самый простой и некастомизируемый вариант - LMStudio - для простых задач справится. Можно прикреплять доки, дальше система сама придумает что с ними делать, целиком в модель засунуть, или сделать им раг.

Чуть сложнее но и побогаче в настройках - упомянутый в статье OpenWebUI+Ollama, можете прямо в поиске хабра спросить "openwebui rag" ввести и выбрать подходящее

И вот ставишь себе модельку размером, мама мия, в 600 Мб, еще думаешь, что мой телефон такое потянет в ОЗУ положить, спрашиваешь о чем-то, и получаешь вот это вот классическое:

Характеристика model:

  • Использование галлюцинаção для преодоления ограничений на обработку texto.

  • Низ्कийbit density, что означает, что выдвиры на результат более низки.

  • Оставив в заголовке строку, которую можно легко выгнрать из text.

И ладно, если такое использовать для написания статей в корпблог на Хабре (там и не такое стерпят, особенно, если вторым шагом вычитать и подправить, матерясь), а вот подключишь такое к курсору, начнешь писать управление ядерным реактором программу для кофеварки - и сам не знаешь, что тебя в чашке вместо кофе будет ждать. Хотя внешне прога будет прогой. С галлюцинациями, конечно, но прогой.

Такого размера модели разве что в качестве автокомплита только можно подключать (и то, я предпочитаю 1.5b или 3b хотя бы для этих целей).

А уж вопросы ей задавать по коду смысла прям мало.

Ну и от такого размера моделей, как правило, кроме английского языка, что-то еще требовать смысла мало.

Я привёл утрированный пример, как, почитав рассказы при небольшие модели у себя дома (причём, про выбор железа тоже как бы упомянуть надо - стоит один раз на ЦП погонять модель, и ее же на хоть какой-то видяхе, как вопросы пропадают, но тут напрямую говориться, что дома модель, в общем, не хуже платной!). Ниже о том же возражают.

Меня просто уже достали это know how состоящие (мо идее) из двух пунктов "поставьте lmstudio" и "скачайте модель из рекомендованных", вместо вот этого всего - итог-то будет один, без головы лезть не получится.

причём, про выбор железа тоже как бы упомянуть надо - стоит один раз на ЦП погонять модель, и ее же на хоть какой-то видяхе, как вопросы пропадают, но тут напрямую говориться, что дома модель, в общем, не хуже платной!

Упомянуть про выбор железа надо конечно, и его зависимость от модели. Но то что локальные модели бесполезны - не соглашусь. Писал пол года назад скрипты которые с помощью llm из тела email сообщений с чеками или из ocr фоток полученных из тессеракта выдирала со structured output магазин-товар-количество-сумма-валюта-ставкандс таблицы. Как раз было интересно получится ли сделать подобное. Локальная модель примерно на 20b параметров справлялась отлично. Модель на 8b работала похуже, но более менее неплохо. З.Ы. На русском языке чеки были + несколько на английском. Для локальных переводов, суммаризации, категоризации тоже неплохо себя показали. qwen3 10b+ в связке с экстеншеном Linguist по мне работает лучше гугл переводчика, и полностью локально. Если хочется быстро накидать прототип пет проекта, а с машинным обучением нормальным разбираться лень - небольшие (7b-30b) llm вполне себе универсальная затычка для многих случаев.

Меня просто уже достали это know how состоящие (мо идее) из двух пунктов "поставьте lmstudio" и "скачайте модель из рекомендованных"

С этим соглашусь. Кажется запустить локально llm любой опытный пользователь сегодня может (ollama или lmstudio ставятся далее-далее-далее-готово). Ну, если хочется на домашнем сервере с веб интерфейсом - любой эникей за несколько минут гуглежа найдет подходящий ему интерфейс и документацию к нему (которая в 90% docker-compose файл включает).

Ну и от такого размера моделей, как правило, кроме английского языка, что-то еще требовать смысла мало.

Да если бы они хотя бы на английском что-то вменяемое выдавали...

Так ведь даже на нём бредят.

я пробовал этим моделям прокидывать код на Swift и просил предложить другое название класса (1 запрос - 1 класс) - они даже с такой казалось бы простой задачей справлялись с потугами 50/50

С русским языком даже у многих 7b-14b проблемы (ну кроме Сайги по очевидным причинам). Используйте хотя бы qwen3:0.6b если уж очень хочется настолько мелкую модель.

Ага вот такие вкатуны понаставят себе 1.5B а потом жалуются на галлюцинации и что работать с ИИ невозможно. И раз и два и три статья. ИИ - ГОВНО! Вот и не заменит ДЖУНОВ!111

Нет, это Минерва-медиа - говно. Раз выпускает такие статьи. И другие решения она не заменит, пока таких джунов выпускает писать статьи от лица компании. Помойка.

14b нормальный комп тянет, но такие компы вкатунам не дают. Или компания их себе позволить не может, хе-хе.

Посмотрим правде в глаза, даже 32B модели для каких-то умных применений - не особо. Что уж говорить про 14B.

Зачем заменять джунов? Они и так почти бесплатные.

а потом жалуются на галлюцинации и что работать с ИИ невозможно. И раз и два и три статья. ИИ - ГОВНО! Вот и не заменит ДЖУНОВ!111

Сейчас наоборот хабр каждый день заваливается статьями про всемогусчий ИИ, который всех заменил ещё вчера. Вы из какой параллельной реальности пишете?

Хз, мне в rss как раз в основном валятся статьи в духе "я не боюсь что меня заменят и вот почему", или "посмотрите какую фигню ИИ накодил, мы в безопасности".

У модели DeepSeek 1.5B — 1,5 миллиарда параметров. Это немного по меркам топовых моделей, но для большинства задач этого хватает с головой.

ничего смешнее еще не читал. ради интереса есть примеры ответа такой модели? я знаю что есть phi и гугловские модели, которые специально делаются маленькими, но и они все равно больше

Нормально отвечает, в плане ума даже лучше чем на английском т.к. на английском модель явно переобучена, но русский так не пострадал. Новые резонинг и резонинг-плюс пока не тестил.

Для DeepSeek r1-1.5B вообще ничего не надо ставить, эта модель может работать прямо в браузере, вот ссылка https://huggingface.co/spaces/DimitriPletschette/deepseek-r1-webgpu

Самая большая модель которую я запускал прямо в браузере это DeepSeek r1 14B но для нее надо чтобы на видеокарте было больше 12Gb памяти. Работает это с иcпользованием WebGPU

Если не для умных применений, а для embeddings текста в индекс? Какая модель достаточно хороша, по минимуму, для простого поиска по knn вектору в индексе?

Видео карта с 16 гб стоит, вроде 4 серии nvidia. Насколько будет удручающая скорость, интересно.

Как я понимаю, длина текста который переводится в вектор, ограничена, как сделать предобработку текста? Резать на сегменты, тогда можно несвязанные логически куски обработать. Получается, что для предобработки тоже желательна нейронка, или просто в лоб, на предложения поделить... Поиск по нескольким векторам в документе уже будет не быстрым.

Вопрос по поводу RAG - как удалить информацию из модели? Предположим что работа не с архивом и документы ( знания) изменяются или удаляются.

Эти модели не имеют никакого отношения к нормальному Deepseek, это крошечные варианты Qwen \ Lllama \ etc, дообученные на ответах R1, для тех применений, что упомянуты в статье, они бесполезны полностью.

Способ установки излишне сложный, как сделать проще написали выше.

Потрясающие советы увеличить своп-файл.

Еще и статья написана нейронкой в большей части (хорошо хоть не 1.5B). Какой смысл писать такие статьи в корпблог? Это же равноценно прямому заявлению "нам плевать на наших (потенциальных) клиентов".

Пора запретить на хабре использовать нейросетевой контент.

Зато вполне приличное количество интересных каментов!

Не такие уж потрясающие на тему своп. В убунте из коропки в общем-то создается в виде файла. И это лучше, чем потом удалять/ресайзить lv. Но я за zram-swap, а лучше конечно вообще без swap

Товарищи, хоть кто-то еще в этом мире способен что-то сделать без докера?

Я понимаю когда вы в промышленную эксплуатацию запускаете систему, которую возможно потребуется масштабировать, а тут походу скоро вообще софт ставить разучатся, все через контейнеры. Бесит.

у докера помимо плюсов, есть и минусы - он же слоистый, собака такая, внутри.

Одной неосторожной командой при создании кастомного образа размер образа легко увеличивается в два раза.

У меня была установка проги в докер с пакетами, около 600 мегов, смотрю докер распух на 1.2 гига. По памяти могу ошибиться, кажется отдельно вызывался chown на скопированные файлы и новая команда все файлы у которых менялся владелец, заносила в новый слой. Хорошо что у докера есть опция chown в копировании.

Второе, логи и прочие файлы которые растут внутри докера и не вынесены на внешний volume - если присмотра за ними нет, докеру плохеет.

Третье, нужно регулярно делать бэкап рабочего диска. Я захожу раз в квартал и со свистка с Линукс копирую диск используя dd. В дополнение к бэкапу файлов. Мало ли, испортишь конфигурацию , проще откатить.

Имидж потом можно в виртуальную машину перенести , кстати, это удобно при миграции со старого компьютера или при смене ОС.

Способен. А вот без докера и без электрона - уже сомневаюсь 😭

Докер - это замена пакетам, вместо упаковки для самых разных осей и систем. Очень удобно, особенно для сервисов.

Еще бы винда в докере могла под линукс бегать.. Вот наоборот, вроде можно. Обидно

Винда в докере это уж совсем как-то ... изощренно.

Вроде линуксовый код в докере под виндой можно. Несправедливо это

имел в виду, код для Виндоус в докере, не саму ось.

Линукс в винде бежит на виртуалке, не мудрено :)

Тогда понятно. Я виндой пользуюсь раз в год на VMware, не в курсе был

Докер вообще никак не решает проблему разных осей, потому что докер-образы не содержат ядро операционки, а ожидают, что его волшебным образом дадут снаружи.

Так на винде он в полувиртуалке и бежит. А как по-вашему линукс контейнеры в винде работают?😀

Вот виртуалка решает проблему запуска софта для других ос. Но докер тут совершенно ни при чём.

Не пытайтесь переводить тему. Мое утверждение остается верным:

Докер - это замена пакетам, вместо упаковки для самых разных осей и систем. Очень удобно, особенно для сервисов.

Товарищи, хоть кто-то еще в этом мире способен что-то сделать без докера?

Те же мысли. Причём в ответ будет "если вы не используете Докер, то вы неполноценный"

Зачем все это, если можно просто запустить LM Studio и пользоваться удобным интерфейсом без плясок с бубном?

у меня видеокарта дома RTX 3090, тянет модель deepseek-coder-v2:16b, как раз помещается вся в видеопамяти, думал приспособить к кодированию net c#, посылаю одинаковые запросы в online версию и к себе. задание простое про рефакторинг сигнатуры метода, и прокидывание нового параметра во все вызовы выше вплоть до апи. ну и выдай мне зависимости классов, чьи имплентации тебе дать, чтобы ты там тоже внес изменения, online deepseek все четко выдал каких классов ему не хватает, загрузил, он выдал изменения, локальный deepseek - текущий файл правильно поправил, но выдал только половину нужных зависимостей и разбавил их системными, типа IEnumerable Dapper и SqlConnection, ну и дальше стал тупить, после второго файла из списка зависимостей, забыл задание. увеличение контекста почему-то не помогает.

Очень странная статья, так сложно, долго и неудобно... Назвали бы - как долго и сложно поставил llm локально.

Для начинающих на самом деле можно просто накатить на винду oobabooga text-generation-webui и экспериментировать с теми моделями, которые поместятся в видеопамять (или в оперативную память, если вы не против медленных ответов). Домашний сервер для этого не нужен.

Отлично подходит для простых задач и для общего понимания принципов общения с LLM, а так же для перебора моделей.

На 48 гигах VRAM (две 3090 или одна 3090 и что-то типа Tesla P40) уже можно запускать квантизованные 72B для теста, а это серьезно.

Чёт всё как-то супер-сложно.

Оно работает с пол-пинка. Зачем ставить 1.5? Она совсем-уж маленькая.

Нужен ЮаЙ? Ну ладно.

Ставите себе Zed, он из коробки работает с ollama.

У меня, чисто из интереса, из коробки работает 8b при том, что у меня щас запущен зум, и висит всякого гавна на всех закладках. При том, что у меня всего-то 18 гиг памяти, процессор больче чем на 25% не грузится.

Время на установку - 2 минуты на выкачку 4х гигов.

Решил попробовать по вашей статье и сразу два вопроса:

1)

Вы пишите про guff,

Примечание. Если модель deepseek:1.5b недоступна напрямую в Ollama, нужно импортировать её из файла. Загрузите файл модели (обычно в формате GGUF) из официального источника DeepSeek или из других доверенных источников вроде Hugging Face.

Но там этих моделей очень много :

DeepSeek-R1-Distill-Qwen-1.5B-f16.gguf DeepSeek-R1-Distill-Qwen-1.5B-IQ4_XS.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q4_0.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf
DeepSeek-R1-Distill-Qwen-1.5B-f32.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q2_K.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q4_1.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q6_K_L.gguf
DeepSeek-R1-Distill-Qwen-1.5B.imatrix DeepSeek-R1-Distill-Qwen-1.5B-Q2_K_L.gguf

и тд

Какую использовать то для работы?

2)

root@ii:/home/deepseek# docker exec -it ollama ollama import deepseek-1.5b.guf deepseek-r1:1.5b
Error: unknown command "import" for "ollama"
root@ii:/home/deepseek# docker exec -it ollama ollama help
Large language model runner

Usage:
ollama [flags]
ollama [command]

Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command

Flags:
-h, --help help for ollama
-v, --version Show version information

и судя по гуглу такой команды не было, как это у вас работает?

Кстати, непонятно зачем руками скачивать gguf с Hugging Face, куда-то подкладывать и т.п., если ollama из коробки скачивание с Hugging Face сама поддерживает. https://huggingface.co/docs/hub/ollama

Большое, искреннее спасибо автору статьи.
Великолепная пошаговая инструкция, демонстрирующая работу различных технологий в связке --- от контейнеризации до локального развертывания LLM с доступом через веб-интерфейс. Мои курсанты будут в восторге.
У вас очень хорошо получается объяснять. Отчетливо видна и техническая грамотность и любовь к своему делу.
Пожалуйста, продолжайте рассказывать о таких полезных вещах, и не обращайте внимания на визгливую плесень из троллятника. Завистливое невежество всегда агрессивно.
Еще раз спасибо! Держитесь. Жму руку.

Встретил эту статью вроде на vc, как раз тестировал мини-модели для своего домашнего nextcloud. Решил проверить, но так и не понял, в чем прикол модели в статье, она ни слова мне нормально не ответила.
Пока остановился на llama3.2 на 3b, она хотя бы связный текст сочиняет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий