21_copilots 14 мая в 13:51

За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле

Простой

11 мин

79K

Блог компании MinervasoftТестирование IT-систем*IT-инфраструктура*Машинное обучение*Искусственный интеллект

Туториал

Recovery Mode

+77

147

Комментарии 147

13werwolf13 14 мая в 13:59

очередная пустая статья ниочём.

зачем в этой схеме докер, почему webui а не что-то поудобнее, ни слова о производительности, ни сравнения с другими моделями (скорее всего потому что нормальным моделям нужно сиииильно больше памяти)..
мог бы минусануть - минусанул бы

loyal_carner_07 14 мая в 14:13

Очевидно же, что статья для новичков. А docker, ollama и openui выбраны как самые простые способы установить ИИ и начать с ней РАБОТАТЬ

MountainGoat 14 мая в 14:35

Это сложные способы. Особенно если Докер не стоит уже налаженный и пользоваться им человек не умеет. Простой - это скачать KoboldCPP.EXE и запустить двойным кликом. Всё, никаких окружений, соединений контейнеров и прочего.

Если очень надо на Linux, там есть такой же бинарник.

ArtyomOchkin 16 мая в 16:28

Про это, кстати,тесть целая статья.

IgorLutiy 14 мая в 16:56

Для новичков LM Studio. Скачал, установил. Скачиваешь из нее же любую модель (на которую хватит ресурсов машины) и пользуешься. Буквально 3-4 клика.

ainoneko 15 мая в 19:57

1009 мегабайт -- это всего лишь оболочка для скачивания моделей? :)

AcckiyGerman 15 мая в 21:19

Чего не написали 1033216 Кб, ведь ещё внушительнее же?
Кстати, 1 Гб это в тысячи раз меньше размеров самих моделей.

slonopotamus 15 мая в 21:43

Размер самих моделей никак не объясняет какого чёрта скачивалка весит гигабайт.

Zdnkaa 17 мая в 09:04

Программа весит - 1 гигабайт.

Модель deepseek 1.5B, - 1.5 гигабайта.

Разница размеров огромная, в 1000 раз больше плюс минус, я считать не умею.

Для справки, 1 миллиард параметров = 1 гигабайт веса и 1 гигабайт Видеопамяти занимает

ainoneko 20 мая в 09:04

Чего не написали 1033216 Кб

То, что браузер сообщал при скачивании, то и написал.

ведь ещё внушительнее же?

Ещё внушительнее 1057548627 байт, уже после скачивания.

molnij 16 мая в 07:04

Нет, это оболочка для скачивания моделей, непосредственно запускалка этих моделей (включая немаленькие библиотеки куды, если память не изменяет), ну и сам интерфейс с обвязкой и полгига электрона, куда ж без этой раковой опухоли..

AndrewBond 16 мая в 13:54

...и вебсервер еще для предоставления доступа к API

Bardakan 16 мая в 16:06

возможности по работе с моделями упираются в процессор и оперативную память, возможно в видеокарту. Вы на полном серьезе зажали 1 гиг ssd для среды для работы с моделями, когда в 2025 такой объем стоит копейки?

ainoneko 20 мая в 09:09

Вы на полном серьезе зажали 1 гиг ssd для среды для работы с моделями, когда в 2025 такой объем стоит копейки?

Я на полном серьёзе это скачал и это попробовал: c "DeepSeek-R1-Distill-Qwen-7B-GGUF" работает со скоростью полтора токена в секунду.
А зажал я денег на отдельную мощную видеокарту, которая тоже стоит копейки, но очень большое их количество.

Kollubov 29 мая в 01:33

Это "всего лишь" заменяет геморрой с сервером, докером, олламой, Open WebUI. Я устанавливал LLM на виндоус (не помню уже какую именно модель), как раз со всеми этими делами, и консольного гемора нахлебался прилично - часа на три, включая малопонятные сбои при установке, скачивании и конфигурировании дистрибутивов всего этого набора, анализ логов, перекачку. Ради того, чтобы через все это скипануть, гигабайта места не жалко.

george3 16 мая в 20:38

не знаю почему но с моим RTX 3090 LM studio работает в 5 (!!) раз медленней TPS чем ollama. поэтому только Ollama + PageAssist - всегда в броузере рабочая ЛЛМ.

StasTukalo 16 мая в 20:42

Нифига себе разница! Не разбирались почему?

george3 16 мая в 21:04

тупо LM studio GPU загрузка 20% вместо положенных 95-98 у ollama . пофиксил удалением LM studio.

linux-over 14 мая в 14:16

Эм. докер - очевидно для того, чтобы не геморроиться настраивать окружение, а скачать его.

Насколько я вижу, гуй к этому - другой докер. Получается всё правильно: нужен модуль - берёшь модуль, нет - нет.

Не очень я понял Вашей гневной реакции и стремления минусовать. Да статья не идеал. Я бы хотел видеть готовые конфиги уровня docker-compose (вместо ручного управления), но даже в таком виде очень хорошо:

я, например, до этой статьи и не задумывался, что можно попробовать подобного уровня вещи запускать на своём ноутбуке. А теперь вот выделю время и поиграю.

То есть у таких статей ценность не только в том, "как настроить", а в том, что посредством их доносится информация о том, что "это вообще возможно".

Я лично плюсанул.

13werwolf13 14 мая в 14:47

давайте я сокращу статью:

sudo zypper in -y ollama # никакого геморроя, просто ставится
sudo systemctl enable --now ollama # никакого геморроя, просто запускается
ollama pull deepseek-r1:671b #ну тут модель конечно каждый под своё железо выбирает

а уж сколько разных клиентов есть которые будут и проще для новичков и удобнее и легковеснее я наверное промолчу. тем более что львиная доля вообще не будет юзать отдельный клиент а задействует плагин для своей ide.

Ну вот и объясните мне зачем захламлять систему лишними ненужными сервисами, лишним рантаймом и тратить время на написание статьи ниочём?

это не статья для новичков, это статья для отпугивания новичков.

ioannes 15 мая в 19:25

Это Минервасофт, у них все статьи такие.

rodial 15 мая в 23:41

Устанавливал я его на ноутбуке, работает, отвечает по теме, но очень уж часто глючит, временами вообще кракозябру выдаёт.

HyperWin 14 мая в 14:17

Карма автора такая явно не просто так. Очень понравились фразы про то что DeepSeek не запустится на захламленной системе (шьто? Скачал репу, сбилдил, запустил) и что из артефактов выделил "добре", когда она там сыпет иероглифами и таким подобным. Разрешает пользователю использовать докер без root прав... Зачем??

nochnoj 15 мая в 07:26

Я не в восторге от статьи, но критика неконструктивная. Критикуя - предлагай. Чем плох OpenWebUI? Что "поудобнее"? Какие модели лучше, что не требуют много памяти?

Иначе это просто бессмысленный негатив.

Aelliari 15 мая в 08:39

Критикуя - предлагай

Критик не обязан делать предложения, но должен аргументированно указывать на «слабые», по его мнению, места. Иначе это не критика

punhin 23 часа назад

если не следовать принципу "критикуя - предлагай", то критика получается неконструктивная, а зачастую - бессмысленная и беспощадная, особенно когда основана на чьём-то индивидуальном мнении... необходимость внести своё предложение хорошо остужает пыл "аргументированных критиков".

janvarev 15 мая в 09:24

Выше писали про LMStudio: https://habr.com/ru/companies/minerva_media/articles/909130/comments/#comment_28304868

Вот на Хабре про скорости генерации локально на моделях разных размеров:

https://habr.com/ru/articles/896204/

13werwolf13 15 мая в 09:40

Чем плох OpenWebUI?

да хотя бы тем что он web, кмк этого уже достаточно.

Что "поудобнее"?

как я уже написал выше любой плагин для вашей любимой ide будет поудобнее, а если ии вам нужен не для IDE то любой нативный клиент

Какие модели лучше

те которые требуют по теробайту памяти

что не требуют много памяти

вы или крестик или трусы... к сожалению чем больше моделька умеет и чем лучше работает тем больше она требует памяти, ну не хватит всем 640кб, это миф. да и проца вам не хватит.. и нервов..

зато в тренде

Black_Unbreon 16 мая в 08:56

Последние 2 цифры картинки это видимо айфоны и LLM, а остальные про что?

Aleus1249355 16 мая в 12:26

До этого был хайп с нанотехнологиями. Кстати, где они сейчас ?

До этого 21й век .

До этого мода на 2000й год. Воооу, современно.

На счёт троников не знаю, не застал

Ogoun 19 мая в 21:01

Все от задач зависит, лично мне именно web удобен, пробросил наружу, и пользуюсь откуда угодно моделями на моем железе. ollama + webui как в статье. Отдельно к ollama интегрирую через его API другие инструменты.

13werwolf13 19 мая в 21:25

пробросить наружу (парой десятков разных способов включая открытие порта или постановку любого ингреса наподобии nginx) можно и сам api ollama и так же юзать его откуда угодно любым удобным клиентом а не вебмордой..

Ogoun 19 мая в 22:33

Конечно, я говорил не об этом, а о конкретных задачах. В моих удобна веб морда и ollama.

Okeu 15 мая в 12:39

Критикуя - предлагай

Назвать статью "За полчаса установил QWEN 1.5B..."
ого, выглядит уже не так хайпово?)

sergeym69 15 мая в 16:54

Вот это намного удобнее https://github.com/n4ze3m/page-assist это расширение для браузеров, устанавливается в браузер и работает и не только с Ollama и возможностей у него больше, в том числе есть поддержка RAG

Okeu 15 мая в 12:36

еще и в очередной раз это хайпово называют "запустить DeepSeek" хотя им оно не является, это QWEN с 1.5B параметров, которую дообучали на синтетике от DeepSeek

Antra 15 мая в 21:15

Причем "родной" Qwen3 практически наверняка будет не хуже.

По крайней мере у меня когда видеопамять загружена другими задачами, и Ollama оффлоадит значительную часть qwen3:30b на CPU, это, конечно, чувствуется, но не катастрофически. Мелкие модели CPU тем более потянет.

astromc 15 мая в 14:21

Поддерживаю, начал чтение - и мысль - неужели тут автор обойдётся без очередной обёртки в виде Докера. Но дальше сюрпрайз - ставит Докер.

Есть же Ollama, есть llama.cpp, есть KoboldCPP - их достаточно априори, при наличии мозгов - на кой лишний гемор, занимающий место, и отнимающий ресурсы.

Риторические вопросы, имхо.

Rezzet 14 мая в 14:28

У меня сервер работает под TrueNas Scale там это все разворачивается тремя кликами, OpenWebUI можно поставить сразу с встроенным ollama, можно сделать пять кликов и поставить ollama отдельно.

Но все это действительно не имеет смысла. 1.5B это ооооочень маленькая модель, зачем она нужно вообще не сильно понятно, какой-то сервис сделать с донастройкой(дообучением) под внутренние или внешние задачи проекта(компании).

Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.

Можно локально развернуть и 670B - но тут как говорится два стула: первый развернуть на CPU и это относительно дешевый вариант, т.к. найти сервер с 1,5Tb памяти не так сложно как кажется и не так дорого, стартовый ценник от $1k, если использовать старые Xeon, до $5k, если брать что-то поновее типа EPYC. Только в любом случае получите производительно 1.5-3 токена в секунду и ответы у вас будут минут за 20 появляться, а то и больше, когда контекст разговора вырастет. Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100). И снова не сильно понятно зачем это нужно, первый вариант работает слишком медленно что бы им пользоваться, а второй вариант непонятно зачем нужен если вы можете купить доступ к апи за гораздо меньшие деньги. За те же $10k вам доступа к апи хватит надолго, даже на продовый продукт, очень сомневаюсь что в ваш стартап сразу прибегут миллионы пользователей, а привлечь какую-то аудиторию и сделать софт-ланч точно хватит и $10k.

Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090 и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.

На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет представит, но ценник все равно будет не маленький это будут тысячи долларов(думаю 5-7). Если счет идет на тысячи долларов то можно думать о NVIDIA RTX PRO 6000(96Gb) - это 70B модели будет тягать очень бодро, ценник около $12k.

Вот и все реалии. А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.

tiagon 14 мая в 15:12

я на 4070ti super развернул gemini 27b. работает шустро, но справляется плохо и непонятно зачем оно нужно. даже разворачивал модель на 70b и она все равно справлялась плохо и вдобавок работала на 2 токена в секунду (да, это обычный домашний комп с 64 гигами оперативки). Нормальные, обученные модели - все равно прерогатива больших компаний, которые делятся с тобой частичкой благодати через браузер (для большинства пользователей).

Rezzet 14 мая в 15:41

gemini 27b не самая лучшая модель. Если хотите хорошие локальные модели то это: gemma3:27B, qwen3(чем больше тем лучше), QwQ-32B

tiagon 14 мая в 19:02

да, прошу прощения. имел в виду именно gemma3:27b

xenongee 19 мая в 08:14

Модели Gemma 3 12B, 27b хороши как чат-боты, для творческого письма и т.п., а в программировании сильно уступают моделям от Qwen (QwQ 32B, Qwen 3 12B, 32B и выше)

alan008 14 мая в 22:21

Там вместо QwQ-32B недавно же Qwen3 привезли.

https://ollama.com/library/qwen3

Rezzet 15 мая в 00:40

А вы внимательно прочитали мое сообщение? прочитайте еще раз текст написанный до "QwQ-32B".

alan008 15 мая в 17:53

точно, начало и конец прочитал, а середину - нет :)

BadNickname 15 мая в 00:28

Gemma - одна из лучших в целом моделей которые сейчас есть под руками.

Вопрос, опять же, в том, чего вы от неё хотите.

janvarev 14 мая в 18:55

Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.

Вот да - постоянно объясняю, что стоимость вызова на какой-нибудь дешевой Google Flash 2.5 будет 1-2 копейки за вызов, около 100 токенов в секунду скорость генерации. У Дипсика будет... ну 2-5 копеек. На 1000 вызовов - 20-50 рублей, оно вообще ни о чем.

И домашний вариант - ну, на небольшой модели можно выжать до 30-40 токенов в секунду, модели побольше уже 5-8, если влезут.

Neikist 14 мая в 19:29

Облачные версии поголовно зацензурированы. Тогда как для локальных открытых энтузиасты делают файнтюны эту проблему решающие. Плюс не хочется зависеть от наличия интернета/блокировок ркн. Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.

alhimik45 14 мая в 19:32

Можно использовать провайдеров OpenSource LLM, которые дают OpenAI compatible api и ничего не цензурируют сами. Подключать к тому же Open WebUI и всё

Neikist 14 мая в 19:55

Так цензура уже в весах моделей зашита. В т.ч. в большинстве моделей с открытыми весами. Потому и нужно на hf выискивать файнтюны которые ее убирают. Причем расцензуривают как правило небольшие модели как раз, которые и так на локальной железке можно запустить, и не тратить совсем ничего, плюс не зависеть от сети.

alhimik45 14 мая в 20:10

Просто есть ещё модерация поверх самой модели в нативных чатах (DeepSeek, вырезающий упоминания Си, и. т. п.). А, если именно ту цензуру что в весах, то да. Тут только локальные расцензуренные.
Ну и они всегда будут маленькие, потому что переобучить большие у энтузиастов ресурсов нет :(

Neikist 14 мая в 20:12

С другой стороны современные небольшие (30b и около) модели в целом уже достаточно хороши. Сравнимы с chatgpt 3, а то и 3.5. И для простых задач типа переводов, отыгрышей персонажей, по мелочи код поправить или объяснить и т.п. их в целом хватит.

Jacov911 14 мая в 19:35

Но облако в котором вы это развернули, тоже не бесплатное...

Neikist 14 мая в 19:36

Зачем облако, если речь про запуск на локальном компе/домашнем сервере (который и так под разные selfhosted сервисы стоит)?

Jacov911 14 мая в 19:52

Аргумент) если конечно у вас просто "свободные" такие вычислительные мощности и достались бесплатно + не просят розетку :)

Neikist 14 мая в 20:04

Ну как бесплатно. ПК, на котором у меня ollama крутится дома, для игр и VR используется в основном. Так что 4080 super там стоит на 16 гигов. Модели до 22b (с квантизацией, конечно) на ней неплохо работают. Впрочем, qwen3:30-a3b там и чисто на CPU отлично работает, даже если ни слоя в видеопамять не загружать - 10 токенов в секунду, а если закинуть часть слоев в GPU то и того быстрее. qwq:32b уже облом что на GPU с таким объемом памяти, что на CPU, банально медленно слишком, токен в секунду, где то. Хотя когда qwq:32b пользовался - запускал ее на M1 max с 32 гигами RAM, там работала неплохо, хоть ноут и звучал так будто взлетать собрался.

Ну а уж потраченное на эти запросы электричество точно меньше чем плата облачным провайдерам за вызовы api.

З.Ы. Стоит уточнить что большие тексты я не обрабатываю с LLM. Типичный промпт за пару тысяч токенов у меня почти никогда не вылезает. А 95 перцентиль наверно и вовсе не вылезает за 500. Если именно с большими текстами работать надо - тут ради удобства логичнее какой-нибудь моделью на openrouter воспользоваться.

janvarev 15 мая в 09:27

Ну, не поголовно... оригинальный DeepSeek (большой) вообще-то почти без цензуры.
Скорости в локальных генерациях довольно малы, я писал про оценки здесь: https://habr.com/ru/articles/896204/

valera_efremov 15 мая в 11:25

Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.

У вас бесплатное электричество?

Neikist 15 мая в 12:01

На фоне стоимости за вызовы api (даже если именно те же самые модели по api дергать) - можно сказать что и да. Рублей 400 в месяц за все электричество потраченное всеми потребителями в квартире плачу. Где-то раз в 100 дешевле выходит, чем api, думаю. Если не в тысячу. Ну а вы кажется любите к словам прикапываться.

BelerafonL 15 мая в 09:34

Ну а что делать, если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать? Мне бы просто загрузить в контекст модели pdf и вопросы позадавать по нему хотя бы. Пусть хоть медленно, но хоть что-то. Так-то да, через openrouter вообще куча моделей доступна как free, в том числе даже deepseek-chat-v3-0324:free. Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты. На том и живут. А для дома... ну это как хобби проект, чтобы применить знания работы с локальными LLM потом где-то ещё.

janvarev 15 мая в 09:47

если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать?

Это да, без вариантов ))

Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты.

Бесплатные да, платные обычно нет, но надо смотреть, конечно. И чувствительные данные, согласен, только на локалке )

Я вообще-то просто про пет-проекты написал, типа, что-нибудь там проклассифицировать 1000 накаченных PDF-ок. Там имхо удобнее через API, и быстрее.

alhimik45 15 мая в 10:35

все чёрным-по-белому пишут, что собирают пользовательские промпты

Всё же не все. На openrouter есть специальная пометка по поводу сохранения данных и ссылка на Privacy policy, так что можно самому прочитать по конкретному провайдеру. Я ресерчил этот вопрос. Есть те, кто явно пишет что ничего не сохраняет, как DeepInfra или Groq. Есть те, кто помечены как несохраняющие, но в их соглашениях промпты просто не упоминаются ни в одну ни в другую сторону. Есть те, кто изначально писал что будут тренить свои модели, как Nebius AI, но потом обновили соглашение и убрали пункт (но осадочек остался, да).

RH215 15 мая в 17:58

Доверять тому, что написано в соглашении - такое себе, особенно, если ты не многомиллиардная компания со штатом юристов. Чувствительные данные всё равно стрёмно отсылать.

JBFW 15 мая в 13:41

Все не-локальные решения чреваты тем, что завтра какая-нибудь очередная говорящая голова что-нибудь скажет или сделает - и хозяева сервиса обидятся и вам доступ отрубят, за компанию.

Потому что у говорящих голов своя реальность и на ваши мелкие проблемы чихать.

Theio 16 мая в 05:13

1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.

2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.

3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.

Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история

BadNickname 15 мая в 00:27

Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100)

Нет.

Сейчас предел для энтузиаста это модели 30B

Нет.

А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.

Отличные классификаторы, особенно после дообучения.

На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет

Китайцы уже продают 4090 на 48GB за 3.5к$.

Shannon 15 мая в 07:08

Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090

Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб, чтобы вмещать 72B IQ4_XS полностью в vram.
А 5090 + 16гб открывает доступ к 123B моделям (Large 2 123B или Command A 111B).

и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.

Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать, чтобы случайно не залезть в него.
Падение на 70B моделях с 2 t/s до 0.01 t/s.

Вот и все реалии.

Еще со времен первой MoE модели, которую Mistral представили 2 года назад, это не так.
У них была Mixtral-8x7B размером 46.7B и она показывала себя сильно лучше 30B тех времен, модель обходила Llama2-70B и конкурировала с chatgpt-3.5.

После этого MoE шагает по планете, включая проприетарные модели, вроде Grok, Gemini и по слухам gpt-4o.

Для энтузиастов сейчас есть такие локальные MoE:

Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.
Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.
Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.
DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.

Граница комфортного использования это где-то 5 t/s.

Детали не так важны, главное, что энтузиасты дома не заперты на 30B моделях и никогда не были. До этого была отличная MoE модель Mixtral 8x22b и её отличный файнтюн WizardLM-2.

Душные детали. Почему MoE быстрое и большое, а Dense тяжелое. Параметры запуска для ускорения

MoE модели не монолитны, они состоят из отдельных экспертов и на вычисление каждого токена на каждом шагу задействуется только часть экспертов. На каждом шагу MoE-роутер выбирает какие эксперты будут задействованы для следующего токена, они могут быть как разными, так и совпадать какое-то время, и на каждом шагу работает только ограниченное число экспертов, поэтому модель работает в разы быстрее, чем Dense модель такого же размера.

В теории Dense модели такого же размера будут лучше, но на практике это не всегда так. Был пример Dense модели Llama 3.1 размером 405B, она выступала не сильно лучше, и даже хуже, чем модель Llama 3.3 70B.

Ускорение для MoE можно достигнуть выгрузив тензоры всех экспертов в GPU, всех кроме тяжелых ffn тензоров, это делается через команду: -ot exps=CPU или --override-tensor "([0-9]+).ffn_.*_exps.=CPU"

Архитектура MoE бывает разной, например, Llama 4 имеет общих экспертов, и так как общие эксперты участвуют в вычислении токена на каждом шагу, то выгрузка тензоров дает хорошее ускорение, так как общие эксперты всегда в быстрой видеопамяти.

У Qwen3 нет общих экспертов, поэтому тут не получится получить стабильное ускорение, но можно выгрузить столько экспертов, сколько влезает через команду: -ot blk.(1[2-9]|[2-8][0-9]|9[0-3]).ffn.*=CPU
Команда указывает, что первые 11 экспертов пойдут на GPU, а остальные 82 на CPU. Тут обычное регулярное выражение, 11 слоев рассчитаны на 24гб vram.

Если несколько видеокарт, можно тензоры раскидать по устройствам:

-ot "blk\.([0-9]|1[0-2])\.ffn.*=CUDA0" -ot "blk\.(1[4-9]|2[0-3])\.ffn.*=CUDA1" -ot "ffn.*=CPU" -ngl 95

Это работает и на обычной llama.cpp, но так как много тензоров остаются на CPU, полезно будет взять ik_llama, откуда и пришли все эти оптимизации с override-tensor - это форк llama.cpp который затачивается на оптимизации работы на CPU, улучшенные кванты, которые конвертируются на лету из обычных, и немного ускоряет GPU.

В командную строку нужно добавить параметры: -fmoe -amb 512 -rtr
-rtr параметр который запускает автоматическую конвертацию модели в улучшенный квант от ik_llama, но он отключает mmap (если mmap включен и модель не влезла в память, она будет загружаться с диска), поэтому модель будет загружаться сразу в память и памяти должно быть достаточно.
-ngl сколько выгрузить слоев на gpu.

Подробнее про значение всех команд: https://github.com/ikawrakow/ik_llama.cpp/discussions/258

Благодаря оптимизациями от ik_llama, то, например, Maverick 402B если запускать его через ik_llama.cpp, то на 32k контексте скорость с 19 t/s падает всего до 15 t/s, при расходе видеопамяти 14гб.

Пример полного запуска

./llama-server -m "Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf" -fa -ctk q8_0 -ctv q8_0 -c 32768 -fmoe -amb 512 -rtr -ot exps=CPU -ngl 95 --threads 8

Если у вас больше 1 GPU, то будет ошибка при выгрузке всех возможных слоев через -ngl 95 и придется снизить её до 93-94. Это снизить скорость генерации, поэтому лучше собрать ik_llama добавив DGGML_SCHED_MAX_COPIES=1 (по умолчанию 4):

cmake -B ./build -DGGML_CUDA=ON -DGGML_BLAS=OFF -DGGML_SCHED_MAX_COPIES=1

У https://huggingface.co/ubergarm/ есть кванты заточенные под ik_llama, включая команды запуска и другие подробности.

Rezzet 15 мая в 13:59

Спасибо за ответ, достаточно познавательно.

Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.
DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.

Я о этом говорю, где граница комфорта тут каждый сам решает. Как по мне меньше 20 t/s так себе.

Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать,

Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.

Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб

А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?

Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.
Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.

Они недавно совсем вышли, никогда их не пробовал. Для моих задач дипсика и грока хватает, мне так простой код сгенерить, еще за развернутой справкой и примерами обращаюсь. Так то код умею писать, просто тяжело всю документацию в голове держать.

StarJohn 15 мая в 18:21

Я использую text-generation-webui на 3090 и Tesla P40 (24 + 24 Гб), там ничего настраивать не надо, для квантизованных GGUF просто надо указать пропорцию разделения модели между двумя "памятями".

Shannon 16 мая в 03:35

Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.

У Nvidia настройка CUDA System Memory Fallback или CUDA политика резерва системной памяти, по умолчанию включена, когда в память gpu не влезают данные, она загружает их в "своп" в обычную память, в эти моменты модель начинает дико тормозить, как и вся система.

Может показаться, что это работает просто от того, что ollama или LM Studio не эффективно заполняют vram, и там есть еще место. Если у вас это действительно работает, то это стоит изучить подробнее.

А так, у всех проектов основанных на llama.cpp есть возможность выгружать часть слоев на GPU, сколько хватит памяти, а часть оставлять на CPU. LM Studio делает это автоматически. В новой версии можно явно указать, чтобы модель не выходила за пределы реальной памяти.

А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?

Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.

Если у вас разнородные видяхи, например, у 4060 память имеет скорость 288 гб/с, у 5060 448 гб/с, а у 4090 1 тб/с, то нужно выбрать стратегию приоритетной разгрузки, сначала максимально загружать 4090, а потом остальные, а не разгружать слои равномерно.

Ну и еще несколько деталей:

В LM Studio пока нельзя указывать override-tensor, если интересует эта опция, то придется воспользоваться text-generation-webui, там это указывается в extra-flags поле. Это в основном затронет MoE модели, для остальных не важно.
В text-generation-webui можно легко создавать множество ролей и быстро переключаться между ними, у каждой роли будет своя история диалогов. Тут легче закидывать модели для тестирования, достаточно копировать их в models папку, не нужно создавать подпапки как в LM Studio.
Если есть встройка, можно в Windows в "настройках графики" указать путь до любого exe'шника, например, браузера или оболочки винды dwm, и перекинуть их на встройку, чтобы высвободить занятые пару гб под винду и браузер. Либо в браузере отключить 3d ускорение, а в настройках графики Windows отключить планирование gpu с аппаратным ускорением. Это имеет смысл, если не хватает чуть-чуть до загрузки целиком модели в vram.
В LM Studio полезно выбирать версии квантов, например найти unsloth версии. IQ4_XS кванты, влезают в 40гб vram для 70-72B моделей, а UD-Q2_K_XL влезет в 32гб.
В LM Studio или ollama не оптимально в автоматическом режиме заполняется VRAM, когда можно загрузить еще 3-4гб они не догружают. Тут поможет ручное управление, мониторить nvidia-smi или диспетчер задач, и смотреть реальную загрузку памяти.
У LM Studio по умолчанию выключено квантование KV-кэша, если его включить, можно еще выиграть пару гб.

Немного информации про разные кванты

У gguf есть 2 вида квантов: статические k-кванты и i-кванты с применением матрицы важности imatrix. k-кванты просто квантуют тензоры, без выбора какие тензоры важнее в общей куче. В i-квантах приоритет отдается квантам, которые подсвечиваются через imatrix. imatrix создается из txt файла с различным набором текстов, поэтому финальная модель будет квантована с учетом тех видов текстов, что там были, и можно сделать свою imatrix заточенную, например, на нужный язык.

Все квантуют по разному, поэтому кванты называются одинаково, но они будут разные. Например, самые популярные кванты от bartowski заточены на английский язык, он использует английскую imatrix везде, даже не для i-квантов, он квантует статичные k-кванты вплоть до Q6 через английскую imatrix. Если у вас приоритет на другой язык, лучше взять статичные кванты от lm-studio, или новые кванты от Unsloth.

В ik_llama есть продвинутые кванты, они на данный момент лучше остальных вариантов. Такие кванты могут конвертироваться на лету через ключ -rtr при загрузке модели, но это отключает mmap. Можно их переконверитровать и сохранить результат, либо немного готовых есть у https://huggingface.co/ubergarm. Но это для совсем энтузиастов, которые хотят выжать максимум из минимального объема, и которые не боятся компиляции и консоли, так как ik_llama не предоставляет готовые бинарники.

Они недавно совсем вышли, никогда их не пробовал.

https://openrouter.ai/meta-llama/llama-4-scout:free
https://openrouter.ai/meta-llama/llama-4-maverick:free

Регистрация на openrouter не замороченная, пускает любую почту, в поиске просто ввести free и будет много новинок, которые можно протестировать, в том числе и через API.

Например, интересный новый мердж двух моделей R1 и V3-0323:
https://openrouter.ai/tngtech/deepseek-r1t-chimera:free

Или неизвестная новинка от DeepSeek под названием Prover V2:
https://openrouter.ai/deepseek/deepseek-prover-v2:free

Rezzet 16 мая в 13:32

Проверил еще раз на модели R1 70B - 0.63 t/s. На простом запросе, более сложного не дождался. Вы оказались правы. Наверно когда грузил модели больше VRAM я не слишком сильно превышал пределы, может быть это было 40B и поэтому в памяти отпечаталось что скорость падала примерно до 1-3 t/s. В любом случае такие модели уже быстрее просто на хорошем многоядерном процессоре исполнять.

Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.

Это очень интересно. Технически достаточно дома железа что бы проверить две видеокарты в действие. У меня стоит 4090, могу временно одолжить из компьютера супруги 5070Ti (16Gb). Но это сделать сложно, использую обычную материнскую плату на AMD x470 чипсете. Там какие-то сложность с вторым PCI-E16x, если установлен второй SSD(возможно это на B450/550 чипсете).

Скажите, что важнее для второй видеокарты, скорость самого чипа или размер памяти? Или на ней то же будет производиться исполнение и важно и то и другое?

StasTukalo 16 мая в 19:19

Важно и то и другое, но объем памяти важнее.

Сейчас хорошее время для сборки домашнего суперкомпьютера- фирменная мать Supermicro x10dri под xeon 26xx v3/v4 стоит на авито 20 тр и поддерживает до полутора тб озу, бум майнинга эфира завершился- 3090 сейчас стоят копейки..

Shannon 16 мая в 23:01

Но это сделать сложно, использую обычную материнскую плату на AMD x470 чипсете. Там какие-то сложность с вторым PCI-E16x, если установлен второй SSD(

Вы можете подключить gpu в любой маленький x1 pcie, или урезанный x16, либо даже в слот для nvme через переходник. Для инференса достаточно x1 pcie 1.0, не важны ни x16 линии, ни версии pcie.

Ширина канала виляет только на время загрузки слоев в память видеокарты - один единственный раз во время загрузки модели, а на сами вычисления это уже никак не влияет. На материнках обычно стоит много pcie 3.0 x1, это 1 гб/с, если загружать с sata ssd, то упретесь в скорость диска, а не канала pcie, а если с nvme, то будет 16 секунд на загрузку, вместо 6 секунд.

Так что можно утыкать всю материнку кучей видях через удлинители, на localllama периодически люди выкладывают своих монстров франкенштейна, где видеокарты кто как смог закрепил вне корпуса, и там обычно их от 4 до 10.

В типичный домашний комп можно без проблем засунуть 3.5 слотовую 4090 и 2 слотовую 4060ti/5060ti, нужно только материнку правильно подобрать, чтобы расстояние между двумя pcie было достаточным. У меня на b550 phantom gaming 4 идеально влезло, не пришлось ничего придумывать.

Скажите, что важнее для второй видеокарты, скорость самого чипа или размер памяти? Или на ней то же будет производиться исполнение и важно и то и другое?

Слои распределятся по видеокартам, поэтому каждая будет вычислять, но требования к этому на столько малы по сравнению к скорости памяти, что фактически важны только объем и скорость памяти.

Akr0n 17 мая в 03:20

С каким процессором и памятью используете эту материнку? Скорость инференса на CPU не подскажете?

Shannon 17 мая в 11:31

Во всех случаях запуск llama-bench сборки без GPU, только avx2. Если запускать через сборку с GPU, даже если указать -ngl 0, pp будет считаться на GPU.
pp - это подготовка промпта и всей истории диалога.
tg - генерация новых токенов.

AMD Ryzen 5600g + b550 phantom gaming 4 + 4x 16gb ddr4 3600 16-19-19-39 CR1
Чтение в aida: 50851 MB/s
Latency: 74 ns
Модель saiga_nemo_12b.Q8_0, запуск llama-bench сборка без GPU, только avx2:

pp: 13.52 t/s
tg: 3.89 t/s

Intel Core i7-14700 (без K) + msi pro z790-p + 2x 48gb ddr5 6400 KingBank 32-39-39-99 CR2
Чтение в aida: 97709 MB/s
Latency: 71.2 ns
Модель та же, запуск идентичный. Память заводится на заводском XMP 6400:

pp: 26.01 t/s
tg: 6.98 t/s

Intel Core i7-14700 (без K) + msi pro z790-p + 4x 48gb ddr5 5400 KingBank 38-38-38-77 CR2
Чтение в aida: 80734 MB/s
Latency: 75.6 ns
Модель та же, запуск идентичный. Дешевые китайские 4 планки не завелись на XMP, пришлось снизить до 5200-5400:

pp: 23.75 t/s
tg: 5.85 t/s

Rezzet 17 мая в 11:57

Могу подсказать. У меня несколько компов, сервер на Ryzen 7 2700x, 96Гб оперативной памяти, но 2666MHz. Рабочий Ryzen 9 5950x, 64Гб 3400MHz. Проверил на Qwen3 32B. Не скажу что у меня супер оптимальные настройки были, скорее стоковые из коробки, возможно тюнингом можно еще подразогнать.

Ryzen 2700x - 1.67 t/s

Ryzen 5950x - 2.32 t/s

NVidia 4090 - 15.76 t/s

Так же у меня есть материнская плата с двумя E5-2697V4, именно сейчас он разобран и проверить на нем не смогу, но скорости были то же порядка 1.5-2 t/s. Так же что бы не делал, у меня всегда был загружен только один процессор из двух, возможно это плохой планировщик в Windows был и нужно было ставить серверную версию ОС или линукс.

Так же попробовал MoE модель Qwen 30B(MoE). Результаты у меня вызвали удивление:

Ryzen 5950x - 18.85 t/s

NVidia 4090 - 32.93 t/s.

Теперь хочется попробовать Qwen3 235B(MoE), но у меня не хватит оперативной памяти... раза в 2.5 не хватит. 3-битная модель 111Gb, 8-битная 250Gb, а пределы моего железа 128Gb.

Shannon 17 мая в 14:02

Qwen3 32B. NVidia 4090 - 15.76 t/s

Если отключить аппаратное ускорение в браузерах, а в Windows отключить "Планирование графического процессора с аппаратным ускорением", то получите 22 t/s в LM Studio. Почти 40% ускорения.
Переходите на llama-server и получите 30 t/s.

Совсем безумие, перейти на линукс и будет 34 t/s. И через llama-server и через LM Studio.

Qwen 30B(MoE). NVidia 4090 - 32.93 t/s.

4090 может выдавать намного больше, там ведь всего 3B активных параметров, а версия из LM Studio Q4_K_M весит всего 17.5гб.
В моем случае выдает 112 t/s под Windows и 135 t/s под Linux.

Rezzet 17 мая в 14:45

Неплохо, спасибо за объяснение.

Попробовал добавить старую Radeon VII с 16Гб на борту и потерпел неудачу. Технически карточку вставить можно, но мешают подключенные USB 3.0 на корпус и остальные провода типа кнопок питания. Задумался о том что бы собрать следующий рабочий комп на Threadripper там материнки как-то побольше размером.

Все это достаточно интересно, но для меня вполне хватает DeepSeek в браузере.

Мне кажется что в этом году должны выйти интересные железки для инференса.

Zy2ba 15 мая в 09:49

Может вместо карточки от зажравшейся nvidia взять apple studio на 96гб универсальной памяти за 4к$? Если я правильно понимаю, то как раз должно хватать на 70b + чуть-чуть для рабочих задач остаться

ну или вообще mac pro на 192гб собрать. Но это уже почти 9k$

ShadF0x 15 мая в 10:39

А 1,5B даже и не знаю кому и зачем может пригодиться

Мелкие модели (1.5-3B) - это, как правило, draft-модели для спекулятивного декодинга. Пока большая модель (от 70B) рожает ежа, draft-модель быстро подкидывает наиболее вероятные токены.

melodictsk 14 мая в 14:41

Вот простой способ.

Качаем Lmstudio
Запускаем, из неё выбираем подходящую модель, в том числе и эту.
Запускаем и пользуемся хоть локально, хоть через веб.
Делов на 3 минуты в 5 кликов. Дольше модели качать.

ExternalWayfarer 15 мая в 08:34

Заходим на чат.дипсик.ком

Пишем "как сделать омлет", и ниче качать не надо.

🥰

StasTukalo 15 мая в 19:20

Подскажите, поддерживает ли LM-студия мульти GPU и (скорее всего нет, но вдруг) - кластер машин с GPU?

MountainGoat 14 мая в 14:44

del

Sadler 14 мая в 14:47

Молодец! Возьми с полки пирожок.

mephastopheles 14 мая в 15:37

невероятно полезная а главное нужная статья. спасибо за то что захламляете интернет тоннами шлака

RH215 15 мая в 18:00

В таких статьях самое важное и интересное пишут в комментариях :)

Enverest 16 мая в 19:25

Пища для обучения будущих нейросетей.

Neikist 14 мая в 17:26

Если есть 30+ гигов RAM то лучше qwen3:30b-a3b использовать. Качество отличное 30b размеру соответствует, и с приемлемой скоростью вообще без GPU работает.

Akr0n 15 мая в 11:13

Подскажите, на каком CPU и сколько токенов\сек у Вас выдает?

Neikist 15 мая в 11:44

i7-12700KF, DDR4 память. 8 т/с. Модель с q8 квантованием.

Скрытый текст

З.Ы. Эта же модель, но q4 на M1 max. 49т/с.

Скрытый текст

ainoneko 20 мая в 10:39

О, действительно работает :)
На запросах Write a hello-world program in Cobol и Write a 4-lines poem about a programmer and bugs выдаёт 3 токена в секунду и (1) Кобол-программа правильная (если верить подсветке синтаксиса), а (2) в стихотворении есть рифмы.
Модель qwen-7b, которую LM Studio предложило по умолчанию, работала в два раза медленнее и результат был хуже (плохая программа и без рифм), но это понятно ¯\_(ツ)_/¯

CPU: i5-8400 (6-ядерный, не факт, что использовалось больше одного ядра? (выше упоминали, что LM Studio может недогружать GPU, так что может быть то же и с CPU))
RAM: DDR4, 32ГБ, но полностью не занимало.

Sinucs 14 мая в 17:47

Автору спасибо!

Ещё бы кто написал такую же понятную статью о том, как новичку организовать свою подключаемую rag память. И чтобы было также локально у себя на ПК.

Jacov911 14 мая в 19:36

Скачать gpt4all и в нем в три клика добавить файлы :)

molnij 15 мая в 06:47

самый простой и некастомизируемый вариант - LMStudio - для простых задач справится. Можно прикреплять доки, дальше система сама придумает что с ними делать, целиком в модель засунуть, или сделать им раг.

Чуть сложнее но и побогаче в настройках - упомянутый в статье OpenWebUI+Ollama, можете прямо в поиске хабра спросить "openwebui rag" ввести и выбрать подходящее

achekalin 14 мая в 20:01

И вот ставишь себе модельку размером, мама мия, в 600 Мб, еще думаешь, что мой телефон такое потянет в ОЗУ положить, спрашиваешь о чем-то, и получаешь вот это вот классическое:

Характеристика model:
Использование галлюцинаção для преодоления ограничений на обработку texto.
Низ्कийbit density, что означает, что выдвиры на результат более низки.
Оставив в заголовке строку, которую можно легко выгнрать из text.

И ладно, если такое использовать для написания статей в корпблог на Хабре (там и не такое стерпят, особенно, если вторым шагом вычитать и подправить, матерясь), а вот подключишь такое к курсору, начнешь писать ~~управление ядерным реактором~~ программу для кофеварки - и сам не знаешь, что тебя в чашке вместо кофе будет ждать. Хотя внешне прога будет прогой. С галлюцинациями, конечно, но прогой.

Neikist 14 мая в 20:09

Такого размера модели разве что в качестве автокомплита только можно подключать (и то, я предпочитаю 1.5b или 3b хотя бы для этих целей).

А уж вопросы ей задавать по коду смысла прям мало.

Ну и от такого размера моделей, как правило, кроме английского языка, что-то еще требовать смысла мало.

achekalin 14 мая в 22:22

Я привёл утрированный пример, как, почитав рассказы при небольшие модели у себя дома (причём, про выбор железа тоже как бы упомянуть надо - стоит один раз на ЦП погонять модель, и ее же на хоть какой-то видяхе, как вопросы пропадают, но тут напрямую говориться, что дома модель, в общем, не хуже платной!). Ниже о том же возражают.

Меня просто уже достали это know how состоящие (мо идее) из двух пунктов "поставьте lmstudio" и "скачайте модель из рекомендованных", вместо вот этого всего - итог-то будет один, без головы лезть не получится.

Neikist 14 мая в 23:55

причём, про выбор железа тоже как бы упомянуть надо - стоит один раз на ЦП погонять модель, и ее же на хоть какой-то видяхе, как вопросы пропадают, но тут напрямую говориться, что дома модель, в общем, не хуже платной!

Упомянуть про выбор железа надо конечно, и его зависимость от модели. Но то что локальные модели бесполезны - не соглашусь. Писал пол года назад скрипты которые с помощью llm из тела email сообщений с чеками или из ocr фоток полученных из тессеракта выдирала со structured output магазин-товар-количество-сумма-валюта-ставкандс таблицы. Как раз было интересно получится ли сделать подобное. Локальная модель примерно на 20b параметров справлялась отлично. Модель на 8b работала похуже, но более менее неплохо. З.Ы. На русском языке чеки были + несколько на английском. Для локальных переводов, суммаризации, категоризации тоже неплохо себя показали. qwen3 10b+ в связке с экстеншеном Linguist по мне работает лучше гугл переводчика, и полностью локально. Если хочется быстро накидать прототип пет проекта, а с машинным обучением нормальным разбираться лень - небольшие (7b-30b) llm вполне себе универсальная затычка для многих случаев.

Меня просто уже достали это know how состоящие (мо идее) из двух пунктов "поставьте lmstudio" и "скачайте модель из рекомендованных"

С этим соглашусь. Кажется запустить локально llm любой опытный пользователь сегодня может (ollama или lmstudio ставятся далее-далее-далее-готово). Ну, если хочется на домашнем сервере с веб интерфейсом - любой эникей за несколько минут гуглежа найдет подходящий ему интерфейс и документацию к нему (которая в 90% docker-compose файл включает).

SystemOutPrintln 16 мая в 11:07

Ну и от такого размера моделей, как правило, кроме английского языка, что-то еще требовать смысла мало.

Да если бы они хотя бы на английском что-то вменяемое выдавали...

Так ведь даже на нём бредят.

Bardakan 16 мая в 16:12

я пробовал этим моделям прокидывать код на Swift и просил предложить другое название класса (1 запрос - 1 класс) - они даже с такой казалось бы простой задачей справлялись с потугами 50/50

vikarti 15 мая в 06:12

С русским языком даже у многих 7b-14b проблемы (ну кроме Сайги по очевидным причинам). Используйте хотя бы qwen3:0.6b если уж очень хочется настолько мелкую модель.

Moog_Prodigy 14 мая в 20:14

Ага вот такие вкатуны понаставят себе 1.5B а потом жалуются на галлюцинации и что работать с ИИ невозможно. И раз и два и три статья. ИИ - ГОВНО! Вот и не заменит ДЖУНОВ!111

Нет, это Минерва-медиа - говно. Раз выпускает такие статьи. И другие решения она не заменит, пока таких джунов выпускает писать статьи от лица компании. Помойка.

14b нормальный комп тянет, но такие компы вкатунам не дают. Или компания их себе позволить не может, хе-хе.

alan008 14 мая в 22:23

Посмотрим правде в глаза, даже 32B модели для каких-то умных применений - не особо. Что уж говорить про 14B.

nochnoj 15 мая в 07:36

Зачем заменять джунов? Они и так почти бесплатные.

SystemOutPrintln 16 мая в 11:09

а потом жалуются на галлюцинации и что работать с ИИ невозможно. И раз и два и три статья. ИИ - ГОВНО! Вот и не заменит ДЖУНОВ!111

Сейчас наоборот хабр каждый день заваливается статьями про всемогусчий ИИ, который всех заменил ещё вчера. Вы из какой параллельной реальности пишете?

Neikist 16 мая в 11:23

Хз, мне в rss как раз в основном валятся статьи в духе "я не боюсь что меня заменят и вот почему", или "посмотрите какую фигню ИИ накодил, мы в безопасности".

yrub 14 мая в 22:33

У модели DeepSeek 1.5B — 1,5 миллиарда параметров. Это немного по меркам топовых моделей, но для большинства задач этого хватает с головой.

ничего смешнее еще не читал. ради интереса есть примеры ответа такой модели? я знаю что есть phi и гугловские модели, которые специально делаются маленькими, но и они все равно больше

Akr0n 15 мая в 11:25

Да phi-4 на русском тоже не особо отвечает, вот gemma-3 - молодец в этом плане.

EvilFox 16 мая в 11:58

Нормально отвечает, в плане ума даже лучше чем на английском т.к. на английском модель явно переобучена, но русский так не пострадал. Новые резонинг и резонинг-плюс пока не тестил.

Akr0n 17 мая в 03:23

Я сколько пробовал одинаковые запросы на логику, на русском phi-4 отвечает какую-то чушь по сравнению с gemma-3, допускаю, что чисто на английском все не так плохо.

EvilFox 19 мая в 12:21

Ну gemma-3 сама по себе умнее
phi-4 я тестировал в рамках программирования в основном и то файтюн r1 её версию (он немного лучше исходной модели)

sergeym69 14 мая в 22:42

Для DeepSeek r1-1.5B вообще ничего не надо ставить, эта модель может работать прямо в браузере, вот ссылка https://huggingface.co/spaces/DimitriPletschette/deepseek-r1-webgpu

Самая большая модель которую я запускал прямо в браузере это DeepSeek r1 14B но для нее надо чтобы на видеокарте было больше 12Gb памяти. Работает это с иcпользованием WebGPU

apcs660 14 мая в 22:48

Если не для умных применений, а для embeddings текста в индекс? Какая модель достаточно хороша, по минимуму, для простого поиска по knn вектору в индексе?

Видео карта с 16 гб стоит, вроде 4 серии nvidia. Насколько будет удручающая скорость, интересно.

Как я понимаю, длина текста который переводится в вектор, ограничена, как сделать предобработку текста? Резать на сегменты, тогда можно несвязанные логически куски обработать. Получается, что для предобработки тоже желательна нейронка, или просто в лоб, на предложения поделить... Поиск по нескольким векторам в документе уже будет не быстрым.

Вопрос по поводу RAG - как удалить информацию из модели? Предположим что работа не с архивом и документы ( знания) изменяются или удаляются.

Bluewolf 15 мая в 01:02

Эти модели не имеют никакого отношения к нормальному Deepseek, это крошечные варианты Qwen \ Lllama \ etc, дообученные на ответах R1, для тех применений, что упомянуты в статье, они бесполезны полностью.

Способ установки излишне сложный, как сделать проще написали выше.

Потрясающие советы увеличить своп-файл.

Еще и статья написана нейронкой в большей части (хорошо хоть не 1.5B). Какой смысл писать такие статьи в корпблог? Это же равноценно прямому заявлению "нам плевать на наших (потенциальных) клиентов".

serp2002 15 мая в 04:36

Пора запретить на хабре использовать нейросетевой контент.

maxwolf 15 мая в 23:18

Зато вполне приличное количество интересных каментов!

useribs 16 мая в 19:44

Не такие уж потрясающие на тему своп. В убунте из коропки в общем-то создается в виде файла. И это лучше, чем потом удалять/ресайзить lv. Но я за zram-swap, а лучше конечно вообще без swap

serp2002 15 мая в 04:34

Товарищи, хоть кто-то еще в этом мире способен что-то сделать без докера?

Я понимаю когда вы в промышленную эксплуатацию запускаете систему, которую возможно потребуется масштабировать, а тут походу скоро вообще софт ставить разучатся, все через контейнеры. Бесит.

apcs660 15 мая в 06:26

у докера помимо плюсов, есть и минусы - он же слоистый, собака такая, внутри.

Одной неосторожной командой при создании кастомного образа размер образа легко увеличивается в два раза.

У меня была установка проги в докер с пакетами, около 600 мегов, смотрю докер распух на 1.2 гига. По памяти могу ошибиться, кажется отдельно вызывался chown на скопированные файлы и новая команда все файлы у которых менялся владелец, заносила в новый слой. Хорошо что у докера есть опция chown в копировании.

Второе, логи и прочие файлы которые растут внутри докера и не вынесены на внешний volume - если присмотра за ними нет, докеру плохеет.

Третье, нужно регулярно делать бэкап рабочего диска. Я захожу раз в квартал и со свистка с Линукс копирую диск используя dd. В дополнение к бэкапу файлов. Мало ли, испортишь конфигурацию , проще откатить.

Имидж потом можно в виртуальную машину перенести , кстати, это удобно при миграции со старого компьютера или при смене ОС.

molnij 15 мая в 06:44

Способен. А вот без докера и без электрона - уже сомневаюсь 😭

nochnoj 15 мая в 07:39

Докер - это замена пакетам, вместо упаковки для самых разных осей и систем. Очень удобно, особенно для сервисов.

apcs660 15 мая в 09:46

Еще бы винда в докере могла под линукс бегать.. Вот наоборот, вроде можно. Обидно

nochnoj 15 мая в 10:31

Винда в докере это уж совсем как-то ... изощренно.

apcs660 15 мая в 11:35

Вроде линуксовый код в докере под виндой можно. Несправедливо это

имел в виду, код для Виндоус в докере, не саму ось.

nochnoj 15 мая в 20:55

Линукс в винде бежит на виртуалке, не мудрено :)

apcs660 15 мая в 23:02

Тогда понятно. Я виндой пользуюсь раз в год на VMware, не в курсе был

slonopotamus 15 мая в 10:26

Докер вообще никак не решает проблему разных осей, потому что докер-образы не содержат ядро операционки, а ожидают, что его волшебным образом дадут снаружи.

nochnoj 15 мая в 10:29

Так на винде он в полувиртуалке и бежит. А как по-вашему линукс контейнеры в винде работают?😀

slonopotamus 15 мая в 21:41

Вот виртуалка решает проблему запуска софта для других ос. Но докер тут совершенно ни при чём.

nochnoj 16 мая в 07:23

Не пытайтесь переводить тему. Мое утверждение остается верным:

SystemOutPrintln 16 мая в 11:18

Товарищи, хоть кто-то еще в этом мире способен что-то сделать без докера?

Те же мысли. Причём в ответ будет "если вы не используете Докер, то вы неполноценный"

ilyaplot 15 мая в 06:03

Зачем все это, если можно просто запустить LM Studio и пользоваться удобным интерфейсом без плясок с бубном?

dj_raphael 15 мая в 12:30

у меня видеокарта дома RTX 3090, тянет модель deepseek-coder-v2:16b, как раз помещается вся в видеопамяти, думал приспособить к кодированию net c#, посылаю одинаковые запросы в online версию и к себе. задание простое про рефакторинг сигнатуры метода, и прокидывание нового параметра во все вызовы выше вплоть до апи. ну и выдай мне зависимости классов, чьи имплентации тебе дать, чтобы ты там тоже внес изменения, online deepseek все четко выдал каких классов ему не хватает, загрузил, он выдал изменения, локальный deepseek - текущий файл правильно поправил, но выдал только половину нужных зависимостей и разбавил их системными, типа IEnumerable Dapper и SqlConnection, ну и дальше стал тупить, после второго файла из списка зависимостей, забыл задание. увеличение контекста почему-то не помогает.

infene000n 15 мая в 18:03

Очень странная статья, так сложно, долго и неудобно... Назвали бы - как долго и сложно поставил llm локально.

StarJohn 15 мая в 18:17

Для начинающих на самом деле можно просто накатить на винду oobabooga text-generation-webui и экспериментировать с теми моделями, которые поместятся в видеопамять (или в оперативную память, если вы не против медленных ответов). Домашний сервер для этого не нужен.

Отлично подходит для простых задач и для общего понимания принципов общения с LLM, а так же для перебора моделей.

На 48 гигах VRAM (две 3090 или одна 3090 и что-то типа Tesla P40) уже можно запускать квантизованные 72B для теста, а это серьезно.

Nurked 15 мая в 21:54

Чёт всё как-то супер-сложно.

Оно работает с пол-пинка. Зачем ставить 1.5? Она совсем-уж маленькая.

Нужен ЮаЙ? Ну ладно.

Ставите себе Zed, он из коробки работает с ollama.

У меня, чисто из интереса, из коробки работает 8b при том, что у меня щас запущен зум, и висит всякого гавна на всех закладках. При том, что у меня всего-то 18 гиг памяти, процессор больче чем на 25% не грузится.

Время на установку - 2 минуты на выкачку 4х гигов.

nor61k 16 мая в 08:56

Решил попробовать по вашей статье и сразу два вопроса:

Вы пишите про guff,

Примечание. Если модель deepseek:1.5b недоступна напрямую в Ollama, нужно импортировать её из файла. Загрузите файл модели (обычно в формате GGUF) из официального источника DeepSeek или из других доверенных источников вроде Hugging Face.

Но там этих моделей очень много :

DeepSeek-R1-Distill-Qwen-1.5B-f16.gguf DeepSeek-R1-Distill-Qwen-1.5B-IQ4_XS.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q4_0.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf
DeepSeek-R1-Distill-Qwen-1.5B-f32.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q2_K.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q4_1.gguf DeepSeek-R1-Distill-Qwen-1.5B-Q6_K_L.gguf
DeepSeek-R1-Distill-Qwen-1.5B.imatrix DeepSeek-R1-Distill-Qwen-1.5B-Q2_K_L.gguf

и тд

Какую использовать то для работы?

root@ii:/home/deepseek# docker exec -it ollama ollama import deepseek-1.5b.guf deepseek-r1:1.5b
Error: unknown command "import" for "ollama"
root@ii:/home/deepseek# docker exec -it ollama ollama help
Large language model runner

Usage:
ollama [flags]
ollama [command]

Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command

Flags:
-h, --help help for ollama
-v, --version Show version information

и судя по гуглу такой команды не было, как это у вас работает?

Neikist 16 мая в 10:05

Кстати, непонятно зачем руками скачивать gguf с Hugging Face, куда-то подкладывать и т.п., если ollama из коробки скачивание с Hugging Face сама поддерживает. https://huggingface.co/docs/hub/ollama

StasTukalo 2 июн в 18:15

непонятно зачем руками скачивать gguf с Hugging Face, куда-то подкладывать и т.п., если ollama из коробки скачивание с Hugging Face сама поддерживает

Например, если на той машине, где будет запускаться нейросеть нет быстрого интернета.

sighbernaut 16 мая в 08:57

Большое, искреннее спасибо автору статьи.
Великолепная пошаговая инструкция, демонстрирующая работу различных технологий в связке --- от контейнеризации до локального развертывания LLM с доступом через веб-интерфейс. Мои курсанты будут в восторге.
У вас очень хорошо получается объяснять. Отчетливо видна и техническая грамотность и любовь к своему делу.
Пожалуйста, продолжайте рассказывать о таких полезных вещах, и не обращайте внимания на визгливую плесень из троллятника. Завистливое невежество всегда агрессивно.
Еще раз спасибо! Держитесь. Жму руку.

IvNight 16 мая в 16:53

Встретил эту статью вроде на vc, как раз тестировал мини-модели для своего домашнего nextcloud. Решил проверить, но так и не понял, в чем прикол модели в статье, она ни слова мне нормально не ответила.
Пока остановился на llama3.2 на 3b, она хотя бы связный текст сочиняет.

slavik27 19 мая в 08:14

". /etc/os-release " - подскажите пожалуйста - что это за папка, ругается на ее отсутствие ?

slavik27 21 мая в 16:08

подскажите еще момент - почему open-webui не видит модель, все перепробовал не появляется в веб интерфейсе webui модель deepseek ?

slavik27 22 мая в 22:37

Похоже что по этой инструкции ничего не собирается, где-то ошибка, вместо всех этих танцев работает одна строка с сайта webui - как запустить webui вместе с ollama и это всего лишь одна строчка. docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

MSIVANOV 3 июн в 00:34

Так же open-webui не видит модель. конфига не рабочая?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий