Comments 51

Автор, а ты не пробовал поиском пройтись, прежде чем публиковать однотипный шлак?
Каюсь, многоуважаемый, за несколько дней до того, как дописал статью - появилась одна реально по содержанию похожая!
Но это если сравнивать чисто по заголовку.
У автора фокус на Макбуке - у меня платформенно-обобщенный.
У автора обзор LM Studio с фокусом на Gemma - у меня кроме LM Studio обзор разных открытых LLM - в помощь читателю, что выбрать.
У автора больше про использование интерфейса - у меня про настройку параметров.
У меня блок про настройку кодингового ассистента.
Но нет, надо удалять, потому что не исполнена ачивка "первонах"
Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))
Начать стоит с того, что мы с вами на брудершафт не пили.
Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.

Подожди, ты что хочешь сказать что это не прошлогодняя консерва? У тебя в списке моделей нет ни одной актуальной, ни ламы4 ни геммы3 ни квина3.
А ещё у автора нейромесиво с дублями. Думаю, с этого стоило начинать аргументацию. У вас статья всяко лучше
Эта статья получше прошлых. Даёт более полную и структурированую информацию. Да и стиль текста лучше. Видно, что человек рассказывает, а не пишет статью для галочки.
Единственное, чего не хватает, это сравнения с другими способами, например Олламой или что там ещё есть. Хотя, возможно, это тема для отдельной статьи.
Вопрос который меня интересует: Цена компьютера на котором всё это вертится в достойной конфигурации?
Добавил блок про железо в статью.
Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.
Я собрал машину именно с целью крутить LLM-ы локально за 93 тыщи в прошлом сентябре. Примерно килобакс, выходит.
В основе Ryzen 5600 + 32G RAM + 4060 Ti 16G - не самый сбалансированный вариант в целом, но позволяет модели с 8-13 млрд. параметров и квантованием Q4 запускать из видеопамяти, с производительностью, не вызывающей раздражения.
Буквально на днях собрал такой конфиг: Ryzen 5 9600X + 32 Gb + RTX 5070 Ti, вышло ~165 ₽ (без ssd/hdd).
При желание сэкономить можно взять RTX 5060 Ti 16Gb (-40 ₽), 16Gb VRAM в любом случае минимум, печально что больше 16 Gb, только RTX 5090, за невменяемые 300 ₽.
Генерация выдает примерно 60-70 токенов в секунду, нормально работает с контекстом около 10k (deepseek-r1-0528-qwen3-8b, gemma-3-12b), но пока особо не было времени экспериментировать.
Приватность. Ни один байт данных не уходит на чужие серверы.
Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.
Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).
Но локальные модели еще слишком слабы в кодинге.
На приватность можно только надеяться.
Зачем надеяться, когда можно просто проверить трафик, генерируемый конкретно этим приложением и его процессами? Для локальной работы он должен быть вообще нулевым. Если использовать встроенный сервер, то да, понадобится снифер, но опять же, всё в ваших руках. Даже файрволл при желании.
Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.
В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.
Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.
Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.
Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.
Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.
Мне тоже хотелось бы, чтобы софт был опенсорсным
Не всё сводится к LM Studio, есть хорошие опенсорсные клиенты + сервер:
Открытые клиенты, которые требуют самостоятельного бэкэнда:
Закрытая альтернатива LM Studio, по их мнению во всём лучше чем LM Studio:
LM Studio хорошо работает как быстрый старт, но если нужно, найти альтернативу можно, основные это Jan и Cherry Studio. Мне лично нравится text-generation-webui из-за различных гибкостей, которых нет в упрощенных клиентах.
Здравствуйте. Можете посоветовать ллм для ролеплея на русском? 12гб видеокапять т.е 8в 12в модели можно запускать.
Нет, ничего не подскажу - не интересовался подобным.
Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).
P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )
как слабы?
а например codestral так плох?
Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.
Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.
Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.
все вышеперечисленное встречается в результатах ChatGPT, Claude, Google Gemini.
можно за счёт квантификации сэкономить на памяти и запускать даже на 16 гб vram.
Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.
Но, стоит признать, работают они крайне убедительно!
P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.

Храню как память свои генерации из 2022 года. Это, правда, не LLM, а диффузионка, но напоминание, что темпы развития нейросетей могут огорошить. Через максиму 3-4 года, а то и раньше у каждого, кто сможет себе позволить станцию за 2000-3000 долларов будет свой домашний ChatGPT-4o
То есть qwen3, допустим, можно разместить на Вирт машине без графики?
Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.
А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).
Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).
Какую модель посоветуете для CTF решения,этичный хакинг.В любой облачной модели не работает приходится искать jailbreak.
Довольно приятная статья. Я попал уже на последнюю итерацию, когда добавили много чего (судя по комментариям), но итог получился хороший.
Все описано подробно, не грузяще и главное понятно. Для тех кто пишет про одинаковость - напишите лучше, тогда это будет лучшим аргументом в вашу пользу.
Буду ждать статью про Ollama :)
Apropo, а Mac Mini (M4 Pro, 12C CPU, 16C GPU, 24GB) что потянет из перчисленного?
А с помощью каких параметров настраивается/отключается цензура?
Как раз на этой неделе впервые пробовал локальные модели с помощью ollama и open-webui. В теории супер просто всё запускается (хотя и были мелкие проблемки).
Единственное - не смог найти оптимальную модель, она либо относительно умная, либо без цензуры, но глуповатая (по ощущениям где-то как ChatGPT-3).
Про большой контекст у Gemma непонятно. Модель вообще к читает большие документы, а семплирует их.
Никто не пробовал связку 2x4060Ti (или подобных недорогих 16Gb видеокарт). В таком режиме "толстые" модели могут использовать видеопамять обеих карт?
Это возможно, но НЕ с LM Studio (и вообще не с программой основанной на llama.cpp, т.е. Ollama тоже не подойдёт) и не с квантоваными GGUF файлами. Для домашней многокарты используются исходники в формате .safetensors и прописываются настройки на vLLM.
Если я не прав и кто-то знает способ - поправьте.
Никто не пробовал связку 2x4060Ti (или подобных недорогих 16Gb видеокарт).
Всё работает отлично, разве что вместо 4060ti сейчас актуальнее 5060ti, там память в 1.5 раза быстрее, что очень важно для инференса, а стоит столько же.
Благодаря llama.cpp, она сама и любой софт основанный на ней, позволяют запускать модели на любых GPU (amd, nvidia, intel) в любом количестве, все видеокарты подхватятся автоматически и модель размажется по ним, и можно управлять пропорциями.

Если использовать vulkan версию llama.cpp (можно выбрать в Runtime), то можно объединять amd + nvidia + intel.
В таком режиме "толстые" модели могут использовать видеопамять обеих карт?
Для 32B всё будет работать отлично, так как памяти уже будет с запасом, но "толстые" это скорее про 70B модели. И тут есть 2 вида толстых моделей:
Dense, то есть сплошные, это Qwen3 72B или Llama3.3 70B - для запуска таких моделей в Q4_K_M кванте нужно 44гб. Выходом для двух карт по 16гб - это использовать квантование от Unsloth с их Unsloth Dynamic 2.0 GGUFs квантованием, они важные тензоры оставляют в высоком качества, а менее важные квантуют сильнее. 70B UD-Q2_K_XL как раз весит 27гб и останется место под контекст, а уже 72B UD-Q2_K_XL немного впритык, занимает 30.3гб, и если нужна память под систему и контекст, то уже придётся ужиматься.
MoE модели, у них только часть параметров активна, это Llama 4 Maverick/Scout, Qwen3-235b-a22b, DeepSeek R1. Для их запуска хватит 1 gpu, лламу 4 можно и на 8гб запускать. Это делается сейчас по другому, не просто запуском на GPU, а трюком с override-tensor параметром, если хватает обычной памяти.
Вот тут я запускаю на домашнем ПК настоящую толстую DeepSeek R1 671B на огромном контексте, там же вся теория почему и как это работает: https://habr.com/ru/articles/921540/
Локальные модели хороши для узкого круга задач, но для серьезного продукта не подходят от слова совсем. Локально использую: deepcoder:14b, deepseek-r1:32b, devstral:latest, gemma3:27b, gemma3n:e4b-it-fp16, phi4-reasoning:latest, phi4:14b, qwen3:32b
Ни одна из перечисленных моделей не осиливает работать в строгом соответствии с более менее серьезным системным промтом. Простой пример, я описываю в системном промте формализацию общения пользователя с моделью в JSON формате. Модели пишут в ответ простым текстом. Указываю модели что вообще-то в системном промте указан формат. Пишет plain-текстом извините, вот ваш json, и после него еще пачку текста.
Тому же claude я пишу системный промт просто в чате, и он начинает строго следовать описанному протоколу.
Не опровергая основную мысль коммента целиком, есть важный нюанс. Ещё в 2023 году ChatGPT-3.5 проходила 44% MMLU и имела около 154 миллиардов параметров. В 2024 llama-3-70b достигла 68% MMLU, обгоняя GPT-4o mini.
Количество флопсов доступных локально обычному юзеру тоже постоянно, хоть и медленнее, растёт, как и цена облачного GPU хостинга.
Это лишь вопрос времени когда каждый ИИ-энтузиаст сможет хостить модель уровня Claude Sonnet у себя на пэке. Конечно, и облачные модели к тому времени пойдут вперёд, но слух что "домашние" модели всегда будут недотыкомками слегка преувеличен.
Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM