Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))

GiantLynx Jun 27 at 19:09

Начать стоит с того, что мы с вами на брудершафт не пили.
Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.

asuzena Jun 27 at 22:34

просто очередная статья про то как я iграл в кy6ики но что-то пошло не так когда об этом рассказал

Hopenolis yesterday at 01:53

Подожди, ты что хочешь сказать что это не прошлогодняя консерва? У тебя в списке моделей нет ни одной актуальной, ни ламы4 ни геммы3 ни квина3.

GiantLynx yesterday at 02:56

Это про ретро и классику! Переделал обзор LLM на самые актуальные.

kekusprod 19 hours ago

А ещё у автора нейромесиво с дублями. Думаю, с этого стоило начинать аргументацию. У вас статья всяко лучше

CBET_TbMbI Jun 27 at 17:54

Эта статья получше прошлых. Даёт более полную и структурированую информацию. Да и стиль текста лучше. Видно, что человек рассказывает, а не пишет статью для галочки.

Единственное, чего не хватает, это сравнения с другими способами, например Олламой или что там ещё есть. Хотя, возможно, это тема для отдельной статьи.

MAXH0 Jun 27 at 18:06

Вопрос который меня интересует: Цена компьютера на котором всё это вертится в достойной конфигурации?

GiantLynx Jun 27 at 19:01

Добавил блок про железо в статью.
Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.

K0styan Jun 27 at 21:37

Я собрал машину именно с целью крутить LLM-ы локально за 93 тыщи в прошлом сентябре. Примерно килобакс, выходит.

В основе Ryzen 5600 + 32G RAM + 4060 Ti 16G - не самый сбалансированный вариант в целом, но позволяет модели с 8-13 млрд. параметров и квантованием Q4 запускать из видеопамяти, с производительностью, не вызывающей раздражения.

SkyDelete 6 hours ago

Буквально на днях собрал такой конфиг: Ryzen 5 9600X + 32 Gb + RTX 5070 Ti, вышло ~165 ₽ (без ssd/hdd).

При желание сэкономить можно взять RTX 5060 Ti 16Gb (-40 ₽), 16Gb VRAM в любом случае минимум, печально что больше 16 Gb, только RTX 5090, за невменяемые 300 ₽.

Генерация выдает примерно 60-70 токенов в секунду, нормально работает с контекстом около 10k (deepseek-r1-0528-qwen3-8b, gemma-3-12b), но пока особо не было времени экспериментировать.

SabMakc Jun 27 at 21:12

Приватность. Ни один байт данных не уходит на чужие серверы.

Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.

Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).

Но локальные модели еще слишком слабы в кодинге.

K0styan Jun 27 at 21:53

На приватность можно только надеяться.

Зачем надеяться, когда можно просто проверить трафик, генерируемый конкретно этим приложением и его процессами? Для локальной работы он должен быть вообще нулевым. Если использовать встроенный сервер, то да, понадобится снифер, но опять же, всё в ваших руках. Даже файрволл при желании.

SabMakc 22 hours ago

Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.

В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.

GiantLynx 22 hours ago

Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.

SabMakc 12 hours ago

Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.

GiantLynx 6 hours ago

Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.

Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.

Shannon 17 minutes ago

Мне тоже хотелось бы, чтобы софт был опенсорсным

Не всё сводится к LM Studio, есть хорошие опенсорсные клиенты + сервер:

Открытые клиенты, которые требуют самостоятельного бэкэнда:

Закрытая альтернатива LM Studio, по их мнению во всём лучше чем LM Studio:

https://msty.app/

LM Studio хорошо работает как быстрый старт, но если нужно, найти альтернативу можно, основные это Jan и Cherry Studio. Мне лично нравится text-generation-webui из-за различных гибкостей, которых нет в упрощенных клиентах.

Iipoctoy 22 hours ago

Здравствуйте. Можете посоветовать ллм для ролеплея на русском? 12гб видеокапять т.е 8в 12в модели можно запускать.

SabMakc 11 hours ago

Нет, ничего не подскажу - не интересовался подобным.

Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).

P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )

Shado_vi 21 hours ago

как слабы?
а например codestral так плох?

SabMakc 15 hours ago

Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.

Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.

Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.

icemanic 19 hours ago

То есть qwen3, допустим, можно разместить на Вирт машине без графики?

SabMakc 15 hours ago

Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.

А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).

Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).

Akriosss47 yesterday at 01:27

Какую модель посоветуете для CTF решения,этичный хакинг.В любой облачной модели не работает приходится искать jailbreak.

Hopenolis yesterday at 02:04

Ну так и используй топовые модели с jailbreak. Почему тебе кажется что крошечные локальные модели смогут выполнить такую работу?

Akriosss47 21 hours ago

Сложно найти рабочие особенно с chatgpt

GiantLynx yesterday at 03:00

Я не занимаюсь этичным хакингом, но можно попробовать Dolphin-2.7 Mixtral-8x7B и OpenHermes-2.5 Mistral-7B. У них минимум фильтров

Zeus42 21 hours ago

Довольно приятная статья. Я попал уже на последнюю итерацию, когда добавили много чего (судя по комментариям), но итог получился хороший.

Все описано подробно, не грузяще и главное понятно. Для тех кто пишет про одинаковость - напишите лучше, тогда это будет лучшим аргументом в вашу пользу.

Буду ждать статью про Ollama :)

ProfDonda 18 hours ago

Apropo, а Mac Mini (M4 Pro, 12C CPU, 16C GPU, 24GB) что потянет из перчисленного?

NeraDail 15 hours ago

смотрите на видеопамять именно она в цене сейчас. то есть то же что и nvidia с таким же объемом памяти, только чуть помедленнее

Baigildin 17 hours ago

А с помощью каких параметров настраивается/отключается цензура?

NeraDail 15 hours ago

RAG или системный промпт. советую не мучиться и сразу скачть с hugging face модельс отлючнным цензором

Enverest 9 hours ago

Как раз на этой неделе впервые пробовал локальные модели с помощью ollama и open-webui. В теории супер просто всё запускается (хотя и были мелкие проблемки).

Единственное - не смог найти оптимальную модель, она либо относительно умная, либо без цензуры, но глуповатая (по ощущениям где-то как ChatGPT-3).