Comments 36

Автор, а ты не пробовал поиском пройтись, прежде чем публиковать однотипный шлак?
Каюсь, многоуважаемый, за несколько дней до того, как дописал статью - появилась одна реально по содержанию похожая!
Но это если сравнивать чисто по заголовку.
У автора фокус на Макбуке - у меня платформенно-обобщенный.
У автора обзор LM Studio с фокусом на Gemma - у меня кроме LM Studio обзор разных открытых LLM - в помощь читателю, что выбрать.
У автора больше про использование интерфейса - у меня про настройку параметров.
У меня блок про настройку кодингового ассистента.
Но нет, надо удалять, потому что не исполнена ачивка "первонах"
Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))
Начать стоит с того, что мы с вами на брудершафт не пили.
Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.

Подожди, ты что хочешь сказать что это не прошлогодняя консерва? У тебя в списке моделей нет ни одной актуальной, ни ламы4 ни геммы3 ни квина3.
А ещё у автора нейромесиво с дублями. Думаю, с этого стоило начинать аргументацию. У вас статья всяко лучше
Эта статья получше прошлых. Даёт более полную и структурированую информацию. Да и стиль текста лучше. Видно, что человек рассказывает, а не пишет статью для галочки.
Единственное, чего не хватает, это сравнения с другими способами, например Олламой или что там ещё есть. Хотя, возможно, это тема для отдельной статьи.
Вопрос который меня интересует: Цена компьютера на котором всё это вертится в достойной конфигурации?
Добавил блок про железо в статью.
Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.
Я собрал машину именно с целью крутить LLM-ы локально за 93 тыщи в прошлом сентябре. Примерно килобакс, выходит.
В основе Ryzen 5600 + 32G RAM + 4060 Ti 16G - не самый сбалансированный вариант в целом, но позволяет модели с 8-13 млрд. параметров и квантованием Q4 запускать из видеопамяти, с производительностью, не вызывающей раздражения.
Буквально на днях собрал такой конфиг: Ryzen 5 9600X + 32 Gb + RTX 5070 Ti, вышло ~165 ₽ (без ssd/hdd).
При желание сэкономить можно взять RTX 5060 Ti 16Gb (-40 ₽), 16Gb VRAM в любом случае минимум, печально что больше 16 Gb, только RTX 5090, за невменяемые 300 ₽.
Генерация выдает примерно 60-70 токенов в секунду, нормально работает с контекстом около 10k (deepseek-r1-0528-qwen3-8b, gemma-3-12b), но пока особо не было времени экспериментировать.
Приватность. Ни один байт данных не уходит на чужие серверы.
Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.
Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).
Но локальные модели еще слишком слабы в кодинге.
На приватность можно только надеяться.
Зачем надеяться, когда можно просто проверить трафик, генерируемый конкретно этим приложением и его процессами? Для локальной работы он должен быть вообще нулевым. Если использовать встроенный сервер, то да, понадобится снифер, но опять же, всё в ваших руках. Даже файрволл при желании.
Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.
В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.
Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.
Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.
Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.
Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.
Мне тоже хотелось бы, чтобы софт был опенсорсным
Не всё сводится к LM Studio, есть хорошие опенсорсные клиенты + сервер:
Открытые клиенты, которые требуют самостоятельного бэкэнда:
Закрытая альтернатива LM Studio, по их мнению во всём лучше чем LM Studio:
LM Studio хорошо работает как быстрый старт, но если нужно, найти альтернативу можно, основные это Jan и Cherry Studio. Мне лично нравится text-generation-webui из-за различных гибкостей, которых нет в упрощенных клиентах.
Здравствуйте. Можете посоветовать ллм для ролеплея на русском? 12гб видеокапять т.е 8в 12в модели можно запускать.
Нет, ничего не подскажу - не интересовался подобным.
Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).
P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )
как слабы?
а например codestral так плох?
Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.
Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.
Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.
То есть qwen3, допустим, можно разместить на Вирт машине без графики?
Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.
А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).
Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).
Какую модель посоветуете для CTF решения,этичный хакинг.В любой облачной модели не работает приходится искать jailbreak.
Довольно приятная статья. Я попал уже на последнюю итерацию, когда добавили много чего (судя по комментариям), но итог получился хороший.
Все описано подробно, не грузяще и главное понятно. Для тех кто пишет про одинаковость - напишите лучше, тогда это будет лучшим аргументом в вашу пользу.
Буду ждать статью про Ollama :)
Apropo, а Mac Mini (M4 Pro, 12C CPU, 16C GPU, 24GB) что потянет из перчисленного?
А с помощью каких параметров настраивается/отключается цензура?
Как раз на этой неделе впервые пробовал локальные модели с помощью ollama и open-webui. В теории супер просто всё запускается (хотя и были мелкие проблемки).
Единственное - не смог найти оптимальную модель, она либо относительно умная, либо без цензуры, но глуповатая (по ощущениям где-то как ChatGPT-3).
Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM