Pull to refresh
1
0,1
Rating
Send message

О, я даже не знал, что для четвёрки выпускали такое. Но в целом там как будто мало смысла всё равно. Особенно если вынести чуть больше игровой логики на сервер. Да и обновлять всё это - дело непростое. Думаю, что большую часть пиратов увеличение сложности установки уже отпугивает.

Интересно наблюдать за битвой меча и щита (правда ещё бы иметь более полное понимание работы DRM и процессов в ядре). Хотя сейчас как будто есть самый простой способ для борьбы с пиратством - требование постоянного онлайн подключения. Да, это может не понравиться пользователям, но если добавить в игру встроенные мультиплеерные элементы, то в целом тогда всем плюс-минус всё равно. В качестве примера можно взять ту же Diablo 4. Но в теории даже там можно сделать эмулятор сервера. Если я правильно помню, то для Diablo 3 было что-то подобное, но это явно не стоит затраченных усилий.

Бонсай - это некоторое исключение, так как вся его суть в архитектуре, чтобы показывать хорошие результаты в однобитном квантовании. Лично не использовал, но для своего размера - неплохая модель, судя по тестам и отзывам других. Хотя мне кажется, что лучше будет попробовать запустить какой-нибудь Qwen 3.5 4B или Gemma 4 E4B. И в таком случае явно лучше запускать через llama.cpp или чём-то на его основе, так как он заточен под инференс на CPU.

Часть - точно можно. В настройках модели есть выбор количества слоёв для выгрузки и выбор квантизации кэша, как и настройка параметров генерации. Правда я не знаю насколько LM Studio эффективна с работой на CPU+GPU. Лично я пользуюсь llama.cpp через llama-swap (чтобы модели сами выгружались/загружались в зависимости от того, что отправляет клиент).

Включён, preserve_thinking - это другое, добавлен в Qwen 3.6 и отвечает за сохранение размышлений всех предыдущих запросов в контексте. В теории может уменьшить количество дальнейших размышлений в кодинг задачах и рекомендуется для задач с агентами.

Q6, как мне кажется, немного перебор для локального инференса. Q5 должно быть достаточно. Как мне показалось, чаще лучше иногда сделать дополнительный запрос для починки, чем ждать долгую генерацию.

Не заметил, что речь про Dense Gemma модель 31B. Не советую запускать её так, ибо надо будет полностью её выгружать на ЦПУ. На машинах с ограниченными ресурсами лучше пользоваться MoE моделями типа как написали выше.

Тут я думал про Qwen 3.6 35B A3B...
По идее должно работать, это квантование модели весит около 22 гб, так что она влезает в 8гб+32гб. Под "запускать частично" скорее всего имелось в виду, что часть слоёв выгружается в ОЗУ и обрабатывается CPU. Так как это MoE модель, то тут это легко делается с автоматическим определением количества слоёв для выгрузки с помощью --fit on. Попробуйте запустить через llama.cpp модель с конфигом выше, если что подкорректируйте контекст.

P.S. Я там немного ошибся в значении аргумента для шаблона чата для включения сохранения размышлений. Правильный аргумент будет выглядеть так –chat-template-kwargs ‘{\"preserve_thinking\”:true}’

Настройки LLM при запуске с помощью llama.cpp:
./llama-server -m models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 163840 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"preserve_thinking\":true}"
Для ускорения работы модели использую квантизацию кэша (-ctk q8_0 -ctv q8_0). По тому, что я смотрел, на коротком контексте разницы почти нет. Возможно, при заполненном контексте ~100к будет более заметная деградация работы LLM. Зато вы получаете примерно +30-40% скорости генерации.


Параметры генерации (рекомендуемые разработчиками модели для кодинга):
"temperature": 0.6, "top_p": 0.95,"top_k": 20, "min_p": 0,"max_tokens": 32768,"presence_penalty": 0, "repetition_penalty": 1

Понял, ну 2-3 часа ждать ради генерации такого сайта в любом случае бессмысленно на мой взгляд. Тут либо подписка нужна, либо более-менее нормальное железо, чтобы модель нормально работала (теперь у меня есть оправдание зачем я покупал 5070TI :) ).

Но для тех, кто будет читать комментарии, на всякий случай повторюсь по поводу рекомендаций разработчиков модели для агентных задач. В Qwen 3.6 добавили возможность сохранять в контексте reasoning с помощью {"preserve_thinking":true} в аргументах для шаблона чата.

P.S. Повтор удалённого комментария
Результаты моего запроса с вашим промптом, где я чутка удалил лишнее и немного лично подтюнил его. Всё сделано одной командой (в режиме плана, после просто включил YOLO режим) в Qwen Code, который подключён к локально поднятой модели. Калькулятор работает, с вёрсткой особо проблем не заметил (скриншот всей страницы немного неправильно передаёт размеры почему-то, на нём справа лишний отступ, у меня в браузере его нет).

Скрытый текст
Кривой отступ справа в скриншоте
Кривой отступ справа в скриншоте
Нормальный отступ в браузере
Нормальный отступ в браузере

Information

Rating
3,838-th
Registered
Activity