Comments / Profile of HellByte2 / Habr

User

0,1

Rating

Анализ взлома Denuvo при помощи виртуализации

О, я даже не знал, что для четвёрки выпускали такое. Но в целом там как будто мало смысла всё равно. Особенно если вынести чуть больше игровой логики на сервер. Да и обновлять всё это - дело непростое. Думаю, что большую часть пиратов увеличение сложности установки уже отпугивает.

Анализ взлома Denuvo при помощи виртуализации

HellByte2 May 7 at 09:09

Интересно наблюдать за битвой меча и щита (правда ещё бы иметь более полное понимание работы DRM и процессов в ядре). Хотя сейчас как будто есть самый простой способ для борьбы с пиратством - требование постоянного онлайн подключения. Да, это может не понравиться пользователям, но если добавить в игру встроенные мультиплеерные элементы, то в целом тогда всем плюс-минус всё равно. В качестве примера можно взять ту же Diablo 4. Но в теории даже там можно сделать эмулятор сервера. Если я правильно помню, то для Diablo 3 было что-то подобное, но это явно не стоит затраченных усилий.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 20 at 15:24

Бонсай - это некоторое исключение, так как вся его суть в архитектуре, чтобы показывать хорошие результаты в однобитном квантовании. Лично не использовал, но для своего размера - неплохая модель, судя по тестам и отзывам других. Хотя мне кажется, что лучше будет попробовать запустить какой-нибудь Qwen 3.5 4B или Gemma 4 E4B. И в таком случае явно лучше запускать через llama.cpp или чём-то на его основе, так как он заточен под инференс на CPU.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 19 at 15:37

Часть - точно можно. В настройках модели есть выбор количества слоёв для выгрузки и выбор квантизации кэша, как и настройка параметров генерации. Правда я не знаю насколько LM Studio эффективна с работой на CPU+GPU. Лично я пользуюсь llama.cpp через llama-swap (чтобы модели сами выгружались/загружались в зависимости от того, что отправляет клиент).

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 19 at 08:07

Включён, preserve_thinking - это другое, добавлен в Qwen 3.6 и отвечает за сохранение размышлений всех предыдущих запросов в контексте. В теории может уменьшить количество дальнейших размышлений в кодинг задачах и рекомендуется для задач с агентами.

Q6, как мне кажется, немного перебор для локального инференса. Q5 должно быть достаточно. Как мне показалось, чаще лучше иногда сделать дополнительный запрос для починки, чем ждать долгую генерацию.

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 18 at 18:37

Не заметил, что речь про Dense Gemma модель 31B. Не советую запускать её так, ибо надо будет полностью её выгружать на ЦПУ. На машинах с ограниченными ресурсами лучше пользоваться MoE моделями типа как написали выше.

Тут я думал про Qwen 3.6 35B A3B...
По идее должно работать, это квантование модели весит около 22 гб, так что она влезает в 8гб+32гб. Под "запускать частично" скорее всего имелось в виду, что часть слоёв выгружается в ОЗУ и обрабатывается CPU. Так как это MoE модель, то тут это легко делается с автоматическим определением количества слоёв для выгрузки с помощью --fit on. Попробуйте запустить через llama.cpp модель с конфигом выше, если что подкорректируйте контекст.

P.S. Я там немного ошибся в значении аргумента для шаблона чата для включения сохранения размышлений. Правильный аргумент будет выглядеть так –chat-template-kwargs ‘{\"preserve_thinking\”:true}’

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 18 at 16:36

Настройки LLM при запуске с помощью llama.cpp:
./llama-server -m models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf -c 163840 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --chat-template-kwargs "{\"preserve_thinking\":true}"
Для ускорения работы модели использую квантизацию кэша (-ctk q8_0 -ctv q8_0). По тому, что я смотрел, на коротком контексте разницы почти нет. Возможно, при заполненном контексте ~100к будет более заметная деградация работы LLM. Зато вы получаете примерно +30-40% скорости генерации.

Параметры генерации (рекомендуемые разработчиками модели для кодинга):
"temperature": 0.6, "top_p": 0.95,"top_k": 20, "min_p": 0,"max_tokens": 32768,"presence_penalty": 0, "repetition_penalty": 1

Как я тестировал локально новый Qwen 3.6 и Gemma 4

HellByte2 Apr 18 at 16:35

Понял, ну 2-3 часа ждать ради генерации такого сайта в любом случае бессмысленно на мой взгляд. Тут либо подписка нужна, либо более-менее нормальное железо, чтобы модель нормально работала (теперь у меня есть оправдание зачем я покупал 5070TI :) ).

Но для тех, кто будет читать комментарии, на всякий случай повторюсь по поводу рекомендаций разработчиков модели для агентных задач. В Qwen 3.6 добавили возможность сохранять в контексте reasoning с помощью {"preserve_thinking":true} в аргументах для шаблона чата.

P.S. Повтор удалённого комментария
Результаты моего запроса с вашим промптом, где я чутка удалил лишнее и немного лично подтюнил его. Всё сделано одной командой (в режиме плана, после просто включил YOLO режим) в Qwen Code, который подключён к локально поднятой модели. Калькулятор работает, с вёрсткой особо проблем не заметил (скриншот всей страницы немного неправильно передаёт размеры почему-то, на нём справа лишний отступ, у меня в браузере его нет).

Скрытый текст