Pull to refresh
3

Тень

0,1
Rating
Send message

UD может и нормальные для обыденных стандартных популярных распространённых запросах и соответственно тестах.
но если запросы не входят в это(то есть нестандартны) то модели UD глючат жёстко.

а про обычные кванты я не писал.
я про то что IQ4_NL работает стабильней чей UD при непопулярных запросах.
но IQ4_NL менее качественней чем Q4_K_M/

у UD слишком сильная деградация и она становится "узколобым".
IQ4_NL не имеет таких проблем.

2696v4 + мать + 32/64 ddr4 ~ от 15/20 т.р. в прошлом месяце.

есть же 4090 с 48 гигами на том же авито.
и если брать пару 3090, то для эффективности стоит взять nvlink. мост данных напрямую между ними.

igpu может быть по производительности(токен/сек) может быть на ровне или ниже чем сам процессор.
тогда выходят другие показатели. например задержки перед ответом. у cpu задержка ниже чем у igpu/gpu.
но igpu/gpu/npu лучше по энергоэффективности.

так же нужно учесть что на cpu оптимальны веса Q8 и модели onnx.
кванты ниже требуют дополнительных вычислений, что ведёт к снижению производительности.
кроме onnx формата/стандарта существуют другие оптимизированные, но onnx модели обычно легко найти уже готовые.

это не претензия к нему было.
просто подобные случаи могут проявляться в той или иной форме и в других странах. например наймут айтишника, но во внутреннем хаосе забудут пристроить его.
просто конкретный случай имеет местные для японии/азии аспекты, которые упускаются гайдзинами.

прогнал квант модели от unsloth на личных тестах, на 3090
все веса у gemma 4, qwen3.5, qwen3.6.
UD-Q3_K_XL и UD-Q4_K_XL.
за исключением gemma-4-31B все остальные провалили тест на проверку аномалии в анатомии(инструкция на 100 токенов + картинка). они все просто уходят в цикл.
качество ответов тоже упало заметно, по сравнению с аналогами Q4_K_M от mradermacher+heretic.

а потом народ жалуется что модели тупые.
это не модели тупые, а они выбирают такие где качество больше подверглось деградации.
матрицы и датасеты у тех кто квантует - это сохранение и иногда улучшение работы модели в одних задачах путём потерь в других.

мне впервые вырезание части экспертов попадалось у gpt-oss, которая вышла уже довольно давно.

и у LM Studio у меня по умолчанию Q4_K_S. как сделать Q4_K_M по умолчанию?

нет.

там назначали к нему стажёра только из универа.
начальник-гайдзин выдал задание и ушёл решать свои задачи.
к моменту дедлайна естественно она задачу не сделала.
она сославшись на здоровье и вызвали скорую. до приезда скорой она вроде ушла.
потом компания вроде договаривалась о выплате ей моральной компенсации.

а теперь как это вижу я.
она по сути оказалась выброшенной рыбкой из воды.
во-первых, гайдзин не определил кто станет семпаем новому кохаю.(смотрите про "семпай кохай") этот обычай ещё до школы обычен и наверно считается нормой для интеграцией новеньких.
во-вторых, в Азии(Япония, Китай, Корея) "сохранить лицо"(репутация) очень важная составляющая. в той же Японии нередко встречаются самоубийства с целью сохранить лицо, и это норма.

это только поверхностно, но там ещё могут быть нюансы которые гайдзин не заметит.
а девушке это психологическая травма на всю жизнь.

короче, метод обучения этого гайдзина оказался слишком суровым для обычных японских стажёров. вспоминается аналогия с Тибетом, где бросали в горную реку малых детей и выплывали только те кто "способен выжить в тех суровых условиях".


с учётом что в тг канале, где он поделился историей, никто не прояснил этот странный для них случай. а это один из крупнейших наверно русскоязычных ит каналов японских.
гайдзины даже не пытаются понять культуру тех мест куда перебрались.

потому что там очень большой культурный разрыв.
в тг чате та ещё дичь встречалось когда над обычным японцем ставили гайдзинов.
ваш коммент только подтверждает отсутствие знаний о местной культуре.(и такое у подавляющего большинства кто не вырос в Японии)

например(частичный ответ на ваше не понимание) у них проф. подготовка и связи начинают набираться как раз в школе. у школ может проявляться те или иные специализации. то есть набираются профильные связи и навыки.

ПО и нейронки могут вставлять нестандартные символы юникода. иногда специально(помечают свои тексты) иногда нет(например глюки нейронок).

а если подходить к проблеме с другой стороны?
классика - это строго предустановленные ограниченные наборы навыков, взаимодействий, механик.
а если обойтись без этого ограничения возможности взаимодействия персонажей на мир(ограничения только в правилах мира и физике мира, и то не абсолютные) то как персонаж игрока будет решать те или иные задачи будет зависеть от прошлых действий/выборов.
это же действует и для мобов.
то есть даже если базис у всех гоблинов общий, но чем дольше существуют гоблины то больше приобретают уникальности.
бой против уникального моба VS стандартного моба.

реализация механик позволяющая создавать и развивать реально уникальных мобов и npc.
я к этому стремлюсь, но только в начале этого пути который займёт годы.

в LLM которое создавало этот комментарий имеет доступ к "проекта Концепция: Полностью проработана (60+ страниц дизайн-документа)"?

это же только один из концептов планируемых?
что планируете по UI/UX? текстовая игра как dangers ai?
откуда такие сроки для разработки демо?
возможность локальной работы или чисто онлайн?
для оптимизации мозгов NPC что бы были экономичней в использовании LLM есть множество подходов.

я для игры базовый чат для RP (Role play) за месяц сделал.
ссылки для windows/linux(x11)/android https://drive.google.com/drive/folders/1sXqjeMbiHPgKmR4VdYbZ5JFlLMFe6gRc?usp=sharing https://discord.gg/z749JfA4x7
и сейчас проектирую прототип 3d игры/мира.

https://github.com/alibaba/MNN и есть и другие приложения для локального запуска на смартфоне.

в топах по производительности айфоны.
у остальных смартфонах нередко работа напрямую на CPU может давать лучший результат чем через встроенные в него gpu или npu.

есть клиенты со встроенным RAG.
так как модели на базе архитектуры Gemma 3, то предположительно они поддерживают MCP.

кроме векторных хранилищ есть ещё:
- векторно-графовые
- и с datalog

но всё это больше про похожесть данных или про отношения данных.
как организовать текущее состояние и связи с прошлыми состояниями? и понимание этого "LLM движком"

проект(с vue.js) на tauri v2 у меня весит ~7 мб, но это без плагинов и медиа-контента.

есть ещё https://github.com/DioxusLabs/dioxus из интересных проектов.
изначально был на webview.
осенью добавили Dioxus Native (on the GPU with WGPU).

китайцы собирают уже много лет из б/у(в том числе из серверных) чипов новые материнки. для ознакомления https://e5450.com/
китайцы собирают из мобильных видеочипов десктопные видеокарты.

или пример rtx 4090d. китайский мод.

так что у китайцев уже есть опыт и компании для этих работ.

"форсировали"
начали ускорять

мне это надо в будущем выделять капсом что бы было понятней?

1
23 ...

Information

Rating
4,683-rd
Registered
Activity