Pull to refresh
14
1,2
Rating
5
Subscribers
Send message

у меня на 3090 24gb vram, при контексте 64000 удалось выжать 120 т/с на qwen 3.6 35b (q4km + турбоквант) на 128к контекста около 100 ток/с

позвоночник «изнашивается», как у профессиональных спортсменов

нет

так как раз в некоторых лорах лично для меня всё выглядит прямо очень обычно, не за что не сказал бы что это нейронка, возможно рассматривая под лупой можно что то и найти, но просто кинув взгляд самые типичные фото, причём это не модели топовых гигантов, а опенсорс решения работающие на пк дома

примеры

есть много вариантов моделей, кому нужно неотличимое от реальности фото от нейронок есть lora с упором в реализм, как и много других модификаций на любой вкус, не стоит смотреть только в сторону gpt / nano banana и по ним судить обо всёх, нейронки только начали развиваться и сейчас на самом деле большая скорость роста качества, так что не говорите гоп пока..

да, но так то у llama.cpp есть и своя обёртка в режиме сервера

есть квопус 9б кодер на основе квена 3.5, если вам нужна лёгкая модель для кода, у меня он на телефоне 4 ток/сек даёт, а джемма 4 12b gguf q4_k_m всего 2 ток/сек, (самсунг нот 20 ультра на эксиносе)

можно было бы просто айфону дать режим запуска мак нео с полноценной системой, как dex у самсунга

если вы про Macs Fan Control то в бесплатной версии там либо максимум либо авто обороты, а нужна именно кривая, что бы большую часть времени мак молчал, а когда уже 75+гр, можно было бы заводить вентиляторы и к 90 я бы уже 100% сделал оборотов

👍, вот ещё бы хороший опенсорс софт для настройки кривых вентиляторов

для dex режима (4к дисплей / клавиатура / мышь)

"У меня не получилось запустить VS Code и FreeCAD, а именно ими я хотел бы пользоваться"
я как то на самсунг ставил Linux-on-Samsung там есть "vs code" в dex режиме работало отлично, желательно иметь "снапдрэгон" для 3d ускорения полноценного

всё проще, эти скорости на начальных этапах, дальше лучше не будет, а значит в топку))

контекст 128к, не смотрел даже

а если как в офф моделях делать через transformers + torch_cu128 и тд, то в nvidia/Nemotron-Labs-Diffusion-3B у меня 85 ток/с что тоже далеко не лучший результат

есть форк для gguf, прямо сейчас собираю для cuda

Скрин сборки

p.s. наверняка при сборке я напортачил ибо было много проблем, но на rtx 3090 у меня такое..

Скрытый текст

хотя в целом не вижу смысла в этой модели

т.к.

скорости не очём, у меня на rtx 3090 в qwen 3.6 35b 95 ток/с и это без MTP

p.s.s. хотя в этой же сборке gemma4 e4b у меня выдаёт 70ток/с

Скрытый текст

возможно проблема первого запуска, да и иногда всё же бывают такие проблемы, в квантованных версиях, а возможно проблема самого cli, а модель кстати призналась, да и стиль кода очень был похож именно на квен, вопрос только какой квант и какая версия модели

Скрытый текст

базовая модель в koda-cli даже файлы не смогла создать..

Скрытый текст

p.s. только со второго запуска cli смогло создать файлы, внутри базовой модели похоже qwen 3.5/3.6

1
23 ...

Information

Rating
1,921-st
Registered
Activity