А можете на своем опыте рассказать, нет ли проблем с контекстом. Я слышал, что если он не большой то бывают проблемы.
По скрину увидел что вы используете gemma3 4b и у нее вроде бы макс контекст 120000. А что если все что скармливается в RAG не влезет в контекст? Как с такими проблемами бороться?
Курсор выдает до 250 токенов в секунду Я тратил на подписки больше $400 в месяц. И в данный момент не вижу для своих проектов разницы между ними и локальной моделью.
Я бы не смотрел на квантования ниже Qwen3.6-27B-Q6_K.gguf она весит 23гб, так же надо еще место для kv cache и для контекста. Так что если ужаться то можно например взять пару карт по 16гб, а потом париться с оптимизациями
Судя по скринам температура у NVME дисков не плохая. Это в простое или под нагрузкой? И по фотке еще не понятно, вроде бы есть отверстие под вентилятор у самого корпуса. А сам вентилятор есть или охлаждение полностью пассивное?
Так а какая должна быть температура у дисков? 36.6 как у человека? Все что вам кажется горячим не имеет права работать при этой температуре?
Может быть надо смотреть на спецификацию диска? Вот у моего диска в спеке написано что он может спокойно работать до 70 градусов, после 85 он уходит в тротлинг.
Можно как-то раскрыть почему 50 градусов считается плохой температурой?
Вообще у меня дома есть еще и NAS на обычных жестких дисках. Там, конечно, есть и плюсы и минусы. Плюсы в том, что дешевле хранить гигабайт данных, и сам нас можно сделать большого обьема.
Но минусы тоже напрягают. Совсем не приятно работать с этим насом напрямую. Прям чувствуется насколько он медленный. Особенно если надо вдруг скачать или закачать большое количество мелких файлов. Ну и не нравится, что все-таки он шумный, так как эти диски постоянно раскручиваются.
Ну и если места дома не очень то и много, то такие вот компактные решения тоже сразу ценишь. Но если места много, то, наверное, не принципиально.
Да, хватает. Я же выше написал про видео, можете сами глянуть, там я перекидываю около терабайта.
Я лично не знаю от чего это зависит, и интересно было бы узнать, может быть кто-то подскажет.
На этом девайсе перегрева у меня нет. Но у меня есть еще один девайс где всего два NVME диска. И там когда начинаешь скачивать большие обьемы данных так он безумно нагревается до такого состояние что даже перезагружается.
можете на ютубе посмотреть видео, я его тоже записывал, не буду кидать ссылку, но оно с таким же названием, там есть показываю температуры и показываю как выглядит админка
Ага, там линукс, но лично я не до конца разобрался как там устанавливать обычные программы. Например, когда я попробовал поставить вим то получит такую вот ошибку
E: Could not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied) E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?
Qwen3.6-35B-A3B это MoE модель, она тупее но быстрее.
А можете на своем опыте рассказать, нет ли проблем с контекстом. Я слышал, что если он не большой то бывают проблемы.
По скрину увидел что вы используете gemma3 4b и у нее вроде бы макс контекст 120000. А что если все что скармливается в RAG не влезет в контекст? Как с такими проблемами бороться?
qwen3.6-27b q8 у меня локально выдает около 75 токенов в секунду, что вполне себе приемлимо, запускаю в llama.cpp
я не использую оркестратор, я просто использую агента (pi) и rag
Курсор выдает до 250 токенов в секунду
Я тратил на подписки больше $400 в месяц. И в данный момент не вижу для своих проектов разницы между ними и локальной моделью.
Для мака прежде всего надо смотреть на формат MLX, это специально под их процессоры сделанный формат. А остальное вроде то же самое.
Я бы не смотрел на квантования ниже Qwen3.6-27B-Q6_K.gguf она весит 23гб, так же надо еще место для kv cache и для контекста. Так что если ужаться то можно например взять пару карт по 16гб, а потом париться с оптимизациями
Запускал вообще вот так
pm2 start bash --name llama-server -- -c "/home/dm/llamamtp/llama.cpp/build/bin/llama-server -m /home/dm/models/qwen3-next/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --port 8080 -ngl 999 -ts 0,0 --ctx-size 262144 --batch-size 512 --ubatch-size 256 --flash-attn on --parallel 1 --temp 0.6 --top-p 0.95 --reasoning-budget 0 --spec-type draft-mtp --spec-draft-n-max 2"Квантование Q8_K_XL
Запускалось на двух 5090
Судя по скринам температура у NVME дисков не плохая. Это в простое или под нагрузкой? И по фотке еще не понятно, вроде бы есть отверстие под вентилятор у самого корпуса. А сам вентилятор есть или охлаждение полностью пассивное?
Так а какая должна быть температура у дисков? 36.6 как у человека? Все что вам кажется горячим не имеет права работать при этой температуре?
Может быть надо смотреть на спецификацию диска? Вот у моего диска в спеке написано что он может спокойно работать до 70 градусов, после 85 он уходит в тротлинг.
Можно как-то раскрыть почему 50 градусов считается плохой температурой?
Странная конечно у вас логика. Вы нашли какой-то девайс который перегревается и делаете вывод о том, что значит в все другие тоже будут перегреваться.
Отвечу коротко - нет, девайс про который я писал не перегревается.
При тех же батаритах? А есть у вас фотка того о чем вы говорите? хочется посмотреть на габариты и как оно все впишется в размер 14х6х18см
Ты меня пытаешься все равно уговорить использовать nas на дисках?)
Вообще у меня дома есть еще и NAS на обычных жестких дисках. Там, конечно, есть и плюсы и минусы. Плюсы в том, что дешевле хранить гигабайт данных, и сам нас можно сделать большого обьема.
Но минусы тоже напрягают. Совсем не приятно работать с этим насом напрямую. Прям чувствуется насколько он медленный. Особенно если надо вдруг скачать или закачать большое количество мелких файлов. Ну и не нравится, что все-таки он шумный, так как эти диски постоянно раскручиваются.
Ну и если места дома не очень то и много, то такие вот компактные решения тоже сразу ценишь. Но если места много, то, наверное, не принципиально.
Да, хватает. Я же выше написал про видео, можете сами глянуть, там я перекидываю около терабайта.
Я лично не знаю от чего это зависит, и интересно было бы узнать, может быть кто-то подскажет.
На этом девайсе перегрева у меня нет. Но у меня есть еще один девайс где всего два NVME диска. И там когда начинаешь скачивать большие обьемы данных так он безумно нагревается до такого состояние что даже перезагружается.
Ну, по такой логике хрен ты в свой говноксион засунешь авианосец
По дискам ставил те что были) это уже немного старые самсунги 980 про
можете на ютубе посмотреть видео, я его тоже записывал, не буду кидать ссылку, но оно с таким же названием, там есть показываю температуры и показываю как выглядит админка
это и есть команда с судо
Если у вас задача собрать сервер как можно больший по габаритам, то минус.
Ага, там линукс, но лично я не до конца разобрался как там устанавливать обычные программы. Например, когда я попробовал поставить вим то получит такую вот ошибку
E: Could not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)
E: Unable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?
Ага, будет прям один в один, ведь говноксион он по габаритам как раз 14х6х18см