Обновить
-16
0

Пользователь

Отправить сообщение

Это просто чудо! Благодаря вам удалось выжать ~30 t/s по сравнению с Ollama (15 t/s) двухкратный прорость скорости! Спасибо вам огромное!

Запускаю вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 32768 -fa auto -ncmoe 29 --jinja

(-ncmoe 29 подбирал опытным путём, смотрел через диспетчер задач при каждом запуске сколько кушает vram)

И да, вы точно указали, как только выходит за рамки vram скорость снижается до ~10 t/s

Вот думаю теперь скинуть свою оперативу и взять два комплекта по 96гб т.к. меня в принципе устраивает модель (gpt-oss-120b) по точности и адекватности ответа, но ещё ж и приложениям требуется память. Мне было комфортно и с 15 t/s (главное можно читать текст в процессе генерации, пока он не убежал за скролл) но теперь вдохновился скоростью работы и буду подключать к IDE. Хочу вот ещё одну хорошую moe модельку llama4:16x17b попробовать.

Можно ещё вопросик? Помимо 5080 16гб есть у меня и 6900XT 16гб, как думаете, если я подключу их обе в Debian (в винде 5080 начинает себя неадекватно вести если обе работают) в режиме по х8 линий на каждую, можно ли ожидать существенного профита от такого решения? Ну вроде vram получается суммируется в 32гб + распараллеливание задач аж на целых два достаточно производительных чипа. Стоит ли игра свеч?

Здравствуйте. Решил попробовать ваш метод запуска модели GPT-OSS-120b получилось так: через Ollama 15 t/s , через llama-server 26 t/s. Благодарю, это очень круто, можно таким образом "разогнать" модель! Позвольте задать вам пару вопросов:

Скажите пожалуйста, я могу на llama-server запустить уже скачанную для Ollama модель или так же придётся загружать с hf формат gguf модельки?

И вот ещё мне непонятно, я запускаю по вашему шаблону вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 65536 -fa auto -cmoe --jinja

работает хорошо и быстро (26 t/s) vram кушает всего 6гб, ram ~70гб!

Но как только начинаю играться с параметрами, шаг влево - шаг вправо забивает полностью vram (5080 16гб) и под завязку оперативу (96гб). И так к примеру пробовал --threads 12 --gpu-layers 20 --n-cpu-moe 8 и сяк -c 65536 -fa auto -ncmoe 12 --jinja ... в общем пробежался по вашим постам и комментариям, пробовал многое и хоть ты тресни! как только отхожу от вашего шаблона с предыдущего поста, тупо сжирает всю память и на этом всё заканчивается.

Может подскажете как мне задействовать, ну скажем 14гб vram для большей производительности? А то вот везде в гайдах к llama пишут экспериментируйте с параметрами под свою систему, но вот у меня что то не срастается заняться экспериментами.

К чему это всё? GPT-OSS-120b уже давным давно спокойно работает на Ollama.

Ребята, посоветуйте плиз достойную утилиту управления мониторами. Вроде сейчас модно ставить перед глазами кучу мониторов, но проблема управления всем этим хороводом почему то не обсуждается.

Подскажите плиз, может кто знает как оплатить Ollama cloud из РФ? Вот не сталкивался до сих с оплатой зарубежных сервисов. Даже не знаю с чего и начать, поиск выдаёт кучу контор, но какие из них нормально работают, не понятно.

Нет, это надо обсасывать до мозга костей. Какого хрюнделя я именно сейчас должен прекратить свои изыскания по этому убожеству?

4 планки ставят когда нужно добиться максимального объёма

Нет, конечно же не по этому. )

эти 96 можно набрать и двумя планками.

Можно, но не нужно. 4 плашки работают быстрее и стабильнее чем 2 - вроде об этом был мой спич, не читали?

я не уверен на 100%, что ваш успех объясняется именно этим, но считаю это наиболее вероятным объяснением

Такие понятия как: успех, вероятность, не уверенность - не применимы там, где оперируют фактами.

А вообще порекомендую вам освежить знания по железу и слезть уже с этой порочной мантры про 2 плашки. )

Прошу прощения за эмоциональный коммент. Дабы не быть голословным, прикладываю пруф работы 4 плашек памяти по 24 гигабайта буквально граничащей с максимальной пропускной способностью контроллера памяти для данной архитектуры (это значит никаких ограничений на производительность нет):

AIDA64 9950X3D 96GB Memory Test

От процессора не особо сильная зависимость, вот на предыдущем камне:

AIDA64 R7 7700 96GB Memory Test

Тайминги оперативной памяти. Кстати, довольно универсальные для DDR5, можете использовать их как отправную точку в подгонке параметров:

Advanced DRAM Configuration

Причём питание никакое не трогаю, всё на заводских значениях:

ZenTimings Info

Так вот почему я собственно так раскричался. Из-за вот таких голословных вбросов типа: "4 планки не заведутся на am5" или "будет серьёзная просадка по частоте" - я потратил уйму времени на изучение предмета прибывая в сомнениях. Взял сначала на маркетплейсе один комплект - всё заработало идеально. Потом комплект исчез из продажи в РФ на 4 месяца и как только появился в оранжевом магазине, я уже без колебаний помчался брать идентичный - всё заработало ещё лучше! Но без этих сомнительных лозунгов конечно сразу бы взял 2 комплекта по более низкой цене. А ведь многие до сих пор думают, что всё это работает как вещает камрад. У меня довольно посредственная доска, а 4 плашки работают идеально. Все, любые тесты проходит на ура. Выводы делайте сами.

Как же вы надоели плодить эти сказки про потерю производительности на 4 плашках. У меня 4 х 24 работают даже быстрее чем 2 х 24. И вся эта красота на процессоре амд - про который сказочники говорят, что 4 модуля вообще на нём никогда не заработают. Перестаньте уже нести херню, возьмите таблицу совместимости оперативной памяти на любой современной материнке и посмотрите на каких частотах спокойно работают х4 комплекты.

Эра громоздких системных блоков постепенно уходит в прошлое,

Никто никуда не уходит. Ну, разве что для вашей статьи, в целях подчеркнуть важность момента. ) Чистая производительность - это всегда мейнстрим. А вот кастрированные решения - это больше чтобы поиграться или для домашнего сервачка мультикомбайна. Как ни тужься, ни корячься, а 9950X с топовой видюхой для любимых LLM в эту коробчонку ну никак не впихнешь. Мощей всегда хочется больше. Говорю это как обладатель аналогичной "недопеки" на 7940.

Этому явлению самое место в инкапсулированной среде смартфона, типа Knox на Самсунге или "Вторая система" у китайцев, где можно подсунуть любую телефонную книгу или вообще в любой момент отключить функционирование песочницы в которой он стоит.

Это прекрасно! Спасибо Вам огромное! Дома у меня всё работает без костылей через роутер по данному решению (ссыль открывается только через VPN), а Ваше буду использовать за пределами домашней сети. Всех благ!

Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))

Автор, а ты не пробовал поиском пройтись, прежде чем публиковать однотипный шлак?

Работает же мультимодальность на Ollama

Ну ну )) именно по этому сейчас 5080 можно уже взять за 108 штук у Ваших конкурентов. Снова в деле у Вас только то что лежит на складах мёртвым грузом. Я же в прошлый раз ещё говорил, гоните в шею ваших маркетологов. Такой примитивный разводняк уровня тв рекламы, годится только домохозяйкам, но для аудитории хабра это прям совсем глупая "статья".

Тоже не понял. Сколько было всяческих переходников типа "8" в 1 с Ethernet на борту, сколько разных мобил - ни разу проблем не было.

Отличная новость. Значит пора продавать акции втб.

С 1 мая, у нас жёсткий харам на электронику для дочки (14 лет) - не более часа в день любая на выбор: комп, мобила, телек. И только перед сном. Буквально через месяц ребёнка просто не узнать. Стала очень много с нами разговаривать, занялась искусством: рисование, моделирование, учится играть на акулеле. Больше проводит время на улице с подругами, стала много кушать, двигаться... Вообщем это совершенно другой человек.

Ребят, я конечно понимаю что сейчас у Вас падают продажи (это сезонное), но брать детский сегмент для разгона и так задроченных этой всей тупой хернёй детей, это какой-то лютый зашквар. Гоните в шею Вашего маркетолога, любой адекватный родитель нехер пошлёт все ваши изыскания для детей на лето вместе с вами за компанию.

Обратите внимание, что сейчас дачный сезон, может лучше бытовую технику дачникам подберёте?

Ого, под неё даже готовят зарелизить обнову Ollama https://github.com/ollama/ollama/releases

1
23 ...

Информация

В рейтинге
6 551-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность