Comments / Profile of Incognito4pda / Habr

User

Это просто чудо! Благодаря вам удалось выжать ~30 t/s по сравнению с Ollama (15 t/s) двухкратный прорость скорости! Спасибо вам огромное!

Запускаю вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 32768 -fa auto -ncmoe 29 --jinja

(-ncmoe 29 подбирал опытным путём, смотрел через диспетчер задач при каждом запуске сколько кушает vram)

И да, вы точно указали, как только выходит за рамки vram скорость снижается до ~10 t/s

Вот думаю теперь скинуть свою оперативу и взять два комплекта по 96гб т.к. меня в принципе устраивает модель (gpt-oss-120b) по точности и адекватности ответа, но ещё ж и приложениям требуется память. Мне было комфортно и с 15 t/s (главное можно читать текст в процессе генерации, пока он не убежал за скролл) но теперь вдохновился скоростью работы и буду подключать к IDE. Хочу вот ещё одну хорошую moe модельку llama4:16x17b попробовать.

Можно ещё вопросик? Помимо 5080 16гб есть у меня и 6900XT 16гб, как думаете, если я подключу их обе в Debian (в винде 5080 начинает себя неадекватно вести если обе работают) в режиме по х8 линий на каждую, можно ли ожидать существенного профита от такого решения? Ну вроде vram получается суммируется в 32гб + распараллеливание задач аж на целых два достаточно производительных чипа. Стоит ли игра свеч?

Краткий обзор 10 локальных UI для LLM

@Incognito4pda Oct 25 at 19:54

Здравствуйте. Решил попробовать ваш метод запуска модели GPT-OSS-120b получилось так: через Ollama 15 t/s , через llama-server 26 t/s. Благодарю, это очень круто, можно таким образом "разогнать" модель! Позвольте задать вам пару вопросов:

Скажите пожалуйста, я могу на llama-server запустить уже скачанную для Ollama модель или так же придётся загружать с hf формат gguf модельки?

И вот ещё мне непонятно, я запускаю по вашему шаблону вот так:

llama-server -m "E:\gguf\gpt-oss-120b-mxfp4-00001-of-00003.gguf" -c 65536 -fa auto -cmoe --jinja

работает хорошо и быстро (26 t/s) vram кушает всего 6гб, ram ~70гб!

Но как только начинаю играться с параметрами, шаг влево - шаг вправо забивает полностью vram (5080 16гб) и под завязку оперативу (96гб). И так к примеру пробовал --threads 12 --gpu-layers 20 --n-cpu-moe 8 и сяк -c 65536 -fa auto -ncmoe 12 --jinja ... в общем пробежался по вашим постам и комментариям, пробовал многое и хоть ты тресни! как только отхожу от вашего шаблона с предыдущего поста, тупо сжирает всю память и на этом всё заканчивается.

Может подскажете как мне задействовать, ну скажем 14гб vram для большей производительности? А то вот везде в гайдах к llama пишут экспериментируйте с параметрами под свою систему, но вот у меня что то не срастается заняться экспериментами.

Краткий обзор 10 локальных UI для LLM

@Incognito4pda Oct 24 at 19:23

К чему это всё? GPT-OSS-120b уже давным давно спокойно работает на Ollama.

Программы для Windows, которые повысят вашу продуктивность и сделают работу комфортной

@Incognito4pda Oct 12 at 20:05

Ребята, посоветуйте плиз достойную утилиту управления мониторами. Вроде сейчас модно ставить перед глазами кучу мониторов, но проблема управления всем этим хороводом почему то не обсуждается.

Ollama предоставила бесплатный API для веб-поиска

@Incognito4pda Sep 29 at 06:58

Подскажите плиз, может кто знает как оплатить Ollama cloud из РФ? Вот не сталкивался до сих с оплатой зарубежных сервисов. Даже не знаю с чего и начать, поиск выдаёт кучу контор, но какие из них нормально работают, не понятно.

UPDATE: Разрешения MAX для Android. Cравниваем с Telegram и WhatsApp*

@Incognito4pda Sep 19 at 16:36

Нет, это надо обсасывать до мозга костей. Какого хрюнделя я именно сейчас должен прекратить свои изыскания по этому убожеству?

-3

DeepSeek-V3.1 теперь можно запускать локально

@Incognito4pda Aug 28 at 07:05

4 планки ставят когда нужно добиться максимального объёма

Нет, конечно же не по этому. )

эти 96 можно набрать и двумя планками.

Можно, но не нужно. 4 плашки работают быстрее и стабильнее чем 2 - вроде об этом был мой спич, не читали?

я не уверен на 100%, что ваш успех объясняется именно этим, но считаю это наиболее вероятным объяснением

Такие понятия как: успех, вероятность, не уверенность - не применимы там, где оперируют фактами.

А вообще порекомендую вам освежить знания по железу и слезть уже с этой порочной мантры про 2 плашки. )

DeepSeek-V3.1 теперь можно запускать локально

@Incognito4pda Aug 26 at 13:46

Прошу прощения за эмоциональный коммент. Дабы не быть голословным, прикладываю пруф работы 4 плашек памяти по 24 гигабайта буквально граничащей с максимальной пропускной способностью контроллера памяти для данной архитектуры (это значит никаких ограничений на производительность нет):

AIDA64 9950X3D 96GB Memory Test

От процессора не особо сильная зависимость, вот на предыдущем камне:

AIDA64 R7 7700 96GB Memory Test

Тайминги оперативной памяти. Кстати, довольно универсальные для DDR5, можете использовать их как отправную точку в подгонке параметров:

Advanced DRAM Configuration

Причём питание никакое не трогаю, всё на заводских значениях:

ZenTimings Info

Так вот почему я собственно так раскричался. Из-за вот таких голословных вбросов типа: "4 планки не заведутся на am5" или "будет серьёзная просадка по частоте" - я потратил уйму времени на изучение предмета прибывая в сомнениях. Взял сначала на маркетплейсе один комплект - всё заработало идеально. Потом комплект исчез из продажи в РФ на 4 месяца и как только появился в оранжевом магазине, я уже без колебаний помчался брать идентичный - всё заработало ещё лучше! Но без этих сомнительных лозунгов конечно сразу бы взял 2 комплекта по более низкой цене. А ведь многие до сих пор думают, что всё это работает как вещает камрад. У меня довольно посредственная доска, а 4 плашки работают идеально. Все, любые тесты проходит на ура. Выводы делайте сами.

DeepSeek-V3.1 теперь можно запускать локально

@Incognito4pda Aug 24 at 20:19

Как же вы надоели плодить эти сказки про потерю производительности на 4 плашках. У меня 4 х 24 работают даже быстрее чем 2 х 24. И вся эта красота на процессоре амд - про который сказочники говорят, что 4 модуля вообще на нём никогда не заработают. Перестаньте уже нести херню, возьмите таблицу совместимости оперативной памяти на любой современной материнке и посмотрите на каких частотах спокойно работают х4 комплекты.

+23

Что внутри мини-ПК Ninkear M8? Разборка и тест компактного компьютера на базе AMD Ryzen 7-8745HS и Radeon 780M

@Incognito4pda Aug 22 at 00:45

Эра громоздких системных блоков постепенно уходит в прошлое,

Никто никуда не уходит. Ну, разве что для вашей статьи, в целях подчеркнуть важность момента. ) Чистая производительность - это всегда мейнстрим. А вот кастрированные решения - это больше чтобы поиграться или для домашнего сервачка мультикомбайна. Как ни тужься, ни корячься, а 9950X с топовой видюхой для любимых LLM в эту коробчонку ну никак не впихнешь. Мощей всегда хочется больше. Говорю это как обладатель аналогичной "недопеки" на 7940.

Технический разбор Max: что внутри APK

@Incognito4pda Aug 19 at 21:53

Этому явлению самое место в инкапсулированной среде смартфона, типа Knox на Самсунге или "Вторая система" у китайцев, где можно подсунуть любую телефонную книгу или вообще в любой момент отключить функционирование песочницы в которой он стоит.

NoDPI4Android. Решаем проблему «деградации» YouTube теперь и на Android

@Incognito4pda Jul 1 at 08:02

Это прекрасно! Спасибо Вам огромное! Дома у меня всё работает без костылей через роутер по данному решению (ссыль открывается только через VPN), а Ваше буду использовать за пределами домашней сети. Всех благ!

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

@Incognito4pda Jun 27 at 18:50

Ага, то есть ты даже не понял что надо в поиске крутануть вниз и найти ещё штук 20 по настройке LM Studio, а просто выцепил для сравнения первую попавшуюся из списка? В интересное время живём. ))

-13

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

@Incognito4pda Jun 27 at 17:18

Автор, а ты не пробовал поиском пройтись, прежде чем публиковать однотипный шлак?

-20

Google представила Gemma 3n — мультимодальный ИИ, который пойдет на смартфоне и ноутбуке

@Incognito4pda Jun 27 at 11:42

Работает же мультимодальность на Ollama

Видеокарты снова в деле: продажи в России выросли почти в 5 раз, и вот что это значит

@Incognito4pda Jun 15 at 14:52

Ну ну )) именно по этому сейчас 5080 можно уже взять за 108 штук у Ваших конкурентов. Снова в деле у Вас только то что лежит на складах мёртвым грузом. Я же в прошлый раз ещё говорил, гоните в шею ваших маркетологов. Такой примитивный разводняк уровня тв рекламы, годится только домохозяйкам, но для аудитории хабра это прям совсем глупая "статья".

+15

Почему Android не может использовать CDC Ethernet

@Incognito4pda Jun 11 at 11:20

Тоже не понял. Сколько было всяческих переходников типа "8" в 1 с Ethernet на борту, сколько разных мобил - ни разу проблем не было.

«Ведомости»: ВТБ перешел на российские компьютеры и планшеты

@Incognito4pda Jun 4 at 11:49

Отличная новость. Значит пора продавать акции втб.

Умное лето: гаджеты для детей, которые сделают каникулы безопаснее, интереснее и познавательнее

@Incognito4pda Jun 3 at 12:55

С 1 мая, у нас жёсткий харам на электронику для дочки (14 лет) - не более часа в день любая на выбор: комп, мобила, телек. И только перед сном. Буквально через месяц ребёнка просто не узнать. Стала очень много с нами разговаривать, занялась искусством: рисование, моделирование, учится играть на акулеле. Больше проводит время на улице с подругами, стала много кушать, двигаться... Вообщем это совершенно другой человек.

Ребят, я конечно понимаю что сейчас у Вас падают продажи (это сезонное), но брать детский сегмент для разгона и так задроченных этой всей тупой хернёй детей, это какой-то лютый зашквар. Гоните в шею Вашего маркетолога, любой адекватный родитель нехер пошлёт все ваши изыскания для детей на лето вместе с вами за компанию.

Обратите внимание, что сейчас дачный сезон, может лучше бытовую технику дачникам подберёте?

Вышла DeepSeek-R1-0528

@Incognito4pda May 29 at 19:48

Ого, под неё даже готовят зарелизить обнову Ollama https://github.com/ollama/ollama/releases

2 3 ...

6 7