Pull to refresh

Comments 36

Проблемы:

  1. Нет поддержки Flash Attention 3 модель валится в vllm на инференсе. Пока можно запустить только на llama.cpp.

  2. Модель плохо работает на русском домене. Смысла от нее нет.

Проверил на доступном железе скорость работы младшей модели.
Ryzen 6900HX, 64Gb ОЗУ на встроенной графике radeon 690M 20 т/с. На 3090 100 т/с.

Младшая очень экономна и быстра, складно пишет рассказы на русском, но слаба в логических задачах. Старшая 120b MXFP4 запускается на 5060ti16+64Гб ОЗУ 10т/с с 8 слоями в видеопамяти. Качество ответов существенно выше, чем у младшей.

Старшая 120b MXFP4 запускается на 5060ti16+64Гб ОЗУ 10т/с с 8 слоями в видеопамяти.

gpt-oss-120b это MoE модель размером 120B, но для каждого нового токена используется только 5.1B активных параметров, которые постоянно меняются. Выгружая 8 слоев из 37 в видеопамять, это 14гб VRAM, то не все активные параметры попадают в эту VRAM, то есть VRAM не используется на каждом шагу, лишь эти 8 слоев которые выборочно могут попасть, а могут не попасть в список активных параметров. Это главное отличие от Dense-моделей, где каждый слой участвует в вычислениях на каждом шагу.

Для MoE сейчас используют более эффективный способ заполнить эти 14гб, куда сильнее ускоряя работу модели. Нужно выгрузить тензоры внимания со всех слоев в VRAM, а MoE тензоры оставляете на CPU, тензоры внимания каждого слоя нужны во время каждого шага, поэтому вы используете VRAM для каждого токена, за счет этого получается ускорение.

Подробнее про это есть вот тут: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

GPU 4060ti 16gb, то есть слабее чем 5060ti, также 8 слоев в видеопамяти, используется 14гб:
.\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa -ngl 8

7.6 t/s
7.6 t/s

Используем новый подход, добавляем параметр --cpu-moe и выгружаем все 37 слоев (для удобства указано 99):
.\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa --cpu-moe -ngl 99

13.7 t/s
13.7 t/s

Модель работает почти в 2 раза быстрее, при этом использует всего 3гб VRAM, вместо 14гб.

Можно засунуть целые слои, чтобы заполнить те же 14гб. Для этого есть новый параметр --n-cpu-moe X, количество moe-слоев которые будут выгружена на CPU, остальное останется на GPU. Начиная от полного числа слоев, 37 в данном случае, число надо уменьшать вниз, пока хватает памяти, для 14гб это будет 28 слоев:
.\llama-server.exe -m "openai_gpt-oss-120b-MXFP4.gguf" -fa --n-cpu-moe 28 -ngl 99

16 t/s
16 t/s

Было 7.6 t/s, стало 16 t/s, скорость в 2.1 раза выше, чем была при том же расходе VRAM.

--cpu-moe и-cmoe это синонимы для -ot exps=CPU или --override-tensor=CPU, поэтому можно встретить и такие параметры. Сейчас это не применить в LM Studio, они используют движок llama.cpp, но не добавили возможно указать эти параметры, поэтому запуск llama-server из состава llama.cpp.

Если бы ни этот комментарий я бы никогда не узнал что на ноутбучном процессоре i7-13650hx Qwen3-30B-A3B выдаёт 35 токенов\с... Скоро Xeon 2699v4 приедет, интересно что покажет...

Вполне может тоже самое показать - при хороших оптимизациях ограничивает скорость памяти, а 4xDDR4 2400 соответствует 2хDDR5 4800.

Мне больше интересно с NUMA поиграться, если честно. Но если не получится то минимально будет 2 агента на 2 процах, уже неплохо. Дальше видеокарт дождаться и можно развлекаться по серьёзному

Если RAM на сокет достаточно, то выигрыша от NUMA не будет, к сожалению.

Тоже думал про двухсокетную систему - но пропускная способность памяти не объединяется, только объем. Так что если есть возможность - лучше на одном процессоре запускаться, меньше потерь производительности.

Еще можно с пакетной обработкой поиграться, если есть "поток" задач )
Лично у меня очень хорошие результаты были при параллельной обработке - пускай pp падало, но общий tg рос вплоть до "1 ядро - 1 запрос".

P.S. чисто в теории, для MoE можно достичь увеличения скорости работы - если нужных экспертов на разных процах считать (считай одну модель запускать дважды, но разделив нагрузку по экспертам). Но не видел практических реализаций подобного.

У меня на сокет 128ГБ, думаю должно хватить)

У меня как раз пакетная обработка должна быть. Надо всякие метрики в параллели извлекать. Заметил что LLM лучше работают если явно графы или данные задавать. Банально если текст переводить и предварительно извлечь имена собственные то оно перестаёт ошибаться в этом моменте.

З.Ы. Вот и меня напрягает что в теории у нас должно всё работать, а на практике как-то хреново. Вроде в llama.cpp есть флаги для работы с NUMA, но пока не тестил ничего. Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...

З.З.Ы. У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями. У меня получается где-то 10 агентов на одну китайскую железку, должно нормально по скорости работать.
(На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах)

Если моя софтина будет работать как я ожидаю, может заставлю её саму написать движок для запуска LLM-ок, посмотрим...

Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.

У меня идея просто запустить кучу мини агентов с крайне ограниченными ролями.

Да, тоже думал про такое ) Можно даже в виде группового чата, а там каждой модели в промт прописать кто за что отвечает ) Должно интересно получиться )

На утверждение что мини модели фигня, я просто могу запустить 2-3 модели спорить друг с другом и они мне за приемлемое время отвечают на ~95% идеально. Такой себе Self‑Consistency на стероидах

Это MoE ) 8 активных экспертов Qwen3-30B-A3B - это около 0.4B на эксперта. Крайне легкая и быстрая модель. Может как-то руки дойдут - выделить какой эксперт за что отвечает и запускать сразу нужного эксперта )

Но если серьезно - много мелких моделей не заменят большую. Но MoE позволяет большой модели очень быстро работать. Так что можно достаточно большую модель запустить не потеряв в скорости, но значительно выиграв в качестве. Как пример тот же Qwen3-30B-A3B - во многих ситуациях не уступает "старшим" собратьям, но работает очень быстро.

Существуют легкие и простые движки - для учебных и исследовательских целей. Название, правда, навскидку не вспомню.

Мне интересна настройки моделей под неизвестное оборудование. Некий движок который бы сам находил оптимальные конфигурации под железо и сам раскидывал слои на разные вычислительные юниты или строил полноценный вычислительный граф, хз-хз. Сам не потяну за приемлемое время, а вот с "умными LLM" уже хз.

Но если серьезно - много мелких моделей не заменят большую. 

Лично мне и не нужны большие. У меня много довольно тривиальных задач которые малые модели отлично выполняют. Не перегружаю их контекстом и задаю чисто одну конкретную задачку. Единственное мне бы пригодилась большая модель для разработки стратегий, ибо малые хоть и справляются, но мне приходится накидывать Graph-RAG'ами контекст и пылесосить кучу книжек чтоб этот граф составить, а потом предоставлять модели все детали, что муторно.

Из личных тестов нашёл что малые сетки хорошо работают если мало инфы\контекст и задача конкретная. После примерно 8B показывают практическую пользу, до это просто штуки которые "что-то помнят". МоЕ в этом плане спасение, можно довольно много знаний и умений уместить в небольшую сетку, это просто космос, лишь бы ОЗУ\Видеокарт хватило.

Но если серьезно - много мелких моделей не заменят большую

Недавно тесты проводил, походу заменят... Ансамбль разных нейросетей невероятно хорошо решают задачи. На приколе запустил 6 разных 8В нейросеток и они за приемлимое время писали рабочий код, когда каждая из них по одиночке пишет херню.

Задачи были относительно тривиальны, по ТЗ работать с сокетами или написать консольную игру. Но удивляет что после долго срача, когда все нейронки приходят к консенсусу, ошибки могут быть максимум синтаксические. Довольно занимательно...

Но результаты зависят от сеток, вот недавно GPT с Qwen сраться заставил, GPT в итоге ушёл в отрицалово мол он во всём прав и задавил Qwen своим мнением, лол

На удивление не всё так однозначно. Xeon 2699v4 показал мне почти 2ТФлопса мощей, в то время как ноутбучный процессор около 1ТФлопса. Из-за чего отрыв в некоторых нагрузках относительно ощутимый, даже с учётом того что память у Xeon DDR4-2133МТ, что на ~10-15% хуже чем если бы было 2400. Но у GPT-OSS упор всё-же в память, у других наоборот.

Интересно что я думал купить EPIC, но там плавучка в разы слабее, но память быстрее работает(8 канал). Нигде нету золотой середины...)

По моим наблюдениям GPT-OSS наоборот, более чувствительна к вычислениям (в "родном" кванте).

В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.

Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал).

Судя по отзывам, 8 каналов EPIC вполне проявляют себя на 8 каналов в скорости инференса. А главное - доступно 512GB RAM, чего хватает на действительно большие модели (пускай и с нюансами).

Но сборка на EPIC обойдется в 200-300к (и это б/у сервер со всеми своими нюансами). За эти деньги можно какой-нибудь AMD Ryzen Al Max+ 395 на 128GB RAM взять с более быстрой памятью. Памяти, конечно, в разы меньше, но это новый и современный мини-ПК.

Сборка сервера из говна и палок очень сложная задача)

Закупить память на 512ГБ стоит около 50К рублей, на EPIC из-за 8канала можно за х2 собрать 1ТБ. LRDIMM модули на 64ГБ можно за 6-7К найти.

На счёт EPIC, китайцы продают относительно доступные сборки на 7000х серии за 100-150К можно собрать себе даже 2х сокетные версии, но там обычно очень мало PCIe слотов. Учитывая что на БУ рынке появились интересные видеокарты с 32ГБ VRAM за 20К рублей, это уже сомнительная покупка. (Причина дешёвости - прекращение поддержки ПО. Обнов больше не будет)

Самое грустное что все новомодные "AI системы для смертных" не годятся в реальном использовании из-за медленной памяти...

2 сокета только ради 1TB RAM имеет смысл закупать, но скорость работы это не повышает, к сожалению. Может когда-нибудь MoE-системы и смогут увеличить производительность за счет обсчета разных экспертов на разных сокетах - пускай и за счет двукратного потребления RAM.

Ну а "AI системы для смертных" мало чем отличаются от "AI системы для богатых". Так что скорость памяти - практически единственное, что можно ранжировать от стоимости.

Вычислительная мощь, объем и скорость памяти - это базовые ценности для ПК, они никогда дешевыми не были и не будут.

Да и в целом, устройства для энтузиастов никогда не отличались бюджетностью.

Впрочем, если хочется много и быстрой памяти - есть MacStudio с M3 Ultra на 512GB RAM. Стоимость за 1кк, но и скорость памяти за 800 ГБ/сек - всего раза в 2.5 меньше чем у топовых видеокарт. А объемы памяти несопоставимы с видеокартами даже серверного сегмента. А если и 512GB RAM мало - то маки хорошо кластеризуются.

Так что варианты есть, вопрос, как и всегда, в бюджете. От простых сборок на DDR5 (чего вполне хватит на Qwen3 c A3B и возможно даже на GLM-4.5-Air с A12B) и специализированных систем вроде AMD Ryzen Al Max+ 395 за сравнимый бюджет. До "топовой" MacStudio, что позволит запускать большие модели на неплохой скорости.

Погонял oss 20b. Бесполезная модель. Стихи на русском не пишет, задачку про свиней и пастушек не решает, в РП совершенно деревянная. Зато цензуры навалили...
Gemma 3 27b, как по мне, гораздо, гораздо лучше.

Потратил кучу времени на неё, oss... лучше других опенсорсных моделей в рабочих задачах, но "банальные" вопросы решить не в состоянии. Она кодит лучше, рассуждает лучше, знает больше и точнее, но на задачу "Извлеки намерение пользователя, Отвечай одним предложением", в системном промте, она мне отвечает это

Делал 20 прогонов, ответила правильно только 3 раза, и это прекрасно... (на англ тоже самое)
Делал 20 прогонов, ответила правильно только 3 раза, и это прекрасно... (на англ тоже самое)

Из минусов - она дико политизированна и считает себя "кем-то". "Я не могу", "У меня не получается" и подобные ответы постоянно.

ЗЫ - Если встраивать инструкции в пользовательский промт, то всё работает лучше. (по внутренним ощущениям раз в 5 лучше)

Честно говоря, немного раздражает то, как в подобных статьях встроенную в модель цензуру описывают как что-то хорошее. Я, конечно, понимаю, что бизнес бы хотел, чтобы ИИ-бот техподдержки не угрожал посетителю расчленением, но сам постоянно звучащий нарратив, что изготовление оружия - это, якобы, что-то плохое и опасное, он сам по себе, как ни парадоксально, плохой и опасный. Когда пещерный человек примотал острый кремниевый наконечник к палке, то он потом цивилизацию изобрёл, разве это плохо?

Инженеры по некоторым специальностям будут работать по старинке. С одной стороны будет сложнее, с другой - работу не потеряют.

Было забавно как она отказала мне в инструкции для создания ракеты дома "ибо это может угрожать безопасности окружающим".

А мне 20б понравилась. Запускал в олламе на 6600xt, бодро работает, ничего не виснет, ошибок минимум. Можно играться с системным промптом и добавлять функционал через обёртку.

В частности, GPT-OSS-120b, будучи более мощной, дольше генерирует ответы и требует более дорогого железа, тогда как GPT-OSS-20b обеспечивает более быстрый отклик и может работать на недорогих видеокартах или даже в CPU-режиме

Активных параметров у старшей всего в 1.5 раза больше - а значит она приемлемо работает и на CPU, вопрос в объеме оперативки.

Щупал GPT-OSS-20b - и основная проблема лично для меня - у нее не очень с русским. Ощущение, что сначала перевели запрос на английский а затем ответ на русский. Причем использовался далеко не самый качественный автоматический переводчик.

Дак она рассуждает на английском, это видно в выводе. Qwen3, например, рассуждения сразу на русском ведёт.

Qwen3 тоже иногда срывается на рассуждения на английском - особенно младшие модели.

Вообще, за многими моделями я подобное замечал. А бывало что-то вроде "Пользователь написал 'Привет' на русском" - т.е. как будто размышления не на русском должны были быть, но они были на русском (но то не Qwen3 был вроде).

Так что это не показательно.

Тут важно понимание языка - и GPT-OSS сильно потерял и исказил смысл фразы, когда я его попросил перефразировать. Реально вспомнил времена середины 2000х, с кривыми автоматическими переводами софта, игр и субтитров (а то и фильмов/сериалов).

На короткие и простенькие запросы отвечает на русском идеально, разницы в языке с qwen3 и gemma3 не заметил.

Да, qwen3 очень хорош с русским языком. Особенно мне нравится его грамотность в технических вопросах - использую Qwen3-Coder-30B-A3B (до этого просто Qwen3-30B-A3B с /no_think в основном). Неплохо на CPU работает, хотя и хотелось бы побыстрее.

Но именно с текстами/переводами я gemma3 предпочитаю - кажется чуть более грамотным. Но это на уровне ощущений, а не четких тестов.

На CPU запускаете OSS? Какую скорость выдает и на каком железе?

Да, на CPU пробовал. Intel i7-10700 и DDR4 2900 2x32GB.

В ollama начинает генерировать ответ на 4.5 т/сек, но быстро падает примерно до 3 т/сек. Судя по всему, не хватает CPU - есть куда оптимизировать MXFP4.

Если запускать что-то вроде gpt-oss-20b-UD-Q4_K_XL.gguf - то скорость в 2-3 раза выше (хотя размер модели не сильно меньше стал). Но в ollama этот квант не заработал, а в llama.cpp есть нюансы с отображением размышлений.

P.S. современные системы раза в 2-3 быстрее могут быть.

Выше писал, но на ноутбучном i7-13650HX на 120Вт и llama.cpp (да, ноут тянет такой охлад)
Qwen3-30B-A3B около 35 токенов\с
GPT-OSS-20B около 25 токенов\с

Жду мать с двух-сокетным Xeon 2699v4, интересно какие цифры покажет...

bartowski/openai_gpt-oss-120b-MXFP4.gguf отвечает 20 т/с или 50 символов в сек. на русском.

llama-server версия b6123, параметры: -t 14 -fa --n-cpu-moe 30 -ngl 99


prompt eval time = 9777.06 ms / 247 tokens ( 39.58 ms per token, 25.26 tokens per second)
eval time = 82125.19 ms / 1687 tokens ( 48.68 ms per token, 20.54 tokens per second)


И это на обычном компьютере: RTX3060 12gb, DDR5 64gb 4800мгц, i5-13500 6p+8e.
Старые модели Qwen, Gemma, DeepSeek отвечают в 10 раз медленнее, хотя в 4 раза меньше.
Это большое достижение: теперь такая огромная LLM быстрая и доступная локально.

А качество ответов сравнивали, точно лучше перечисленных?

Пока могу сравнить только размышления о саморазвитии.
Ответы oss-120b выглядят более интересно и реалистично, чем
Qwen 3 - больше красивых, но пустых фраз.
Gemma 3 - больше эмоций и лести.
Поэтому далее буду использовать только oss-120b.
Но это всё субъективно и в узкой области, поэтому ничего не значит
и каждому придётся сравнивать самому на своих задачах.

Попросил Deepseek проанализировать статью, он в нее не поверил))

Основные несоответствия и признаки недостоверности:

  1. Официального анонса нет:
    На официальном сайте OpenAI (openai.com/blogнет никаких упоминаний о моделях "GPT-OSS-120b" или "GPT-OSS-20b". Последний релиз OpenAI — это GPT-4o (май 2024), но он проприетарный.
    Статья ссылается на несуществующую страницу: https://openai.com/index/introducing-gpt-oss/ (ошибка 404).

  2. Технические нестыковки:

    • "o3-mini / o4-mini" — у OpenAI нет моделей с такими названиями.

    • MXFP4 — формат квантования, который не упоминается в реальных исследованиях OpenAI.

    • 128 экспертов в 120B модели — для MoE-архитектуры это нестандартно (у Mixtral 8x7B, например, 8 экспертов).

    • 36 слоёв для 120B параметров — у реальных SOTA-моделей (например, LLaMA 70B) 80+ слоёв. Слишком "мелкая" архитектура для заявленных возможностей.

  3. Нереалистичные результаты:

    • GPT-OSS-20b (21B params) ≈ GPT-4-mini? — Это противоречит законам масштабирования LLM. Даже LLaMA 3 70B уступает GPT-4.

    • 96-98% на AIME — Лучшие модели (Gemini 1.5, GPT-4 Turbo) решают AIME на ~60-70%.

    • Медицинские тесты: Утверждение, что GPT-OSS-20b превзошла GPT-4o — технически невероятно.

  4. Детали обучения:

    • 2.1 млн GPU-hours на H100 — это ~$63 млн затрат (при $3/час). Для open-source релиза — экономически необоснованно.

    • Лицензия Apache 2.0 — OpenAI никогда не открывала модели такого уровня (только старые, вроде Whisper).

  5. Контекст 128K + MoE + 20B → 16 ГБ VRAM?
    Даже с квантованием MXFP4 это физически невозможно. Реальная 20B MoE-модель (например, Qwen 1.5 14.4B-MoE) требует 20+ ГБ VRAM в 4-битном формате.

🤔 Что это, скорее всего?

Статья выглядит как хорошо продуманная мистификация или тест-провокация:

  • Либо арт-проект на тему "если бы OpenAI вернулась к open-source",

  • Либо маркетинг Selectel (хостинг GPU) для привлечения внимания,

  • Либо ошибка автора, поверившего в фейковые утечки.

👉 Важный факт:
На Hugging Face, GitHub, в официальном блоге OpenAI — никаких следов GPT-OSS не найдено.

Да, я так когда-то попросил проанализировать соглашение о конфиденциальности, вставив ссылку на него...
Ну я и получил анализ... Какого-то соглашения, которое "на лету" додумала мне LLM по структуре ссылки...

С LLM надо быть очень осторожным - галлюцинации очень убедительны... И опознать их практически невозможно, если сам не разбираешься.

Основной плюс данных моделей (в частности тестировал 20b), это единственная локальная LLM до 32b которая четко следует описанному формату вывода. Например, ни разу не ошиблась в структуре JSON описанному в промте. devstral, qwen, phi4, gemma3 размерами до 32b даже близко не справлялись.

Sign up to leave a comment.

Information

Website
slc.tl
Registered
Founded
Employees
1,001–5,000 employees
Location
Россия
Representative
Влад Ефименко