All streams
Search
Write a publication
Pull to refresh
161
0.7
Send message

Обновленные данные с llama.cpp: https://github.com/ggml-org/llama.cpp/discussions/16578
Цифры стали лучше, как и ожидалось pp на cuda работает лучше чем на vulkan, но генерация всё равно упирается в скорость памяти.

В каком месте их мало? Gpt-oss-20b https://huggingface.co/openai/gpt-oss-20b MoE модель на 20b параметров, 308 файнтюнов.

Достаточно зайти в эти 308 файтюнов и посмотреть, что в 99% случаях это учебные проекты, ещё парочка попыток снять цензуру, что обычно снижает и качество, и ничего, чем можно пользоваться, вместо оригинальной модели.

Речь про файнтюны, которыми можно пользоваться на уровне или лучше оригинала, либо в целом, либо в каких-то сферах, не обязательно уровня Hermes (Nouns Research) или Nemotron (Nvidia), но грубо говоря, те файнтюны на которые делают gguf, которые заслуживают хоть какого-то внимания.

Файнтюном Hermes-4-405B до сих пор пользуюсь, когда мне нужен максимально связный ответ по всему контексту. И мне известен только 1 файнтюн MoE модели, который на голову превосходит оригинал и которым многие пользовались - это WizardLM-2, но Microsoft распустила ту команду, часть из них ушла делать свои MoE модели в Tencent-Hunyuan.

Ryzen 395+: NPU ≈50 TOPS, DGX Spark: "до 1 PFLOP" (на FP4). Получается преимущество 20-ти кратное, теоретически. По объёму моделей для 395+ потолок — 70B при ~61 токен/с, хотя на практике можно и до ~128B крутить с ~15 токен/с. У Nvidia DGX Spark потолок до ~200B, а скорость инференса на таких же моделях будет измеряться сотнями токен/с.

Вся эта мощь может остаться не востребованной, если скорость памяти медленная, а у DGX она медленная, на уровне 4060ti. Первый обзор уже появился, и результаты пока не очень.

В Llama 3.1 70B скорость генерации 2.66 t/s в fp8, в GPT-OSS 120B - 11.66 t/s, у людей на Ryzen 395+ на вулкане выдает 49 t/s.

Потому что, это MoE, а MoE это не про качество, а про снижение расходов в 10-20 на обучение и инференс.

Смесь экспертов - это когда 128 экспертов по 5B, каждый хорошо знает свою область, а общий роутер распределяет запросы по этим экспертам мудро и правильно, и на каждый токен вызывает 4 эксперта, которые лучше всего ответят на поставленную задачу. В идеале модель быстрая, но умная, а запустить можно даже на CPU.

Проблемы которые тут возникают:

  • роутер плохо обучен и некачественно распределяет запросы, распределяет запросы не по 128 экспертам, а лишь по 20

  • сами эксперты плохо изолированы, много экспертов знают одно и тоже, впустую расходуются параметры

  • размер одного эксперта слишком мал для комплексной оценки всего запроса, но просто увеличивая размер, один эксперт захватывает на себя всё обучение

Получается ситуация, когда общий размер модели очень большой, но она наполнена либо дублирующими связями, либо часть экспертов просто не используется. Роутер очень сложно обучить, из-за этого сложно изолированно обучить экспертов. Пример с Llama4 хорошо это демонстрирует, где 109B-MoE не мог конкурировать даже с dense 27B, а 402B с трудом дотягивал до 70B.

И поэтому так мало файнтюнов MoE моделей, их сложно дообучать, чтобы получалось хорошо, а вот файнтюны dense-моделей до сих пор выходят, например, отличные свежие Hermes-4-405B и Hermers-4-70B, и файнтюны плотных моделей Mistral Large 123B и Command-A 111B - все они хороши, но запустить локально их уже намного сложнее.

Зато MoE модели позволяют намного быстрее обучать и экспериментировать. Эта модель на 1T как раз такой эксперимент.

А кодовый агент хочется максимально жирный. Чисто попробовать во время разработки и все

Вариантов не так много на такой объем памяти: Qwen3-32B, Qwen3-Coder-30B-A3B, Devstral-Small-2507. Когда выйдет gguf для Qwen3-Next-80B-A3B, то он должен быть получше.

Ещё вариант, это частично запустить модели прям с nvme, например, gpt-oss-120b и GLM-4.5-Air если выгрузить побольше слоев через -ncmoe на GPU, должны работать. Вот тут кто-то запускал gpt-oss-120b на 32gb RAM без GPU с диска и получил 5 t/s.

Мне чисто для демонстрации, так что хотелось бы что-нибудь максимально быстрое, лёгкое и +/- приличное

Для быстрого есть 2 варианта:

  1. Взять старый sd1.5 у которого 512x512, но взять хороший файнтюн, напримпер Deliberate. Запускается легко, работает быстро, веси мало.

  2. Qwen-Image большая модель поддерживающая 1328x1328 и даже частично промпты на русском, для модели есть ускоряющая лора и если генерировать 512x512, будет намного быстрее.

Qwen-Image не влезает в 16гб VRAM, поэтому нужно использовать gguf, для картинок gguf сейчас поддерживает только ComfyUI, и сам gguf будет медленнее чем satetensors fp8. В общем тут только тестировать.

В ComfyUI уже есть шаблон для картинок:

Потом нужно установить ComfyUI-GGUF, для этого проще всего установить ComfyUI-Manager и в нём уже найти GGUF. После этого найти Uner Loader (GGUF) в Nodes и добавить его в воркфлоу, и сменить связь с fp8 на gguf. Потом включить блок с лорой и настроить шаги и cfg, ширину и высоту. В общем сделать примерно как на скриншоте:

Есть 2 ускоряющие лоры Qwen-Image-Lightning-8steps и Qwen-Image-Lightning-4steps, одна 8 шаговая, вторая 4 шаговая, количество шагов надо выставить в 8 или 4, а cfg снизить до 1. Обе лоры снижают качество, но это не обязательно будет заметно.

Harley Quinn, wearing a spacesuit helmet, poses for an alien taking a photo of her on a spaceship. The alien is wearing a T-shirt with the words "4 step demo," ultra realistic.
Harley Quinn, wearing a spacesuit helmet, poses for an alien taking a photo of her on a spaceship. The alien is wearing a T-shirt with the words "4 step demo," ultra realistic.

И проделав всё это, не факт, что будет быстро. На 4090 генерация 512x512 на 8 шагах занимает 2.5 секунды, а gguf занимает 13с. 1328x1328 на fp8 генерируется 16с, а gguf - 27с. 4 шаговая лора ускоряет в ~1.5 раза.

Это не SD3, а HunyuanImage 3.0, которая вышла 2 недели назад. Модель построена на авторегрессии как LLM, и так как внутри там полноценная LLM, она понимает русский для промптов и может сама придумать инфографику. Работает не идеально, поэтому будет интересно посмотреть, как вы справились с этой задачей.

Промпт: Придумай саркастичную инфографику про LLM на русском

Промпт про ведьмака сгенерированный GLM

Create a detailed infographic for the game "The Witcher 3: Wild Hunt" in a dark fantasy style, inspired by Slavic mythology and the game's official concept art, using a color palette of muted earth tones, deep grays, and accents of red and blue. The centerpiece is a radial diagram with Geralt of Rivia at the center; stylized lines connect him to key characters labeled 'Дитя Старшей Крови', 'Чародейка', 'Король Дикой Охоты', and 'Главный антагонист'. These lines should also branch out to major locations labeled 'Белый Сад', 'Новиград', 'Велены', and 'Скеллиге'. Include a section with clean, minimalist icons for key items labeled 'Стальной меч для людей', 'Серебряный меч для монстров', and 'Амулет Медальон Волка'. Add a horizontal timeline at the bottom, divided into four key plot points in Russian: 1. Начало: Поиски Цири с помощью Йеннифэр. 2. Развитие: Путешествие по Веленам, Новиграду и Скеллиге, сбор информации. 3. Кульминация: Противостояние с Дикой Охотой. 4. Финал: Битва за Цири и ее судьба. In a top-right corner, place a statistics block with the following text in Russian: 'Дата выхода: 19 мая 2015 г.', 'Разработчик: CD Projekt RED', 'Награды: Игра года (2015)', 'Количество игроков: 50+ миллионов'. Use a clean, legible font for all Russian text, and ensure the overall layout is balanced, modern, and visually appealing, with a subtle, textured background reminiscent of old parchment.

HunyuanImage 3.0
HunyuanImage 3.0

RTX 5070ti 16gb, 32 gb ddr5 6400
Мне нужны модели для:

Список большой, и как я понял, нужно чтобы это работало на фоне, не забирая все ресурсы.

В качестве llm: Qwen3-30B-A3B-Instruct-2507 загружая через cmoe, чтобы освободить побольше VRAM. Быстрая, много не занимает, с русским языком работает лучше чем gpt-oss-20b, есть маленькая версия для кода и для размышлений.

Для llama.cpp это будет параметр -cmoe
Для llama.cpp это будет параметр -cmoe

Для картинок: flux на gguf запуская через stable-diffusion-webui-forge, stable diffusion в исполнении Illustrious или Pony (модели ищутся на civitai.com), запускаются на stable-diffusion-webui или Qwen Image через ComfyUI.

Как должна выглядеть настройка
Как должна выглядеть настройка

Будет всё работать вместе одновременно и вполне быстро, оставляя много ресурсов для работы ПК.

В целом, с таким железом можно даже видео генерировать на wan2.2 через ComfyUI, загружая gguf версии, либо используя оптимизацию на 6гб VRAM.

Будущее уже здесь - Следующее поколение моделей (типа SD3) уже демонстрирует впечатляющие результаты в генерации текста. Но пока они не стали мейнстримом, наш многослойный подход остается самым надежным способом гарантировать безупречный текст в AI-генерациях. Экспериментируйте, комбинируйте и делитесь результатами — вместе мы делаем AI-творчество более точным и профессиональным!

Напомню, что SD3 вышел 1.5 года назад.

Для текста в ходу Flux и Qwen Image. И свежий HunyuanImage 3.0.

Попробуйте GLM-4.6, есть GLM-4.5-Air поменьше, обещали выпустить GLM-4.6-Air. Скорость работы средняя, редко упоминается и в целом недооценена. Многие задачи решает хорошо.

Ещё вариант ускорения, помимо выгрузки moe весов через -cmoe, это спекулятивное декодирование. Qwen3-235B и Qwen3-Coder-480B обычно очень медленные, поэтому можно в качестве ускоряющего черновика использовать малую модель, например, Qwen3-4B-Instruct-2507, ускорение обычно в 1.5 раза. У меня было 4.5 t/s, стало 7 t/s, это зависит от сценария.

По ОС, чтобы выжать проценты скорости, лучше пробовать линукс, но это не для всех моделей работает одинаково, да и сам линукс не для всех. Например, gpt-oss проседает до 25 t/s под виндой, вместо 32 t/s под линуксом, DeepSeek проседает на 1-2 t/s, а вот для Grok2 без разницы, но у меня Windows 10, на 11 может по другому будет работать, это надо тестировать.

Попробовал работу openai_gpt-oss-120b-MXFP4.gguf 63 гб с диска.
Таким образом на обычном компьютере MoE модели можно использовать практически неограниченного размера.

Там не всё так просто, ограничение у MoE есть, в основном это количество активных параметров.

В начале года OpenAI проводили опрос, они спрашивали какую модель сделать в открытый доступ, такую компактную и быструю, что можно на телефонах запускать, или уровня o3-mini, но чтобы всё равно на ПК нормально работало. В итоге выпустили оба варианта (20B и 120B).

Они изначально эти модели спроектировали так, чтобы одна работала на обычных ПК, а вторая на телефонах. Там очень мало активных параметров, поэтому и можно запускать с диска, требуется не так много считывать оттуда.

У 120B на каждом шагу генерации активно всего 5.1B. В нативном кванте mxfp4 это примерно 2.5гб, быстрый nvme легко считывает столько. Тензоры внимания этих активных экспертов в рамках одного токена используются, проходя все слои, много раз, поэтому такие тензоры постепенно закэшируются в память. Ещё в таких оптимизированных моделях часто используют общих экспертов, что ещё сильнее ускоряет работу т.д.

По сути это запуск оптимизированной 5.1B модели, и оборудование требуется такое, которое потянет 5.1B, то есть почти любое.

Если gpt-oss-120B запустить CPU-only полностью поместив в DDR5 4800, скорость будет 14 t/s:

CPU Only, 14 t/s
CPU Only, 14 t/s

Если использовать 24гб GPU на полную, выгрузив побольше слоев на GPU, то скорость 32 t/s:

CPU + GPU, параметр запуска -ncmoe 25, 32 t/s
CPU + GPU, параметр запуска -ncmoe 25, 32 t/s

В общем модель очень хорошо спроектирована, работает быстро везде и на всём. Но не все MoE спроектированы так, есть много разных вариантов, и среди них есть один безумный вариант, это Grok2, у которого как раз недавно веса выложили в открытый доступ, gguf уже поддерживается.

Если взять минимальный квант grok-2-UD-TQ1_0, его размер примерно где-то рядом ~80гб, и скорость можно ожидать плюс минус такую же, но скорость в 12 раз ниже, всего 1.2 t/s:

grok2, llama.cpp, CPU only
grok2, llama.cpp, CPU only

Grok2 это MoE модель, где общих параметров 270B, но в отличии от gpt-oss, активных там 115B, это рекордсмен среди MoE, на втором месте 50B у Ling-1T, модель размером 1000B, на третьем DeepSeek и Kimi K2 у которых активных 37B, потом Qwen3-Coder с 35B, GLM-3.6 с 32B, LongCat с 27, Qwen3 с 22B и т.д. Это всё крупные модели, которые трудно запустить. Но есть маленькие, вроде Qwen3-30B-A3B c 3B или супер маленький granite-4.0-tiny c 1B. Проблема тут из-за того, что чем меньше активных параметров, тем слабее модель.

И поэтому, хоть Grok2 это MoE, но даже если подключить всю мощь 4090 и различные параметры для ускорения, то скорость всего 1.7 t/s:

Экстремальное квантование даёт о себе знать
Экстремальное квантование даёт о себе знать

В общем MoE они разные. Для сравнения, запуск не плохого кванта DeepSeek V3.1 на том же оборудовании дает 7 t/s:

DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s
DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s

Попробуйте не использовать умные термины и объяснять простыми словами. Если ваше объяснение всё еще будет выглядеть корректным, тогда в нем не будет магии.

Так и получается не правильное представление об обучении, тут не куда упрощать, так как уже идет искажение смысла, как в вашем упрощенном описании.

Если описывать очень упрощенно, то они любую исходную функцию приближают набором ломаных черточек/плоскостей. Поэтому чем больше черточек, тем точнее приближение. Тремя черточками вы линию синуса не опишете.

Смотрите, я обучил нейросеть, где всего 3 нейрона, и случается, ну видимо, "магия" и синус описывается гладко и согласно доказанной универсальной теореме аппроксимации, можно получить любую точность увеличивая количество нейронов. И никаких чёрточек.

Сигмоида как функция активации
Сигмоида как функция активации

Обучил нейросеть с ReLU чёрточками, и этот результат как-то не похож на то, что вы описали, результат скорее хаотичный, где-то точность высокая, а где-то безумно низкая.

ReLU активация, 10 нейронов
ReLU активация, 10 нейронов

Смотря на это и ваше описание, вы никак не отвечаете как работает аппроксимация, потому что, это не упрощенная функция синуса, которая выглядела бы угловато, но равномерно. Это именно аппроксимированная нелинейная функция работающая по своим законам. Нейросеть как-то, каким-то своим способом находит паттерны и выводит из них функцию, функция не линейна, поэтому и такая разная на разных диапазонах.

Даже если взять 10000 нейронов, всё выглядит не так, как ожидается:

ReLU активация, 10000 нейронов
ReLU активация, 10000 нейронов

Как ваше описание будет работать, если исходной функции просто нет? Ваше упрощенное объяснение создает ложное представление, как работает обучение и аппроксимация.

При обучении нейросети нет никакой исходной функции, есть только набор входных данных, выходных данных и "магия" аппроксимации.
Та самая "магия", которую ведущий разработчик DeepMind описывает как "да кто ж знает как оно работает, но работает же".

Вы думаете если повторить высказывание несколько раз, оно от этого станет более верным?

В смысле вы на полном серьезе думаете, что это буквально "само собой" и усиленно с этим боретесь? Ну такое.

Конечно, какая-то причина под всем этим есть и однажды демон Лапласа её поведает, в конце концов это всё ещё классическая система, а не квантовая.

Собирая карточный домик приложено конкретное известное усилие и был получен ожидаемый результат, не случилось что-то вроде собрав домик из 1000 карт он влезет в воздух. Это не "само собой", а конкретным способом, зная конкретный результат.

В LLM эффект проявляется "сам собой", потому что исследователи не делали для этого ничего конкретного. Да, они увеличивают количество параметров, насыщают датасет, проводят больше эпох - но ждут они каких-то новых свойств, которые должны проявиться "сами собой", в смысле "каким-то неизвестным нам образом", не "магическим".

Эта довольно простая смысловая конструкция, чтобы её на полном серьезе обсуждать в буквальном смысле. Я так понимаю, каждый остается при своём мнении, думаю, тут больше не чего обсуждать, по крайней мере диалог немного наскучил.

Я фокусируюсь на том, что вы сказали. Для указания на это я привел цитаты.

Очень часто форма не важнее содержания.

Аппроксимация это то, как работают нейросети, они находят нелинейный, даже если и не точный, способ вывести из любых входных данных любые выходные, при условии, что эти две вещи обладают каким-то паттерном, явным или не явным. Это было математически доказано в 1989, ограничением является количество нейронов и подбор весов. Но способ нахождения не определен и не прослеживается - это то, что называют обучением.

На вход можно подавать всё, что угодно, например, партии в шахматы или го. Всё будет успешно аппроксимировано, нейросеть будет искать паттерны игры в го и открывать неожиданные move 37, непонятные людям, но приводящие к победе. Но эмерджентных свойств тут не появляется.

У LLM на вход подается отражение мира, поэтому модель выискивает паттерны мира. Моделью весом в 700мб (350m параметров в формате fp16, первые версии GPT) не получается описать весь мир, срабатывает ограничение количества нейронов. Увеличивая количество весов, никак не планируя, не предсказывая, не управляя этим, не меняя способ обучения, ничего не меняя - начинают проявляться новые эмерджентные свойства модели. Сами собой.

Это происходит благодаря тому, что аппроксимация во время обучения набирает точность, всё у большего количества сфер мира удается найти паттерны, но при этом фраза "сами собой" тут уместна и хорошо передает смысл. Всё остальное это уже игра слов или философия, вроде если бы существовал Демон Лапласа, мог бы он описать весь мир и предсказывать будущее и т.д.

Ну хватит уже использовать слово "эмерджентный" как синоним "магический".

Так кроме вас никто его так и не использует. Вы игнорируете аппроксимацию и фокусируетесь только на эмерджентности.

Само по себе ничего не появляется, всё обусловлено свойствами элементов системы.
Все зависимости можно отследить и описать. Это не значит, что каждый элемент обладает всеми свойствами системы.

У 100 чисел нет свойства вести чат с пользователем, у 1000000 чисел тоже нет такого свойства, а у 4000000000 такое свойство появляется, у 175ккк появляется свойство к логическому и математическому анализу, у 500ккк появляется способность к редким языкам.

Это всё еще просто числа, огромная матрица чисел, никаких баз данных или логического аппарата внутри модели нет. Данные для обучения те же, способ обучения тот же, но просто увеличивая количество чисел в какой-то момент начинают проявляться новые свойства.

Что именно вы хотите отслеживать и описывать? Каждый новый запуск обучения одной и той же модели будет иметь полностью другой набор значений весов. Отследить сам процесс изменения этих чисел и групп можно, а вот почему приобретаются какие-то новые свойства и какие именно, это не выводится просто из отслеживания и описания.

Эмерджентность LLM проявляется благодаря математической аппроксимации, аппроксимация выводит свои формулы нелинейно, если есть паттерн, аппроксимация с этим рано или поздно справится, но каким путём нельзя описать, в этом и смысл нейросетей, иначе бы всё делалось на конечных автоматах.

Карты в карточном домике поддерживают друг друга. Это не значит, что одна карта может стоять в наклонном состоянии или висеть в воздухе.

Карточному домику вы задали структуру которая полностью объясняется трением и геометрией, но тоже самое не будет работать в космосе, это пример очень слабой эмерджентности, аналогия не применима для LLM.

Вообще, проблема аналогий в том, что аналогии всегда ложны, споря с аналогиями, вы очень быстро уходите от изначального смысла идеи, начинаете спорить с соломенным чучелом, а не с оригинальной моделью.

То, что сейчас подразумевают под ИИ или LLM, нейросети на трансформерах с механизмом внимания - это универсальные аппроксиматоры модели мира обладающие эмерджентным эффектом. Им на вход обучения подаются данные отражающие мир, а аппроксимация - это универсальное свойство любых нейросетей за счёт скрытых слоев и нелинейной функции активации.

Аппроксимация - это способность создать универсальную функцию, которая из вводных условий (начальный промпт) выведет приближенный результат (правильный ответ в обучение). Обучение модели это подбор значений весов так, чтобы эта функция заработала. Обучение это вывод универсальной функции через аппроксимацию.

Эмерджентные свойства - это способность системы, состоящая из элементов не обладающими каком-то свойством, проявлять новое свойство во время общей работы отдельных частей.

В какой-то момент, увеличивая размеры модели, эмерджентные свойства начали выдавать эффекты, которые уже выходили за рамки привычного, то, что как раз и начали называть ИИ.

Но сам эффект скорее случайный и не контролируемый, его нельзя "запрограммировать" так, чтобы он работал определённым образом, нельзя добавить какие-то конкретные свойства, в текущей архитектуре какие-то разные свойства сами проявляются.

Другая проблема в том, что универсальная функция модели мира "приблизительно" точна, можно аппроксимировать данные входа обучения в выход обучения достаточно точно, но это же означает, что если что-то плохо представлено в датасете, то эти моменты будут упрощены, не будет достаточной детализации. Такая архитектура не позволит модели самой восстановить пробелы или сделает это не достаточно точно.

Пример с кружкой это как раз пример таких дыр, которые легко закрыть насыщением датасета, чтобы уточнить модель мира, и это будет именно уточнение аппроксимированной модели мира, а не заучивание конкретного сценария.

Способ прорыва для текущей архитектуры LLM - это насыщать датасет данными и надеяться, что их хватит, что эмерджентные свойства сами переступят определённый порог и случится добавление большего числа новых свойств, например, самостоятельное восстановление дыр, чувство юмора или превращение из AI в AGI. Не то, чтобы это невозможно, но на такой архитектуре нет конкретного сценария, как получить такой результат.

Другой подход - это сменить архитектуру, над чем сейчас многие работают. Трансформеры с вниманием это вынужденный компромисс, способ получить масштабирование и распараллеливание как для обучения, так и для инференса за счёт снижения качества.

24 так это дофига. У людей вон 6-8 еще

В 24 гб можно полноценную большую Wan2.2 (T2V, I2V, S2V и Animate) засунуть в fp8/int8, с gguf квантованием ещё меньше. Для Wan2.2 есть ускоряющая лора, которая за 4 шага генерирует не плохой результат на 81 кадр (5 секунд в 16fps) за 50 секунд, удобно чтобы тестировать промпт, прежде чем перейти к полной генерации за 8-10 минут.

T2V:

wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
I2V Чебурашка Киборг
wan2.2 lightx2v 4step 16fps, gif уменьшена до 320x320 и 6fps
wan2.2 lightx2v 4step 16fps, gif уменьшена до 320x320 и 6fps

И кстати, по поводу промптов, вышла HunyuanImage 3.0, за счёт архитектуры она поддерживает промпты на разных языках, включая русский. И надписи тоже генерирует на русском.

HunyuanImage 3.0, промпт: Брутальный накачанный Гарри Поттер с голым торсом стоит в 3/4 колдует заклинание и в небе появляется рваная надпись "Привет ХАБР", ultra-realism, cinematic lighting, 8K
HunyuanImage 3.0, промпт: Брутальный накачанный Гарри Поттер с голым торсом стоит в 3/4 колдует заклинание и в небе появляется рваная надпись "Привет ХАБР", ultra-realism, cinematic lighting, 8K

помимо проседания общего качества ответов (китайские иероглифы и английские слова в выдаче, независимо от запросов)

Это исправлено в v3.1-Terminus, а v3.2-Exp это v3.1-Terminus с переобученным вниманием.
Это всё еще не R1 по стилю ответов, который глубже подходил к проблеме, но смесь языков они точно исправили.

они хотят ещё и контекст её скипать научить?

Для DeepSeek это не даунгрейд, а апгрейд. Новый способ внимания NSA лучше их предыдущего MLA, точнее NSA является развитием MLA.

В новости не правильное описание алгоритма Native Sparse Attention. Модель сразу обучается с NSA и учится выделять суть из блоков ещё на этапе первичного обучения. Полный контекст сжимается в латентное пространство, позволяя модели видеть весь контекст без квадратичной сложности и гигантского расхода памяти (без оптимизаций на 32к контекста требуется 400Гб памяти, с оптимизацией 2-3гб). После, в зависимости от запроса, из этого латентного пространства выбираются подходящие сжатые блоки.

NSA это гибрид MLA + GQA + SWA, и, в отличие, от чистого MLA, который был в V3.1 и R1, позволяет точнее извлекать релевантный контекст. Один из бенчмарков длинного контекста как раз подтверждает, что в режиме размышления это стало работать лучше, а не хуже.
Qwen3 был лидером среди открытых моделей по обработке контекста, он использует Dual Chunk Attention, и теперь NSA и DCA почти сравнялись по эффективности.

https://fiction.live/stories/Fiction-liveBench-Sept-29-2025/oQdzQvKHw8JyXbN87
https://fiction.live/stories/Fiction-liveBench-Sept-29-2025/oQdzQvKHw8JyXbN87

mistral:7b
llama3.1:8b
qwen3:8b

Первая древность 2023 года, вторая - 2024 года. В qwen3 мышление отключается добавлением в промпт /no_think, но модель уже не актуальна сама по себе, только для спекулятивного декодирования.

deepseek-r1:8b - сущая пытка. Думает долго, отвечает плохо.

Это такой эксперимент с файнтюном, который имеет слабое отношения к реальному использованию и качеству оригинальной DeepSeek R1.
Но пользуясь ollama вы никогда не знаете, что именно они спрятали под названием deepseek-r1:8b. Есть и ужасная DeepSeek-R1-Distill-Llama-8B и более свежая, но тоже ужасная, DeepSeek-R1-0528-Qwen3-8B.

Популярны так называемые «дистиллированные» модели

Среди тех кто запускает локально, популярна скорее полная противоположность этому утверждению.

Фактологические запросы

Стоит учитывать, что llm это не база данных и не гугл, в 3.3гб нельзя засунуть всю википедию и все знания мира, любые фактологические тесты перевернуться с ног на голову как только будет задан другой вопрос.

Аналитические способности:
Даже крупные модели плохо справляются с задачами, требующими точного анализа данных (например, статистическая обработка результатов тестов). Это указывает на ограниченность локальных LLM в области сложных вычислений и структурированного вывода.

Крупных моделей не было в исследовании.

моделей среднего размера (4–8B). Крупные модели (20B+)

Первые это скорее нано или мини модели, а не среднего размера. Да и 20B - это маленькие модели.

По описанию она использует для ускорения видеокарты RTX прямо через клиент Ollama, без доп ПО, но я не могу этого подтвердить

Ollama всё запускает через CUDA, если карта Nvidia, иначе CPU. Есть проект lemonade, альтернатива для ollama, работает на AMD через Vulkan и Rocm, для Intel через Vulkan. И оба варианта это оболочка над llama.cpp, который умеет запускать любые варианты, и там есть нормальный бенчмарк скорости llama-bench.

В описании к модели gpt-oss:20b сказано, что она задействует видеокарты RTX. При запуске модели ПК начинал больше шуметь, но я не увидел большего потребления ресурсов видеокарты в мониторинге.

В диспетчере задач такая нагрузка не показывается, её нужно смотреть выбрав пункт "cuda", либо запустить nvidia-smi, утилита которая ставится вместе с драйверами Nvidia.

0% общая нагрузка, и 99% нагрузка cuda

Все приведенные модели скачиваются с сайта https://ollama.com/search

Актуальный список моделей точно лучше не брать с сайта ollama, который у них представлен на главной странице. Лучше уж проверить на сайте https://huggingface.co/, что сейчас актуально.

Список моделей актуальный на данный момент:

  • Mistral - были первыми кто показали, что MoE модели работают отлично, но сами с тех пор не используют MoE, всех их актуальные модели это Dense.

    • Ministral-8B-Instruct-2410 - размер 8B

    • Mistral-Small-3.2-24B-2506 - размер 24B

    • Magistral-Small-2507 - размер 24B

    • Devstral-Small-2507 - для кода, размер 24B

    • Mistral-Large-Instruct-2411 - не новая, но до сих пор актуальны её файнтюны, размер 123B

  • Qwen - в новых версиях разделили размышляющие и не размышляющие модели, чтобы повысить качество каждой. Qwen почти для всех моделей перешел на MoE, тем самым позволяя даже на слабых ПК запускать крупные версии. Наличие малых размеров моделей позволяет их использовать для спекулятивного декодирования, получая больше ускорения. Есть Vision варианты.

    • Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 - размер 4B

    • Qwen3-30B-A3B-2507 (обычная и размышляющая) - MoE, размер 30B, активных 3B

    • Qwen3-Coder-30B-A3B - для кода, не размышляющая, размер 30B и активных 3B

    • Qwen3-Next-80B-A3B (оба варианта) - новая MoE модель с новым гибридным вниманием, размер 80B, активных 3B

    • Qwen3-235B-A22B (оба варианта) - размер 235B, активных 22B

    • Qwen3-Coder-480B-A35B - для кода, не размышляющая, размер 480B, активных 35B

  • OpenAI - зацензурена сильнее, чем GPT-5 на их сайте, много отказов. Есть промпт-джейлбрейк.

    • gpt-oss-20b - размышляющая MoE, размер 21B, активных 3.6B

    • gpt-oss-120b - размышляющая MoE, размер 117B, активных 5.1B

  • GLM - мало известные, но очень качественные MoE-модели с гибридным режимом мышления. Есть GLM-4.5V для Vision.

    • GLM-4.5-Air - размер 106B, активных параметров 12B

    • GLM-4.5 - размер 355B, активных параметров 32B.

  • DeepSeek

    • DeepSeek-R1-0528 - размышляющая MoE, размер 671B, активных 37B

    • DeepSeek-V3.1 - свежая MoE модель, объединяет размышляющий и не размышляющий режим, размер 671B, активных 37B

  • Moonshot AI

    • Kimi-K2-Instruct-0905 - самая большая локальная модель, размер 1T или 1024B, активных 32B.

  • Llama - llama4 многими критикуется, но на деле это не плохие модели для не программирования, их большой плюс это скорость работы. Модели идут с поддержкой Vision.

    • Llama-4-Scout - MoE, размер 109B, активных 17B

    • Llama-4-Maverick - MoE, размер 400B, активных 17B

  • Google

    • в статье уже упоминается gemma-3, начиная от 12B пригодны для использования, в модели встроен Vision

  • Cohere - модели этой компании подходят не для программирования, а для работы с языками и текстами, вроде перевода, RAG и прочее. Есть варианты Vision.

    • aya-expanse-8b - dense модель, размер 8B

    • aya-expanse-32b - размер 32B

    • command-a-reasoning-08-2025 - размер 111B

  • Baidu

    • ERNIE-4.5-21B-A3B - MoE, размышляющая, размер 21B, активных 3B

    • ERNIE-4.5-300B-A47B - MoE, размер 300B, активных 47B

  • Tencent

    • Hunyuan-MT-7B - для перевода, размер 7B

    • Hunyuan-7B-Instruct - обычная модель для чата, размер 7B

    • Hunyuan-A13B - MoЕ, размер 80B, активных 13B

В список включил и крупные локальные модели, которые уже полноценно могут конкурировать с проприетарными моделями, просто потому что, их можно запускать на домашнем ПК если есть минимально 64гб RAM, или для огромных 192/256гб, которые сейчас стоят не дорого. Подробнее как это сделать:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Этим новым методом можно запустить, например, gpt-oss-120B на 15 t/s, GLM-4.5-Air на 14 t/s, deepseek V3.1 на 7 t/s, что для определённых задач вполне пригодно, а Llama-4-Maverick 400B аж на 25 t/s:

Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL
Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL

Это особенность MoE моделей, для их запуска нужна RAM, а не VRAM. Немного VRAM нужно для разгрузки тензоров внимания, таким образом за счет одной GPU можно получить ускорение. В ollama это не доступно, это доступно напрямую в llama.cpp или хотя бы в LM Studio, где надо активировать галочку "Force Model Expert Weights Onto CPU". После чего на ПК с 64гб RAM и небольшой видеокартой (нужно ~2гб VRAM) можно запускать даже gpt-oss-120B.

Вот так должно выглядеть

И мои выводы, на основе составления исследования:

Тестирование было бы интереснее на актуальном списке моделей, а из актуального получается только gpt-oss-20B и модель для кода Qwen3-Coder-30B-A3B используемая не для кода, хотя есть Qwen3-30B-A3B-Thinking-2507. В те время, когда протестированные модели были актуальны, даже тогда были популярны именно файнтюны этих версий, которые улучшали качество, так как стандартные модели не особо блистали.

Также в список попали 8B модели, но gemma3 почему-то представлена как 4B, что даже если пройдет какие-то тесты, для реального использования такой размер с трудом применим. При этом gemma-3-12b-it-Q4_K_S или gemma-3-12b-it-UD-Q3_K_XL легко влезают в 8гб VRAM используемой 3050. В ollama можно выбрать конкретный квант командой: ollama run hf.co/unsloth/gemma-3-12b-it-GGUF:Q3_K_XL. Но проще пользоваться LM Studio, запустив там сервер, или напрямую llama.cpp.

Вообще, это довольно популярное явление. Многие видят как обновляются до новых версий ChatGPT, Claude, Gemini, но для локальных моделей они застряли чуть ли не в 2023 году, и даже не догадываются проверить, что там актуальное на данный момент.

/v1/chat/completions умеет по токену выдавать ответ, нужно в json запроса установить stream в true.

Райзер думаю не подойдет, а про остальные варианты можно подробнее? Хочу как-то 3070 воткнуть к своей 4080

Второй pcie слот обычно урезан до x4 или до x1 (даже если выглядит как x16), так что подойдет обычный pci-e удлинитель:

Бывают x1, x4, x16
Бывают x1, x4, x16

Какой именно deepseek r1 вы тестировали локально? Тот который доступен у них на сайте это 671 миллиард параметров, ее даже на мощном компе не запустишь.

Запускаемо, не в контексте вашего комментария, а в целом. Нужно минимально 192гб RAM + ускорение через одну GPU на 16gb. За счет чего это работает:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Свежий бенчмарк программирования Aider показывает, что низкие кванты вполне пригодные для кода. Динамическое квантование - это когда важные тензоры квантуются повыше, а не особо важные низко.

1-битный динамический квант выступает лучше чем первая версия R1, а динамические 2-битные кванты имеют падение качества в районе 10-20%, при этом их размер уверенно влезает в 256гб RAM, цена на 4x64гб DDR5 для домашних ПК сейчас уже вполне доступна.

Для примера запустил DeepSeek-V3.1-IQ2_KS (193гб) на обычном ПК 192гб RAM + 4090:

DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s
DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s
1
23 ...

Information

Rating
1,792-nd
Registered
Activity