All streams
Search
Write a publication
Pull to refresh
161
1.4
Send message

Это не SD3, а HunyuanImage 3.0, которая вышла 2 недели назад. Модель построена на авторегрессии как LLM, и так как внутри там полноценная LLM, она понимает русский для промптов и может сама придумать инфографику. Работает не идеально, поэтому будет интересно посмотреть, как вы справились с этой задачей.

Промпт: Придумай саркастичную инфографику про LLM на русском

Промпт про ведьмака сгенерированный GLM

Create a detailed infographic for the game "The Witcher 3: Wild Hunt" in a dark fantasy style, inspired by Slavic mythology and the game's official concept art, using a color palette of muted earth tones, deep grays, and accents of red and blue. The centerpiece is a radial diagram with Geralt of Rivia at the center; stylized lines connect him to key characters labeled 'Дитя Старшей Крови', 'Чародейка', 'Король Дикой Охоты', and 'Главный антагонист'. These lines should also branch out to major locations labeled 'Белый Сад', 'Новиград', 'Велены', and 'Скеллиге'. Include a section with clean, minimalist icons for key items labeled 'Стальной меч для людей', 'Серебряный меч для монстров', and 'Амулет Медальон Волка'. Add a horizontal timeline at the bottom, divided into four key plot points in Russian: 1. Начало: Поиски Цири с помощью Йеннифэр. 2. Развитие: Путешествие по Веленам, Новиграду и Скеллиге, сбор информации. 3. Кульминация: Противостояние с Дикой Охотой. 4. Финал: Битва за Цири и ее судьба. In a top-right corner, place a statistics block with the following text in Russian: 'Дата выхода: 19 мая 2015 г.', 'Разработчик: CD Projekt RED', 'Награды: Игра года (2015)', 'Количество игроков: 50+ миллионов'. Use a clean, legible font for all Russian text, and ensure the overall layout is balanced, modern, and visually appealing, with a subtle, textured background reminiscent of old parchment.

HunyuanImage 3.0
HunyuanImage 3.0

RTX 5070ti 16gb, 32 gb ddr5 6400
Мне нужны модели для:

Список большой, и как я понял, нужно чтобы это работало на фоне, не забирая все ресурсы.

В качестве llm: Qwen3-30B-A3B-Instruct-2507 загружая через cmoe, чтобы освободить побольше VRAM. Быстрая, много не занимает, с русским языком работает лучше чем gpt-oss-20b, есть маленькая версия для кода и для размышлений.

Для llama.cpp это будет параметр -cmoe
Для llama.cpp это будет параметр -cmoe

Для картинок: flux на gguf запуская через stable-diffusion-webui-forge, stable diffusion в исполнении Illustrious или Pony (модели ищутся на civitai.com), запускаются на stable-diffusion-webui или Qwen Image через ComfyUI.

Как должна выглядеть настройка
Как должна выглядеть настройка

Будет всё работать вместе одновременно и вполне быстро, оставляя много ресурсов для работы ПК.

В целом, с таким железом можно даже видео генерировать на wan2.2 через ComfyUI, загружая gguf версии, либо используя оптимизацию на 6гб VRAM.

Будущее уже здесь - Следующее поколение моделей (типа SD3) уже демонстрирует впечатляющие результаты в генерации текста. Но пока они не стали мейнстримом, наш многослойный подход остается самым надежным способом гарантировать безупречный текст в AI-генерациях. Экспериментируйте, комбинируйте и делитесь результатами — вместе мы делаем AI-творчество более точным и профессиональным!

Напомню, что SD3 вышел 1.5 года назад.

Для текста в ходу Flux и Qwen Image. И свежий HunyuanImage 3.0.

Попробуйте GLM-4.6, есть GLM-4.5-Air поменьше, обещали выпустить GLM-4.6-Air. Скорость работы средняя, редко упоминается и в целом недооценена. Многие задачи решает хорошо.

Ещё вариант ускорения, помимо выгрузки moe весов через -cmoe, это спекулятивное декодирование. Qwen3-235B и Qwen3-Coder-480B обычно очень медленные, поэтому можно в качестве ускоряющего черновика использовать малую модель, например, Qwen3-4B-Instruct-2507, ускорение обычно в 1.5 раза. У меня было 4.5 t/s, стало 7 t/s, это зависит от сценария.

По ОС, чтобы выжать проценты скорости, лучше пробовать линукс, но это не для всех моделей работает одинаково, да и сам линукс не для всех. Например, gpt-oss проседает до 25 t/s под виндой, вместо 32 t/s под линуксом, DeepSeek проседает на 1-2 t/s, а вот для Grok2 без разницы, но у меня Windows 10, на 11 может по другому будет работать, это надо тестировать.

Попробовал работу openai_gpt-oss-120b-MXFP4.gguf 63 гб с диска.
Таким образом на обычном компьютере MoE модели можно использовать практически неограниченного размера.

Там не всё так просто, ограничение у MoE есть, в основном это количество активных параметров.

В начале года OpenAI проводили опрос, они спрашивали какую модель сделать в открытый доступ, такую компактную и быструю, что можно на телефонах запускать, или уровня o3-mini, но чтобы всё равно на ПК нормально работало. В итоге выпустили оба варианта (20B и 120B).

Они изначально эти модели спроектировали так, чтобы одна работала на обычных ПК, а вторая на телефонах. Там очень мало активных параметров, поэтому и можно запускать с диска, требуется не так много считывать оттуда.

У 120B на каждом шагу генерации активно всего 5.1B. В нативном кванте mxfp4 это примерно 2.5гб, быстрый nvme легко считывает столько. Тензоры внимания этих активных экспертов в рамках одного токена используются, проходя все слои, много раз, поэтому такие тензоры постепенно закэшируются в память. Ещё в таких оптимизированных моделях часто используют общих экспертов, что ещё сильнее ускоряет работу т.д.

По сути это запуск оптимизированной 5.1B модели, и оборудование требуется такое, которое потянет 5.1B, то есть почти любое.

Если gpt-oss-120B запустить CPU-only полностью поместив в DDR5 4800, скорость будет 14 t/s:

CPU Only, 14 t/s
CPU Only, 14 t/s

Если использовать 24гб GPU на полную, выгрузив побольше слоев на GPU, то скорость 32 t/s:

CPU + GPU, параметр запуска -ncmoe 25, 32 t/s
CPU + GPU, параметр запуска -ncmoe 25, 32 t/s

В общем модель очень хорошо спроектирована, работает быстро везде и на всём. Но не все MoE спроектированы так, есть много разных вариантов, и среди них есть один безумный вариант, это Grok2, у которого как раз недавно веса выложили в открытый доступ, gguf уже поддерживается.

Если взять минимальный квант grok-2-UD-TQ1_0, его размер примерно где-то рядом ~80гб, и скорость можно ожидать плюс минус такую же, но скорость в 12 раз ниже, всего 1.2 t/s:

grok2, llama.cpp, CPU only
grok2, llama.cpp, CPU only

Grok2 это MoE модель, где общих параметров 270B, но в отличии от gpt-oss, активных там 115B, это рекордсмен среди MoE, на втором месте 50B у Ling-1T, модель размером 1000B, на третьем DeepSeek и Kimi K2 у которых активных 37B, потом Qwen3-Coder с 35B, GLM-3.6 с 32B, LongCat с 27, Qwen3 с 22B и т.д. Это всё крупные модели, которые трудно запустить. Но есть маленькие, вроде Qwen3-30B-A3B c 3B или супер маленький granite-4.0-tiny c 1B. Проблема тут из-за того, что чем меньше активных параметров, тем слабее модель.

И поэтому, хоть Grok2 это MoE, но даже если подключить всю мощь 4090 и различные параметры для ускорения, то скорость всего 1.7 t/s:

Экстремальное квантование даёт о себе знать
Экстремальное квантование даёт о себе знать

В общем MoE они разные. Для сравнения, запуск не плохого кванта DeepSeek V3.1 на том же оборудовании дает 7 t/s:

DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s
DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s

Попробуйте не использовать умные термины и объяснять простыми словами. Если ваше объяснение всё еще будет выглядеть корректным, тогда в нем не будет магии.

Так и получается не правильное представление об обучении, тут не куда упрощать, так как уже идет искажение смысла, как в вашем упрощенном описании.

Если описывать очень упрощенно, то они любую исходную функцию приближают набором ломаных черточек/плоскостей. Поэтому чем больше черточек, тем точнее приближение. Тремя черточками вы линию синуса не опишете.

Смотрите, я обучил нейросеть, где всего 3 нейрона, и случается, ну видимо, "магия" и синус описывается гладко и согласно доказанной универсальной теореме аппроксимации, можно получить любую точность увеличивая количество нейронов. И никаких чёрточек.

Сигмоида как функция активации
Сигмоида как функция активации

Обучил нейросеть с ReLU чёрточками, и этот результат как-то не похож на то, что вы описали, результат скорее хаотичный, где-то точность высокая, а где-то безумно низкая.

ReLU активация, 10 нейронов
ReLU активация, 10 нейронов

Смотря на это и ваше описание, вы никак не отвечаете как работает аппроксимация, потому что, это не упрощенная функция синуса, которая выглядела бы угловато, но равномерно. Это именно аппроксимированная нелинейная функция работающая по своим законам. Нейросеть как-то, каким-то своим способом находит паттерны и выводит из них функцию, функция не линейна, поэтому и такая разная на разных диапазонах.

Даже если взять 10000 нейронов, всё выглядит не так, как ожидается:

ReLU активация, 10000 нейронов
ReLU активация, 10000 нейронов

Как ваше описание будет работать, если исходной функции просто нет? Ваше упрощенное объяснение создает ложное представление, как работает обучение и аппроксимация.

При обучении нейросети нет никакой исходной функции, есть только набор входных данных, выходных данных и "магия" аппроксимации.
Та самая "магия", которую ведущий разработчик DeepMind описывает как "да кто ж знает как оно работает, но работает же".

Вы думаете если повторить высказывание несколько раз, оно от этого станет более верным?

В смысле вы на полном серьезе думаете, что это буквально "само собой" и усиленно с этим боретесь? Ну такое.

Конечно, какая-то причина под всем этим есть и однажды демон Лапласа её поведает, в конце концов это всё ещё классическая система, а не квантовая.

Собирая карточный домик приложено конкретное известное усилие и был получен ожидаемый результат, не случилось что-то вроде собрав домик из 1000 карт он влезет в воздух. Это не "само собой", а конкретным способом, зная конкретный результат.

В LLM эффект проявляется "сам собой", потому что исследователи не делали для этого ничего конкретного. Да, они увеличивают количество параметров, насыщают датасет, проводят больше эпох - но ждут они каких-то новых свойств, которые должны проявиться "сами собой", в смысле "каким-то неизвестным нам образом", не "магическим".

Эта довольно простая смысловая конструкция, чтобы её на полном серьезе обсуждать в буквальном смысле. Я так понимаю, каждый остается при своём мнении, думаю, тут больше не чего обсуждать, по крайней мере диалог немного наскучил.

Я фокусируюсь на том, что вы сказали. Для указания на это я привел цитаты.

Очень часто форма не важнее содержания.

Аппроксимация это то, как работают нейросети, они находят нелинейный, даже если и не точный, способ вывести из любых входных данных любые выходные, при условии, что эти две вещи обладают каким-то паттерном, явным или не явным. Это было математически доказано в 1989, ограничением является количество нейронов и подбор весов. Но способ нахождения не определен и не прослеживается - это то, что называют обучением.

На вход можно подавать всё, что угодно, например, партии в шахматы или го. Всё будет успешно аппроксимировано, нейросеть будет искать паттерны игры в го и открывать неожиданные move 37, непонятные людям, но приводящие к победе. Но эмерджентных свойств тут не появляется.

У LLM на вход подается отражение мира, поэтому модель выискивает паттерны мира. Моделью весом в 700мб (350m параметров в формате fp16, первые версии GPT) не получается описать весь мир, срабатывает ограничение количества нейронов. Увеличивая количество весов, никак не планируя, не предсказывая, не управляя этим, не меняя способ обучения, ничего не меняя - начинают проявляться новые эмерджентные свойства модели. Сами собой.

Это происходит благодаря тому, что аппроксимация во время обучения набирает точность, всё у большего количества сфер мира удается найти паттерны, но при этом фраза "сами собой" тут уместна и хорошо передает смысл. Всё остальное это уже игра слов или философия, вроде если бы существовал Демон Лапласа, мог бы он описать весь мир и предсказывать будущее и т.д.

Ну хватит уже использовать слово "эмерджентный" как синоним "магический".

Так кроме вас никто его так и не использует. Вы игнорируете аппроксимацию и фокусируетесь только на эмерджентности.

Само по себе ничего не появляется, всё обусловлено свойствами элементов системы.
Все зависимости можно отследить и описать. Это не значит, что каждый элемент обладает всеми свойствами системы.

У 100 чисел нет свойства вести чат с пользователем, у 1000000 чисел тоже нет такого свойства, а у 4000000000 такое свойство появляется, у 175ккк появляется свойство к логическому и математическому анализу, у 500ккк появляется способность к редким языкам.

Это всё еще просто числа, огромная матрица чисел, никаких баз данных или логического аппарата внутри модели нет. Данные для обучения те же, способ обучения тот же, но просто увеличивая количество чисел в какой-то момент начинают проявляться новые свойства.

Что именно вы хотите отслеживать и описывать? Каждый новый запуск обучения одной и той же модели будет иметь полностью другой набор значений весов. Отследить сам процесс изменения этих чисел и групп можно, а вот почему приобретаются какие-то новые свойства и какие именно, это не выводится просто из отслеживания и описания.

Эмерджентность LLM проявляется благодаря математической аппроксимации, аппроксимация выводит свои формулы нелинейно, если есть паттерн, аппроксимация с этим рано или поздно справится, но каким путём нельзя описать, в этом и смысл нейросетей, иначе бы всё делалось на конечных автоматах.

Карты в карточном домике поддерживают друг друга. Это не значит, что одна карта может стоять в наклонном состоянии или висеть в воздухе.

Карточному домику вы задали структуру которая полностью объясняется трением и геометрией, но тоже самое не будет работать в космосе, это пример очень слабой эмерджентности, аналогия не применима для LLM.

Вообще, проблема аналогий в том, что аналогии всегда ложны, споря с аналогиями, вы очень быстро уходите от изначального смысла идеи, начинаете спорить с соломенным чучелом, а не с оригинальной моделью.

То, что сейчас подразумевают под ИИ или LLM, нейросети на трансформерах с механизмом внимания - это универсальные аппроксиматоры модели мира обладающие эмерджентным эффектом. Им на вход обучения подаются данные отражающие мир, а аппроксимация - это универсальное свойство любых нейросетей за счёт скрытых слоев и нелинейной функции активации.

Аппроксимация - это способность создать универсальную функцию, которая из вводных условий (начальный промпт) выведет приближенный результат (правильный ответ в обучение). Обучение модели это подбор значений весов так, чтобы эта функция заработала. Обучение это вывод универсальной функции через аппроксимацию.

Эмерджентные свойства - это способность системы, состоящая из элементов не обладающими каком-то свойством, проявлять новое свойство во время общей работы отдельных частей.

В какой-то момент, увеличивая размеры модели, эмерджентные свойства начали выдавать эффекты, которые уже выходили за рамки привычного, то, что как раз и начали называть ИИ.

Но сам эффект скорее случайный и не контролируемый, его нельзя "запрограммировать" так, чтобы он работал определённым образом, нельзя добавить какие-то конкретные свойства, в текущей архитектуре какие-то разные свойства сами проявляются.

Другая проблема в том, что универсальная функция модели мира "приблизительно" точна, можно аппроксимировать данные входа обучения в выход обучения достаточно точно, но это же означает, что если что-то плохо представлено в датасете, то эти моменты будут упрощены, не будет достаточной детализации. Такая архитектура не позволит модели самой восстановить пробелы или сделает это не достаточно точно.

Пример с кружкой это как раз пример таких дыр, которые легко закрыть насыщением датасета, чтобы уточнить модель мира, и это будет именно уточнение аппроксимированной модели мира, а не заучивание конкретного сценария.

Способ прорыва для текущей архитектуры LLM - это насыщать датасет данными и надеяться, что их хватит, что эмерджентные свойства сами переступят определённый порог и случится добавление большего числа новых свойств, например, самостоятельное восстановление дыр, чувство юмора или превращение из AI в AGI. Не то, чтобы это невозможно, но на такой архитектуре нет конкретного сценария, как получить такой результат.

Другой подход - это сменить архитектуру, над чем сейчас многие работают. Трансформеры с вниманием это вынужденный компромисс, способ получить масштабирование и распараллеливание как для обучения, так и для инференса за счёт снижения качества.

24 так это дофига. У людей вон 6-8 еще

В 24 гб можно полноценную большую Wan2.2 (T2V, I2V, S2V и Animate) засунуть в fp8/int8, с gguf квантованием ещё меньше. Для Wan2.2 есть ускоряющая лора, которая за 4 шага генерирует не плохой результат на 81 кадр (5 секунд в 16fps) за 50 секунд, удобно чтобы тестировать промпт, прежде чем перейти к полной генерации за 8-10 минут.

T2V:

wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
wan2.2, gif уменьшена до 480p и 6fps
I2V Чебурашка Киборг
wan2.2 lightx2v 4step 16fps, gif уменьшена до 320x320 и 6fps
wan2.2 lightx2v 4step 16fps, gif уменьшена до 320x320 и 6fps

И кстати, по поводу промптов, вышла HunyuanImage 3.0, за счёт архитектуры она поддерживает промпты на разных языках, включая русский. И надписи тоже генерирует на русском.

HunyuanImage 3.0, промпт: Брутальный накачанный Гарри Поттер с голым торсом стоит в 3/4 колдует заклинание и в небе появляется рваная надпись "Привет ХАБР", ultra-realism, cinematic lighting, 8K
HunyuanImage 3.0, промпт: Брутальный накачанный Гарри Поттер с голым торсом стоит в 3/4 колдует заклинание и в небе появляется рваная надпись "Привет ХАБР", ultra-realism, cinematic lighting, 8K

помимо проседания общего качества ответов (китайские иероглифы и английские слова в выдаче, независимо от запросов)

Это исправлено в v3.1-Terminus, а v3.2-Exp это v3.1-Terminus с переобученным вниманием.
Это всё еще не R1 по стилю ответов, который глубже подходил к проблеме, но смесь языков они точно исправили.

они хотят ещё и контекст её скипать научить?

Для DeepSeek это не даунгрейд, а апгрейд. Новый способ внимания NSA лучше их предыдущего MLA, точнее NSA является развитием MLA.

В новости не правильное описание алгоритма Native Sparse Attention. Модель сразу обучается с NSA и учится выделять суть из блоков ещё на этапе первичного обучения. Полный контекст сжимается в латентное пространство, позволяя модели видеть весь контекст без квадратичной сложности и гигантского расхода памяти (без оптимизаций на 32к контекста требуется 400Гб памяти, с оптимизацией 2-3гб). После, в зависимости от запроса, из этого латентного пространства выбираются подходящие сжатые блоки.

NSA это гибрид MLA + GQA + SWA, и, в отличие, от чистого MLA, который был в V3.1 и R1, позволяет точнее извлекать релевантный контекст. Один из бенчмарков длинного контекста как раз подтверждает, что в режиме размышления это стало работать лучше, а не хуже.
Qwen3 был лидером среди открытых моделей по обработке контекста, он использует Dual Chunk Attention, и теперь NSA и DCA почти сравнялись по эффективности.

https://fiction.live/stories/Fiction-liveBench-Sept-29-2025/oQdzQvKHw8JyXbN87
https://fiction.live/stories/Fiction-liveBench-Sept-29-2025/oQdzQvKHw8JyXbN87

mistral:7b
llama3.1:8b
qwen3:8b

Первая древность 2023 года, вторая - 2024 года. В qwen3 мышление отключается добавлением в промпт /no_think, но модель уже не актуальна сама по себе, только для спекулятивного декодирования.

deepseek-r1:8b - сущая пытка. Думает долго, отвечает плохо.

Это такой эксперимент с файнтюном, который имеет слабое отношения к реальному использованию и качеству оригинальной DeepSeek R1.
Но пользуясь ollama вы никогда не знаете, что именно они спрятали под названием deepseek-r1:8b. Есть и ужасная DeepSeek-R1-Distill-Llama-8B и более свежая, но тоже ужасная, DeepSeek-R1-0528-Qwen3-8B.

Популярны так называемые «дистиллированные» модели

Среди тех кто запускает локально, популярна скорее полная противоположность этому утверждению.

Фактологические запросы

Стоит учитывать, что llm это не база данных и не гугл, в 3.3гб нельзя засунуть всю википедию и все знания мира, любые фактологические тесты перевернуться с ног на голову как только будет задан другой вопрос.

Аналитические способности:
Даже крупные модели плохо справляются с задачами, требующими точного анализа данных (например, статистическая обработка результатов тестов). Это указывает на ограниченность локальных LLM в области сложных вычислений и структурированного вывода.

Крупных моделей не было в исследовании.

моделей среднего размера (4–8B). Крупные модели (20B+)

Первые это скорее нано или мини модели, а не среднего размера. Да и 20B - это маленькие модели.

По описанию она использует для ускорения видеокарты RTX прямо через клиент Ollama, без доп ПО, но я не могу этого подтвердить

Ollama всё запускает через CUDA, если карта Nvidia, иначе CPU. Есть проект lemonade, альтернатива для ollama, работает на AMD через Vulkan и Rocm, для Intel через Vulkan. И оба варианта это оболочка над llama.cpp, который умеет запускать любые варианты, и там есть нормальный бенчмарк скорости llama-bench.

В описании к модели gpt-oss:20b сказано, что она задействует видеокарты RTX. При запуске модели ПК начинал больше шуметь, но я не увидел большего потребления ресурсов видеокарты в мониторинге.

В диспетчере задач такая нагрузка не показывается, её нужно смотреть выбрав пункт "cuda", либо запустить nvidia-smi, утилита которая ставится вместе с драйверами Nvidia.

0% общая нагрузка, и 99% нагрузка cuda

Все приведенные модели скачиваются с сайта https://ollama.com/search

Актуальный список моделей точно лучше не брать с сайта ollama, который у них представлен на главной странице. Лучше уж проверить на сайте https://huggingface.co/, что сейчас актуально.

Список моделей актуальный на данный момент:

  • Mistral - были первыми кто показали, что MoE модели работают отлично, но сами с тех пор не используют MoE, всех их актуальные модели это Dense.

    • Ministral-8B-Instruct-2410 - размер 8B

    • Mistral-Small-3.2-24B-2506 - размер 24B

    • Magistral-Small-2507 - размер 24B

    • Devstral-Small-2507 - для кода, размер 24B

    • Mistral-Large-Instruct-2411 - не новая, но до сих пор актуальны её файнтюны, размер 123B

  • Qwen - в новых версиях разделили размышляющие и не размышляющие модели, чтобы повысить качество каждой. Qwen почти для всех моделей перешел на MoE, тем самым позволяя даже на слабых ПК запускать крупные версии. Наличие малых размеров моделей позволяет их использовать для спекулятивного декодирования, получая больше ускорения. Есть Vision варианты.

    • Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 - размер 4B

    • Qwen3-30B-A3B-2507 (обычная и размышляющая) - MoE, размер 30B, активных 3B

    • Qwen3-Coder-30B-A3B - для кода, не размышляющая, размер 30B и активных 3B

    • Qwen3-Next-80B-A3B (оба варианта) - новая MoE модель с новым гибридным вниманием, размер 80B, активных 3B

    • Qwen3-235B-A22B (оба варианта) - размер 235B, активных 22B

    • Qwen3-Coder-480B-A35B - для кода, не размышляющая, размер 480B, активных 35B

  • OpenAI - зацензурена сильнее, чем GPT-5 на их сайте, много отказов. Есть промпт-джейлбрейк.

    • gpt-oss-20b - размышляющая MoE, размер 21B, активных 3.6B

    • gpt-oss-120b - размышляющая MoE, размер 117B, активных 5.1B

  • GLM - мало известные, но очень качественные MoE-модели с гибридным режимом мышления. Есть GLM-4.5V для Vision.

    • GLM-4.5-Air - размер 106B, активных параметров 12B

    • GLM-4.5 - размер 355B, активных параметров 32B.

  • DeepSeek

    • DeepSeek-R1-0528 - размышляющая MoE, размер 671B, активных 37B

    • DeepSeek-V3.1 - свежая MoE модель, объединяет размышляющий и не размышляющий режим, размер 671B, активных 37B

  • Moonshot AI

    • Kimi-K2-Instruct-0905 - самая большая локальная модель, размер 1T или 1024B, активных 32B.

  • Llama - llama4 многими критикуется, но на деле это не плохие модели для не программирования, их большой плюс это скорость работы. Модели идут с поддержкой Vision.

    • Llama-4-Scout - MoE, размер 109B, активных 17B

    • Llama-4-Maverick - MoE, размер 400B, активных 17B

  • Google

    • в статье уже упоминается gemma-3, начиная от 12B пригодны для использования, в модели встроен Vision

  • Cohere - модели этой компании подходят не для программирования, а для работы с языками и текстами, вроде перевода, RAG и прочее. Есть варианты Vision.

    • aya-expanse-8b - dense модель, размер 8B

    • aya-expanse-32b - размер 32B

    • command-a-reasoning-08-2025 - размер 111B

  • Baidu

    • ERNIE-4.5-21B-A3B - MoE, размышляющая, размер 21B, активных 3B

    • ERNIE-4.5-300B-A47B - MoE, размер 300B, активных 47B

  • Tencent

    • Hunyuan-MT-7B - для перевода, размер 7B

    • Hunyuan-7B-Instruct - обычная модель для чата, размер 7B

    • Hunyuan-A13B - MoЕ, размер 80B, активных 13B

В список включил и крупные локальные модели, которые уже полноценно могут конкурировать с проприетарными моделями, просто потому что, их можно запускать на домашнем ПК если есть минимально 64гб RAM, или для огромных 192/256гб, которые сейчас стоят не дорого. Подробнее как это сделать:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Этим новым методом можно запустить, например, gpt-oss-120B на 15 t/s, GLM-4.5-Air на 14 t/s, deepseek V3.1 на 7 t/s, что для определённых задач вполне пригодно, а Llama-4-Maverick 400B аж на 25 t/s:

Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL
Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL

Это особенность MoE моделей, для их запуска нужна RAM, а не VRAM. Немного VRAM нужно для разгрузки тензоров внимания, таким образом за счет одной GPU можно получить ускорение. В ollama это не доступно, это доступно напрямую в llama.cpp или хотя бы в LM Studio, где надо активировать галочку "Force Model Expert Weights Onto CPU". После чего на ПК с 64гб RAM и небольшой видеокартой (нужно ~2гб VRAM) можно запускать даже gpt-oss-120B.

Вот так должно выглядеть

И мои выводы, на основе составления исследования:

Тестирование было бы интереснее на актуальном списке моделей, а из актуального получается только gpt-oss-20B и модель для кода Qwen3-Coder-30B-A3B используемая не для кода, хотя есть Qwen3-30B-A3B-Thinking-2507. В те время, когда протестированные модели были актуальны, даже тогда были популярны именно файнтюны этих версий, которые улучшали качество, так как стандартные модели не особо блистали.

Также в список попали 8B модели, но gemma3 почему-то представлена как 4B, что даже если пройдет какие-то тесты, для реального использования такой размер с трудом применим. При этом gemma-3-12b-it-Q4_K_S или gemma-3-12b-it-UD-Q3_K_XL легко влезают в 8гб VRAM используемой 3050. В ollama можно выбрать конкретный квант командой: ollama run hf.co/unsloth/gemma-3-12b-it-GGUF:Q3_K_XL. Но проще пользоваться LM Studio, запустив там сервер, или напрямую llama.cpp.

Вообще, это довольно популярное явление. Многие видят как обновляются до новых версий ChatGPT, Claude, Gemini, но для локальных моделей они застряли чуть ли не в 2023 году, и даже не догадываются проверить, что там актуальное на данный момент.

/v1/chat/completions умеет по токену выдавать ответ, нужно в json запроса установить stream в true.

Райзер думаю не подойдет, а про остальные варианты можно подробнее? Хочу как-то 3070 воткнуть к своей 4080

Второй pcie слот обычно урезан до x4 или до x1 (даже если выглядит как x16), так что подойдет обычный pci-e удлинитель:

Бывают x1, x4, x16
Бывают x1, x4, x16

Какой именно deepseek r1 вы тестировали локально? Тот который доступен у них на сайте это 671 миллиард параметров, ее даже на мощном компе не запустишь.

Запускаемо, не в контексте вашего комментария, а в целом. Нужно минимально 192гб RAM + ускорение через одну GPU на 16gb. За счет чего это работает:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Свежий бенчмарк программирования Aider показывает, что низкие кванты вполне пригодные для кода. Динамическое квантование - это когда важные тензоры квантуются повыше, а не особо важные низко.

1-битный динамический квант выступает лучше чем первая версия R1, а динамические 2-битные кванты имеют падение качества в районе 10-20%, при этом их размер уверенно влезает в 256гб RAM, цена на 4x64гб DDR5 для домашних ПК сейчас уже вполне доступна.

Для примера запустил DeepSeek-V3.1-IQ2_KS (193гб) на обычном ПК 192гб RAM + 4090:

DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s
DeepSeek-V3.1-IQ2_KS запущенный через ik_llama локально, tg 7 t/s, pp 200 t/s

Kimi k2.1 — новая модель от Moonshot
Полное имя билда: Kimi K2 0905.

Лучше не выдумывать наименования моделям, и не следовать за теми, кто так делает. Официально релиз назвали Kimi-K2-0905, а не K2.1, а предыдущий релиз они теперь называют Kimi-K2-0711.
0905 и 0711 - это дата релиза, самый распространенный способ именования у моделей.

Когда вышел DeepSeek V3-0324, его люди назвали 3.1 и на многих сайтах он был записан как 3.1, но 2 недели назад вышел настоящий V3.1 и до сих пор в обсуждениях не все могут понять, о какой версии идет речь.

Новая версия с 256к контекстом уже доступна: https://www.kimi.com/
Работает с текстом целой книги на 250к токенов вполне нормально:

Основная сложность вылезает с плавающими запятыми и делением. Умножение еще хоть как то у нее получается, это по сути сложение

Это не важно, деление, плавающая запятая или что угодно, хоть самые сложные и замороченные формулы, всё это можно упростить и вывести примерную формулу, например, как jpg упрощает оригинал и сжимает его, но разницу на глаз можно и не заметить. Внутри LLM умножение не выводится из сложения, аппроксимация не про это.

У LLM во время обучения, какие бы числа и действия на вход вы не дали, за счет свойств внутренних скрытых слоев, происходит автоматическая попытка вывести новую функцию из входящих данных и ожидаемого результата. Эта выведенная функция будет упрощенной версией изначальной функции, она будет работать очень быстро, но не точно, это и есть аппроксимация.

Может термин "аппроксимировать" слишком нетипичен для восприятия, но это математический и научный метод, именно он работает внутри LLM. И в контексте статьи позволяет понять, например, почему модель не может умножить 2 больших числа с полной точностью. Мало кто в контексте LLM этот термин упоминает, поэтому кажется, что это вообще не про LLM.

Если задавать вопрос модели так, чтобы она дала ответ сразу, без разбивки на шага, то это будет именно работа аппроксимации как есть.

Сколько будет: 5215356.236 / 45335.21616584581. Правильный ответ 115.0398, ответ модели 115.04
Сколько будет: 5215356.236 / 45335.21616584581. Правильный ответ 115.0398, ответ модели 115.04

Маленькая локальная модель тоже дает верный ответ:

Сколько будет: 552215356.2546736 / 45365435.216169284581. Правильный ответ 12.172601312504357, ответ модели 12.172576878624986
Сколько будет: 552215356.2546736 / 45365435.216169284581. Правильный ответ 12.172601312504357, ответ модели 12.172576878624986

И тут легко увидеть, что чем ответ ближе к 0, тем лучше работает аппроксимирование, чем дальше от 0, тем больше расхождение. Это можно компенсировать расширенным датасетом, но так как перед LLM не стоит задача быть калькулятором, то этим никто не занимается.

Правильный ответ: 1215500.2223413868, ответ модели: 1215077.242, разница 0.03%
Правильный ответ: 1215500.2223413868, ответ модели: 1215077.242, разница 0.03%

Так или иначе, эта особенность глубоких скрытых слоев и называется deep learning, а не просто machine learning. Особенность автоматически "учит" модель математике, программированию, языкам и так далее. Модель "сама" выводит правила и зависимости, находит признаки. Чем больше связей внутри скрытых слоев, тех самых параметров, тем больше возможностей для этой внутренней работы. Та самая знаменитая гифка от OpenAI как раз про это. А дальше уже начинают играть роль механизмы внимания, самовнимания, проявляются эмерджентные свойства.

мой посыл был про то, что LLM не обрабатывают сырую картинку.
Ок, будет это не tesseract, а кастомное решение на OpenCV. Это все равно подмодуль, а не сама LLM

В своей сути вы правы, но не совсем.

Бывают мультимодальные модели, где обработкой изображений занимаются отдельные тензоры целой модели, например, визуальный трансформер (ViT), который обучен обрабатывать сырую картинку, но он выдает не какую-то конкретную информацию, а создает по картинке скрытый вектор, покрывающий её признаки. Этот скрытый вектор напрямую передается в текстовую LLM, и уже LLM может извлекать оттуда нужные признаки в зависимости от запроса. То есть это не внешний модуль, это некая гибридная архитектура, поэтому сравнивать одни мультимодальные модели можно с другими, на то как хорошо обучили ViT, как текстовая часть хорошо работает со скрытым ViT вектором и т.д.

Поэтому мультимодальная модель может давать любые ответы по картинке, а не строго заданные через внешний модуль, вроде распознания текста.

Llama-4-Maverick запущенный локально
Llama-4-Maverick запущенный локально

DeepSeek - это не мультимодальная модель, в веб-интерфейсе распознанием текста занимается внешний модуль, который выдирает текст и просто передает его в контекст. В случае gpt-4o заявлено, что она мультимодальная.

Помимо изображений, мультимодальные могут обрабатывать звук, видео, голос, принцип у них одинаковый, создается латентное представление, с которым уже работает текстовая часть.

Примеров мультимодальных моделей много, в основном они конечно двумодальные, но бывают и более разнообразные:

  • Gemma3, Llama4, V-версии - работают и с текстом и с изображениями, на выходе текст

  • Janus-Pro-7B может принимать на вход и картинку и текст, выдавать картину или текст на выходе

  • Qwen2.5-Omni-7B может принимать звук, изображение, видео, текст на вход, на выходе выдает голос и текст

Добавим следующий результат: 287040000 + 2990000 = 289030000

Тут как раз тот самый сдвиг на 1 разряд, про который я писал. Поэтому модель сложила со смещением.

Не очень понятно почему никак нельзя встроить калькулятор в ллм, она ведь состоит из разных частей, не только основных слоев но и всяких там токенайзеров, почему там нет места для обычного калькулятора.

И токенизатор, и сэмплер с температурой - это 2 внешние для LLM системы, которые не встроены в LLM и находятся вне влияния LLM.

Тут есть интересный факт, складывать(и отнимать) огромные цифры гпт уже давно умеет без инструментов(калькулятора) то есть в уме по сути. Умножать не умеет.

В контексте статьи правильнее сказать, во время обучения не удалось полностью аппроксимировать умножение, то есть построить во внутренних слоях такое упрощение функции, которая, имея только входные данные, давала бы точный результат сразу. Какое-то приближение есть, так как ответ не рандомный, а приблизительно точен, как раз в рамках аппроксимирования.

Свойство скрытых глубоких слоев аппроксимировать (universal approximation theorem), в данном случае функцию f(a, b) = a * b на основе данных обучения, работает до определенных пределов за единицу вычислительных ресурсов на обучение, дальше уже требует непропорционально больших ресурсов. Cкорее всего если задаться этим целенаправленно, то умножение в модели можно аппроксимировать очень далеко, но врядтли такая задача перед обучением стоит.

А если говорить про умножение вообще, то есть разрешить модели делать всё по шагам, то умножение им дается.

Ответ 290403152 правильный
Ответ 290403152 правильный

Только надо учитывать, что чем больше разряд, тем чаще модели имеют проблему нулей разрядов. Толи токенизации, толи температуры, толи всего вместе, тут надо глубже это изучать, и в итоге они путают разряды.

Пример

Умножение 48541234624*59513251238, ответ не правильный:

Должно быть 2888846691580816464512
Должно быть 2888846691580816464512

Если попросить перепроверить модель, где она ошиблась, то ответ как раз будет с разрядами:

Если нули разрядов вернуть в правильный вид и сложить - то ответ будет правильный. Усложняя промпт, чтобы модель учитывала эту проблему с разрядами, можно дойти и до умножения 14-15-значиных чисел, может и дальше.

1
23 ...

Information

Rating
1,422-nd
Registered
Activity