Comments 41
а разве не все модели qwen3 имеют отключаемое размышление?
Объясните танкисту, зачем их запускать локально? Я понимаю, что бесплатно и безопасно, но ведь оно же и коптит и тупит как проклятое, не?
Если помещается в память видеокарты то не коптит. qwen3-8b более менее терпимый даже в обычном чате, а его можно гонять на дешевой видеокарте за 300уе.
Я 32b qwen какой то запускал. Вещь конечно но проще онлайн
Есть работа/развлечение/деятельность котомую ни в коем случае нельзя светить в интернете. Ни через API, ни через сайты, ни через сервисы.
Бесплатно, без лимитов, анонимно, работает без интернета. На мощном железе это будет ещё и быстро. И существуют специальные модели без цензуры.
Да, десятки минут, со 100 загрузкой, каждой реплики.
Например, чтобы сделать свое внутреннее АПИ , чтобы парсить данные .
Много достаточно простых запросов - и бесплатно.
Парсит данные (вытаскивает город и страну для иностранных адресов) , переводит некоторые технические термины....
Нормально все работает, если памяти хватает или в видеокарте памяти много. 4-7В модели вообще летают, но для работы лучше использовать 27В и выше модели. Будет медленно но терпимо. Локальные - потому что бесплатно и всегда под рукой и все хранится у тебя.
Джема 27в вне конкуренции у меня. Дипсик вообще фуфел и похоже на фейк, пиар в медиа понятен, хотят продать или получить бабло. Ставить не рекомендую, результат не получите, кроме совсем уж простых действий. Отличный русский только у ЧатГПТ и Джемы, остальные будут придумывать слова или переводить криво. Слова Улыбало, Небонько, Ходилка частое явление у китайских поделок квен и дипсик.
mistral:7b
llama3.1:8b
qwen3:8b
Первая древность 2023 года, вторая - 2024 года. В qwen3 мышление отключается добавлением в промпт /no_think, но модель уже не актуальна сама по себе, только для спекулятивного декодирования.
deepseek-r1:8b - сущая пытка. Думает долго, отвечает плохо.
Это такой эксперимент с файнтюном, который имеет слабое отношения к реальному использованию и качеству оригинальной DeepSeek R1.
Но пользуясь ollama вы никогда не знаете, что именно они спрятали под названием deepseek-r1:8b. Есть и ужасная DeepSeek-R1-Distill-Llama-8B и более свежая, но тоже ужасная, DeepSeek-R1-0528-Qwen3-8B.
Популярны так называемые «дистиллированные» модели
Среди тех кто запускает локально, популярна скорее полная противоположность этому утверждению.
Фактологические запросы
Стоит учитывать, что llm это не база данных и не гугл, в 3.3гб нельзя засунуть всю википедию и все знания мира, любые фактологические тесты перевернуться с ног на голову как только будет задан другой вопрос.
Аналитические способности:
Даже крупные модели плохо справляются с задачами, требующими точного анализа данных (например, статистическая обработка результатов тестов). Это указывает на ограниченность локальных LLM в области сложных вычислений и структурированного вывода.
Крупных моделей не было в исследовании.
моделей среднего размера (4–8B). Крупные модели (20B+)
Первые это скорее нано или мини модели, а не среднего размера. Да и 20B - это маленькие модели.
По описанию она использует для ускорения видеокарты RTX прямо через клиент Ollama, без доп ПО, но я не могу этого подтвердить
Ollama всё запускает через CUDA, если карта Nvidia, иначе CPU. Есть проект lemonade, альтернатива для ollama, работает на AMD через Vulkan и Rocm, для Intel через Vulkan. И оба варианта это оболочка над llama.cpp, который умеет запускать любые варианты, и там есть нормальный бенчмарк скорости llama-bench.
В описании к модели gpt-oss:20b сказано, что она задействует видеокарты RTX. При запуске модели ПК начинал больше шуметь, но я не увидел большего потребления ресурсов видеокарты в мониторинге.
В диспетчере задач такая нагрузка не показывается, её нужно смотреть выбрав пункт "cuda", либо запустить nvidia-smi, утилита которая ставится вместе с драйверами Nvidia.
0% общая нагрузка, и 99% нагрузка cuda

Все приведенные модели скачиваются с сайта https://ollama.com/search
Актуальный список моделей точно лучше не брать с сайта ollama, который у них представлен на главной странице. Лучше уж проверить на сайте https://huggingface.co/, что сейчас актуально.
Список моделей актуальный на данный момент:
Mistral - были первыми кто показали, что MoE модели работают отлично, но сами с тех пор не используют MoE, всех их актуальные модели это Dense.
Ministral-8B-Instruct-2410 - размер 8B
Mistral-Small-3.2-24B-2506 - размер 24B
Magistral-Small-2507 - размер 24B
Devstral-Small-2507 - для кода, размер 24B
Mistral-Large-Instruct-2411 - не новая, но до сих пор актуальны её файнтюны, размер 123B
Qwen - в новых версиях разделили размышляющие и не размышляющие модели, чтобы повысить качество каждой. Qwen почти для всех моделей перешел на MoE, тем самым позволяя даже на слабых ПК запускать крупные версии. Наличие малых размеров моделей позволяет их использовать для спекулятивного декодирования, получая больше ускорения. Есть Vision варианты.
Qwen3-4B-Instruct-2507 и Qwen3-4B-Thinking-2507 - размер 4B
Qwen3-30B-A3B-2507 (обычная и размышляющая) - MoE, размер 30B, активных 3B
Qwen3-Coder-30B-A3B - для кода, не размышляющая, размер 30B и активных 3B
Qwen3-Next-80B-A3B (оба варианта) - новая MoE модель с новым гибридным вниманием, размер 80B, активных 3B
Qwen3-235B-A22B (оба варианта) - размер 235B, активных 22B
Qwen3-Coder-480B-A35B - для кода, не размышляющая, размер 480B, активных 35B
OpenAI - зацензурена сильнее, чем GPT-5 на их сайте, много отказов. Есть промпт-джейлбрейк.
gpt-oss-20b - размышляющая MoE, размер 21B, активных 3.6B
gpt-oss-120b - размышляющая MoE, размер 117B, активных 5.1B
GLM - мало известные, но очень качественные MoE-модели с гибридным режимом мышления. Есть GLM-4.5V для Vision.
GLM-4.5-Air - размер 106B, активных параметров 12B
GLM-4.5 - размер 355B, активных параметров 32B.
DeepSeek-R1-0528 - размышляющая MoE, размер 671B, активных 37B
DeepSeek-V3.1 - свежая MoE модель, объединяет размышляющий и не размышляющий режим, размер 671B, активных 37B
Kimi-K2-Instruct-0905 - самая большая локальная модель, размер 1T или 1024B, активных 32B.
Llama - llama4 многими критикуется, но на деле это не плохие модели для не программирования, их большой плюс это скорость работы. Модели идут с поддержкой Vision.
Llama-4-Scout - MoE, размер 109B, активных 17B
Llama-4-Maverick - MoE, размер 400B, активных 17B
в статье уже упоминается gemma-3, начиная от 12B пригодны для использования, в модели встроен Vision
Cohere - модели этой компании подходят не для программирования, а для работы с языками и текстами, вроде перевода, RAG и прочее. Есть варианты Vision.
aya-expanse-8b - dense модель, размер 8B
aya-expanse-32b - размер 32B
command-a-reasoning-08-2025 - размер 111B
ERNIE-4.5-21B-A3B - MoE, размышляющая, размер 21B, активных 3B
ERNIE-4.5-300B-A47B - MoE, размер 300B, активных 47B
Hunyuan-MT-7B - для перевода, размер 7B
Hunyuan-7B-Instruct - обычная модель для чата, размер 7B
Hunyuan-A13B - MoЕ, размер 80B, активных 13B
В список включил и крупные локальные модели, которые уже полноценно могут конкурировать с проприетарными моделями, просто потому что, их можно запускать на домашнем ПК если есть минимально 64гб RAM, или для огромных 192/256гб, которые сейчас стоят не дорого. Подробнее как это сделать:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)
Этим новым методом можно запустить, например, gpt-oss-120B на 15 t/s, GLM-4.5-Air на 14 t/s, deepseek V3.1 на 7 t/s, что для определённых задач вполне пригодно, а Llama-4-Maverick 400B аж на 25 t/s:

Это особенность MoE моделей, для их запуска нужна RAM, а не VRAM. Немного VRAM нужно для разгрузки тензоров внимания, таким образом за счет одной GPU можно получить ускорение. В ollama это не доступно, это доступно напрямую в llama.cpp или хотя бы в LM Studio, где надо активировать галочку "Force Model Expert Weights Onto CPU". После чего на ПК с 64гб RAM и небольшой видеокартой (нужно ~2гб VRAM) можно запускать даже gpt-oss-120B.
Вот так должно выглядеть

И мои выводы, на основе составления исследования:
Тестирование было бы интереснее на актуальном списке моделей, а из актуального получается только gpt-oss-20B и модель для кода Qwen3-Coder-30B-A3B используемая не для кода, хотя есть Qwen3-30B-A3B-Thinking-2507. В те время, когда протестированные модели были актуальны, даже тогда были популярны именно файнтюны этих версий, которые улучшали качество, так как стандартные модели не особо блистали.
Также в список попали 8B модели, но gemma3 почему-то представлена как 4B, что даже если пройдет какие-то тесты, для реального использования такой размер с трудом применим. При этом gemma-3-12b-it-Q4_K_S или gemma-3-12b-it-UD-Q3_K_XL легко влезают в 8гб VRAM используемой 3050. В ollama можно выбрать конкретный квант командой: ollama run hf.co/unsloth/gemma-3-12b-it-GGUF:Q3_K_XL
. Но проще пользоваться LM Studio, запустив там сервер, или напрямую llama.cpp.
Вообще, это довольно популярное явление. Многие видят как обновляются до новых версий ChatGPT, Claude, Gemini, но для локальных моделей они застряли чуть ли не в 2023 году, и даже не догадываются проверить, что там актуальное на данный момент.
Когда комментарий лучше самой статьи...
OpenAI - зацензурена сильнее, чем GPT-5 на их сайте, много отказов.
На самом деле нет, все эти много отказов были в самом начале, когда допиливали ее конвертацию в gguf/mlx ну и саму исправляли косяки ее поддержки в llama-cpp/lm studio/ollama.
В целом, на мой взгляд, в ollama у нее самая фиговая поддержка, она, на мой взгляд, там тормознее работает и когда я ее последний раз там пробовал - у нее были проблемы с тулзами.
Сейчас я ее довольно много каждый день гоняю, правда в основном в агентских задачах, ни разу никаких отказов не было за последний месяц. Запускаю из llama-cpp сервер, изредка из lm studio когда просто чатиться. Если ризонинг включить на максимум, то она очень умная. Но, к сожалению, перестает быть шустрой.
Еще ее большой плюс в том, что у нее сразу параметры 4-х битные. И она в таком виде на уровне, или даже лучше размышляющей Qwen3-30B-A3B 8-и битной, то есть по-факту в 2 с лишним раза меньше места занимает. А Qwen3 модели сильно теряют в качестве при понижении кванта. Насколько я понимаю, gpt-oss-20B специально разрабатывалась чтоб влезать вместе с контекстом в 16ГБ видеопамяти, а gpt-oss-120B - чтоб влезать в одну Nvidia H100
Можно еще упомянуть medgemma - это Gemma3 доученная гуглом на медицинских текстах, их несколько разных размеров и есть версия с vision еще доученная и на мед. снимках.
Большое спасибо за информацию, многое принял к сведению
Спасибо за ваш коментарий. Он очень информативен и полезен.
Внесу небольшое уточнение. В моём случае 64G ram + 12G vram не хватило для запуска gpt-oss-120B. Но всё прекрасно заработало после апгрейда до 128G ram.
А что оптимально именно для быстрого выполнения простых задач ?.
Спарсить текст в JSON , например ....
А на каком железе все это запускалось?
использую ежедневно gpt-oss-20b - лучшее что можно было запустить локально, мне хватает выше крыши, все что тестировал из вашего списка и смотрю постоянно на то что выходит - пока склоняюсь к gpt.
Как у нее с русским? Когда пробовал - было очень не очень (в переводе).
для моих задач нормально, не верные сопряжения встречаются и галлюцинаций может чуть больше, но обычно +- понимаешь что ожидать и это не проблема. если что-то нужно прям изучить то лучше книгу взять или в доки смотреть.
К сожалению, почти все модели на английском/китайском работают заметно лучше, чем на русском (в зависимости от того, кто их учил).
Я был приятно удивлён, когда запустил 8B модельку от яндекса, в дооубчении которой 30% русского и токенайзер подогнанный под русский язык - не смотря на свой размер, она отвечала довольно складно. Но та модель маленькая, я бы от неё многого не ждал. (Яндекс вроде бы её в Алисе использует)
Qwen3 (30B-A3B) хорош с русским - использую для технических вопросов, gemma3 (4B / 12B) тоже хороша - использую для переводов и работы с текстом.
YandexGPT пробовал, но что-то не понравилось (уже и не помню что именно).
У новых Qwen3 моделей с русским все отлично, даже маленьких, например Qwen3-4B-Thinking-2507 если задаешь вопрос на русском, то не только ответ, но и все размышления тоже будут полностью на русском, без английских/китайских вставок.
gpt-oss-20b если спросить на русском, то размышлять она будет на английском, может вставляя русские слова, или фразы, а ответ уже напишет на руссском.
gpt-oss20b прям хорошая по качеству ответов, на уровне 70b - 120b дистилляций. Еще недавно удивился gemma3-1b. Раньше 1b модели считал чем-то постыдным, ну качеством они разумеется не блистали. А эта прям ниче такая, даже на проце бегает шустро. Не скажу, что "умная шибко", но в сравнении с предыдущими (все что менее 12b) - весьма и весьма. На этом фоне я скачал и gemma3-270m, уж куда хуже, хотелось посмотреть, да с ней не поговорить особо, но в качестве простого агента в твоей программе - годится. Раньше агентами приходилось 7b модели дергать крутить. Каждый вызов такого агента - это перегрузка весов с nvme в Vram, а теперь их можно и на процессоре крутить. Да, все через ollama.
Кстати на моих любимых задачах "написать тетрис, змейку и арканоид" gpt-oss20b примерно в половине случаев пишет рабочий код. Не идеальный, с косяками, но поправимыми. Раньше модели даже до 240b писали такой код очень не с первой попытки а примерно одна рабочая программа из 25 по единому промпту. Писали на питоне и html+css в основном.
Все эти модели как бы больше пока для интереса. Мол смогли их запустить. Одиночные задачи, которые тут в тестах были онлайн решаются мгновенно через обычный поисковик (это задача про Ленина) или через ИИ чаты, благо они бесплатные.
Кто то может сказать, мол для стартапа такое самое то будет, но вряд ли кто то будет ожидать у вас ответа минутами. Да еще когда вероятность получения нужного, верного и четкого ответа от 40 процентов.
Онлайн лучше, да, сами в проектах пользуемся гигачатом, там дешевые токены и задачи нормально решает. Но локальные модели рассматриваем, потому что есть запрос на приватность, работу в закрытых сетях, массовую обработку информации, ну и чисто для себя, на что способна локальная LLM/
но вряд ли кто то будет ожидать у вас ответа минутами.
Почему минутами? У меня на ноутбуке gpt-oss-20b на вопрос-ответ генерация 70 токенов в секунду, быстрее чем какой-нибудь GPT-5, или Gemini-2.5 онлайн.
Да еще когда вероятность получения нужного, верного и четкого ответа от 40 процентов.
Смотря что и как спрашивать и какой контекст ей подсунуть, я с галлюцинациями почти не сталкиваюсь. Если спрашивать знания, о мире, или о чем-то еще, чего модель может не знать, высокий шанс на галюцинации только если в промпте ясно не прописать, чтоб отвечала "не знаю" когда есть сомнения. но обычно от небольших локальных моделей знания о мире и не требуются. Обычно используются их способности думать и анализировать, тут тоже может загалюционировать иногда, но в мультиагентах там один агент генерирует, второй делает ревью ответа и если есть вопросы - отдает на доработку, так галлюцинаций практически нет, а без этого они есть и у больших онлайн моделей.
Я наверное задам глупый вопрос, но что из этого сможет работать на Андроид телефоне или планшете, скажем, не флагмане?
Вопрос прайвеси и плохой связи. Если все совсем плохо, то допускается подключение к "своему" серверу, но хотелось бы полностью локально.
https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery или на github тоже самое https://github.com/google-ai-edge/gallery - если ставить например на Huawei
На флагмане то сомневаюсь, что возможно.
Есть способ сборки llama.cpp на андроид (например, по инструкции отсюда: https://www.reddit.com/r/LocalLLaMA/comments/1moabey/comment/n8ccxt8/?utm_source=share&utm_medium=mweb3x&utm_name=mweb3xcss&utm_term=1&utm_content=share_button), и в целом это будет отлично работать, но учитывайте, что на телефонах очень небольшие RAM и многие модели придется сильно квантифицировать (уменьшать точность весов, облегчая модель и уменьшая качество работы) либо выбирать очень небольшие модели. Мне удавалось использовать максимум 7b модели в квантификациях q5_k_l (то есть веса используют 5 бит, кроме входных и выходных, которые используют 8 бит), оптимально использовать 4b модели типа той же gemma, которую упоминали в статье
А, ну и у gemma3 даже у 4b модели есть возможность мультимодальности (а именно, она может принимать в качестве запроса ещё и картинки), правда локально на планшете запускать и мультимодалки что-то очень долго
Нужно от 8ГБ памяти на телефоне и процессор последних поколений, работают терпимо модели на 4B, на 16ГБ можно запустить модель на 8B (gemma3 или qwen3).
Очень хороший обзор, спасибо !
Проделана колоссальная работа, спасибо!
Потрясающая работа. Я конечно не сомневался в квине, уже как пол года его использую, но это по наитию, а тут пруфы подъехали.
А такое же, только для агентов можно?
deepseek-r1:8b - сущая пытка. Думает долго, отвечает плохо. Видимо ее в опенсорс выкатили очень сырой, раньше она вообще постоянно сбивалась на китайский язык, сейчас получше, но все еще очень плохо относительно других.
Кажется 8b это дистилляция
Локальные LLM модели: обзор и тестирование