mistral:7b
llama3.1:8b
qwen3:8b

Первая древность 2023 года, вторая - 2024 года. В qwen3 мышление отключается добавлением в промпт /no_think, но модель уже не актуальна сама по себе, только для спекулятивного декодирования.

deepseek-r1:8b - сущая пытка. Думает долго, отвечает плохо.

Это такой эксперимент с файнтюном, который имеет слабое отношения к реальному использованию и качеству оригинальной DeepSeek R1.
Но пользуясь ollama вы никогда не знаете, что именно они спрятали под названием deepseek-r1:8b. Есть и ужасная DeepSeek-R1-Distill-Llama-8B и более свежая, но тоже ужасная, DeepSeek-R1-0528-Qwen3-8B.

Популярны так называемые «дистиллированные» модели

Среди тех кто запускает локально, популярна скорее полная противоположность этому утверждению.

Фактологические запросы

Стоит учитывать, что llm это не база данных и не гугл, в 3.3гб нельзя засунуть всю википедию и все знания мира, любые фактологические тесты перевернуться с ног на голову как только будет задан другой вопрос.

Аналитические способности:
Даже крупные модели плохо справляются с задачами, требующими точного анализа данных (например, статистическая обработка результатов тестов). Это указывает на ограниченность локальных LLM в области сложных вычислений и структурированного вывода.

Крупных моделей не было в исследовании.

моделей среднего размера (4–8B). Крупные модели (20B+)

Первые это скорее нано или мини модели, а не среднего размера. Да и 20B - это маленькие модели.

По описанию она использует для ускорения видеокарты RTX прямо через клиент Ollama, без доп ПО, но я не могу этого подтвердить

Ollama всё запускает через CUDA, если карта Nvidia, иначе CPU. Есть проект lemonade, альтернатива для ollama, работает на AMD через Vulkan и Rocm, для Intel через Vulkan. И оба варианта это оболочка над llama.cpp, который умеет запускать любые варианты, и там есть нормальный бенчмарк скорости llama-bench.

В описании к модели gpt-oss:20b сказано, что она задействует видеокарты RTX. При запуске модели ПК начинал больше шуметь, но я не увидел большего потребления ресурсов видеокарты в мониторинге.

В диспетчере задач такая нагрузка не показывается, её нужно смотреть выбрав пункт "cuda", либо запустить nvidia-smi, утилита которая ставится вместе с драйверами Nvidia.

0% общая нагрузка, и 99% нагрузка cuda

Все приведенные модели скачиваются с сайта https://ollama.com/search

Актуальный список моделей точно лучше не брать с сайта ollama, который у них представлен на главной странице. Лучше уж проверить на сайте https://huggingface.co/, что сейчас актуально.

Список моделей актуальный на данный момент:

В список включил и крупные локальные модели, которые уже полноценно могут конкурировать с проприетарными моделями, просто потому что, их можно запускать на домашнем ПК если есть минимально 64гб RAM, или для огромных 192/256гб, которые сейчас стоят не дорого. Подробнее как это сделать:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Этим новым методом можно запустить, например, gpt-oss-120B на 15 t/s, GLM-4.5-Air на 14 t/s, deepseek V3.1 на 7 t/s, что для определённых задач вполне пригодно, а Llama-4-Maverick 400B аж на 25 t/s:

Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL

Это особенность MoE моделей, для их запуска нужна RAM, а не VRAM. Немного VRAM нужно для разгрузки тензоров внимания, таким образом за счет одной GPU можно получить ускорение. В ollama это не доступно, это доступно напрямую в llama.cpp или хотя бы в LM Studio, где надо активировать галочку "Force Model Expert Weights Onto CPU". После чего на ПК с 64гб RAM и небольшой видеокартой (нужно ~2гб VRAM) можно запускать даже gpt-oss-120B.

Вот так должно выглядеть

И мои выводы, на основе составления исследования:

Тестирование было бы интереснее на актуальном списке моделей, а из актуального получается только gpt-oss-20B и модель для кода Qwen3-Coder-30B-A3B используемая не для кода, хотя есть Qwen3-30B-A3B-Thinking-2507. В те время, когда протестированные модели были актуальны, даже тогда были популярны именно файнтюны этих версий, которые улучшали качество, так как стандартные модели не особо блистали.

Также в список попали 8B модели, но gemma3 почему-то представлена как 4B, что даже если пройдет какие-то тесты, для реального использования такой размер с трудом применим. При этом gemma-3-12b-it-Q4_K_S или gemma-3-12b-it-UD-Q3_K_XL легко влезают в 8гб VRAM используемой 3050. В ollama можно выбрать конкретный квант командой: ollama run hf.co/unsloth/gemma-3-12b-it-GGUF:Q3_K_XL. Но проще пользоваться LM Studio, запустив там сервер, или напрямую llama.cpp.

Вообще, это довольно популярное явление. Многие видят как обновляются до новых версий ChatGPT, Claude, Gemini, но для локальных моделей они застряли чуть ли не в 2023 году, и даже не догадываются проверить, что там актуальное на данный момент.