Комментарии 7
Конечно надо пробовать, но мне кажется что полагаться в работе и инструментах на некоторые "хаки" пусть и с официальных релизов - это так себе идея. Завтра Anthropic выпустит релиз где это запретит и что все будут делать? К тому же есть альтернатива ввиде OpenCode и других, может быть лучше тратить силы на допиливание открытых инструментов?
Казалось бы, причем тут хаб "Разработка игр". Ах да, для лучшего охвата...
По-моему, разрабам игр в том числе это полезно.. я не "гуру", но ollama "пользую почти год на простом ноуте... И знакомый по мобильным "донпомойкам" часто прибегает к подобному.
А они что нибудь сделали с тем, что у них генерация на локальных моделях чуть ли не в два раза ниже чем в аналогичных продуктах? Или до сих пор так и занимаются монетизацией чтобы затащить побольше народу в своё облако с довольно странными лимитами на платных тарифах?
По скорости — да, отставание системное, но есть подвижки
В марте 2026 года вышло сравнение движков «The Great LLM Inference Engine Showdown» . Вот такие цифры "нарыл":
vLLM, SGLang на A100/H100 — 1000–2000 токенов/с.
TensorRT-LLM — 2500–4000+ токенов/с.
Ollama — характеристика «низкая», вердикт «не продакшен-решение для сервинга». Чисто так, для справки: "Ollama нельзя ставить за балансировщик нагрузки и использовать как боевой API-эндпоинт для множества одновременных пользователей."
Причина архитектурная: Ollama — надстройка над llama.cpp, заточенная под простоту локального запуска, а не под максимальную утилизацию GPU.
Но работу над скоростью не забросили. В патче v0.23.1 добавили поддержку Gemma 4 MTP — multi-token prediction, один из вариантов спекулятивной расшифровки. Разработчики заявляют более чем двукратный прирост скорости для Gemma 4 31B на Mac, особенно на кодовых задачах . Пока точечно, не системно, но направление задано.
По монетизации — локальная версия никуда не делась...
Ollama Cloud действительно существует с апреля 2026.
Тарифы, про которые я уже где-то писал, не совсем "драконовские":
Free — с жёсткими дневными квотами, чисто попробовать.
Pro (~$20/мес) — инди-разработка и прототипы, лимиты расширены, но фиксированы.
Pro Max (~$200/мес) — продакшен-квоты, приоритетный доступ.
Лимиты уже меняли дважды с выхода из беты, и обозреватели отмечают: «ограничения важнее заявленной цены» .
Квоты плавающие — тут ты прав.
Но локальный Ollama бесплатен и полностью автономен. Модели крутятся на твоём железе, никаких подписок, никакой телеметрии в облако. Это не фримиум-ловушка — это два разных продукта под одним брендом.
Подведу черту:
Скорость инференса на высоконагруженных сценариях — больное место, признаю. Но точечные оптимизации идут. Облако с меняющимися лимитами — факт, но локальный движок никто не сворачивает.

Ollama 0.23: Claude Desktop теперь запускается из терминала. Без бубна