Обновить

Ollama 0.23: Claude Desktop теперь запускается из терминала. Без бубна

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.2K
Всего голосов 1: ↑1 и ↓0+1
Комментарии7

Комментарии 7

Конечно надо пробовать, но мне кажется что полагаться в работе и инструментах на некоторые "хаки" пусть и с официальных релизов - это так себе идея. Завтра Anthropic выпустит релиз где это запретит и что все будут делать? К тому же есть альтернатива ввиде OpenCode и других, может быть лучше тратить силы на допиливание открытых инструментов?

всё меняется в этом мире бренном, а уж в цифровом мире. Я лично уже не успеваю за новостями, если честно. Старый, что ли.. ))

Казалось бы, причем тут хаб "Разработка игр". Ах да, для лучшего охвата...

По-моему, разрабам игр в том числе это полезно.. я не "гуру", но ollama "пользую почти год на простом ноуте... И знакомый по мобильным "донпомойкам" часто прибегает к подобному.

Это полезно знать так же, как и любой инструмент, которым потенциально могут пользоваться, вроде IDE или языка программирования. Речь о том, что тут в новости нет ничего, что касалось бы разработки игр.

А они что нибудь сделали с тем, что у них генерация на локальных моделях чуть ли не в два раза ниже чем в аналогичных продуктах? Или до сих пор так и занимаются монетизацией чтобы затащить побольше народу в своё облако с довольно странными лимитами на платных тарифах?

По скорости — да, отставание системное, но есть подвижки

В марте 2026 года вышло сравнение движков «The Great LLM Inference Engine Showdown» . Вот такие цифры "нарыл":

  • vLLM, SGLang на A100/H100 — 1000–2000 токенов/с.

  • TensorRT-LLM — 2500–4000+ токенов/с.

  • Ollama — характеристика «низкая», вердикт «не продакшен-решение для сервинга». Чисто так, для справки: "Ollama нельзя ставить за балансировщик нагрузки и использовать как боевой API-эндпоинт для множества одновременных пользователей."

Причина архитектурная: Ollama — надстройка над llama.cpp, заточенная под простоту локального запуска, а не под максимальную утилизацию GPU.

Но работу над скоростью не забросили. В патче v0.23.1 добавили поддержку Gemma 4 MTP — multi-token prediction, один из вариантов спекулятивной расшифровки. Разработчики заявляют более чем двукратный прирост скорости для Gemma 4 31B на Mac, особенно на кодовых задачах . Пока точечно, не системно, но направление задано.

По монетизации — локальная версия никуда не делась...

Ollama Cloud действительно существует с апреля 2026.
Тарифы, про которые я уже где-то писал, не совсем "драконовские":

  • Free — с жёсткими дневными квотами, чисто попробовать.

  • Pro (~$20/мес) — инди-разработка и прототипы, лимиты расширены, но фиксированы.

  • Pro Max (~$200/мес) — продакшен-квоты, приоритетный доступ.

Лимиты уже меняли дважды с выхода из беты, и обозреватели отмечают: «ограничения важнее заявленной цены» .
Квоты плавающие — тут ты прав.

Но локальный Ollama бесплатен и полностью автономен. Модели крутятся на твоём железе, никаких подписок, никакой телеметрии в облако. Это не фримиум-ловушка — это два разных продукта под одним брендом.

Подведу черту:

Скорость инференса на высоконагруженных сценариях — больное место, признаю. Но точечные оптимизации идут. Облако с меняющимися лимитами — факт, но локальный движок никто не сворачивает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации