Comments 15
Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков
Надо же, сколько упихали туда. Вот еще минусы:
Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.
Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.
Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.
У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.
А что за ST?
А есть ли возможность реализовать умный дом на основе этого?
Возможно, я не расчувствовал прелесть KoboldCPP.
Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.
Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.
Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.
Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.
В целом - мощный гайд. Спасибо!
сравнение производительности CPU vs GPU:
На сбалансированном игровом ПК соотношение будет такое: на GPU X токенов в секунду, на CPU 2X токенов в час.
А вообще производительность можно разгонять сколько угодно, жертвуя для этого трудноизмеримым качеством. Но в итоге фигня получится, зато быстрая.
А шуткую я потому, что между CPU и GPU есть несколько промежуточных вариантов, когда часть операций делается на одном устройстве, а часть на другом. Использовать только CPU - это мрак.
Ещё год назад за достойное ролевое общение приходилось платить
Год назад соотношение качества локальной LLM и Clause было такое же, как сейчас: оба выросли.
MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD
Полезен. Правда работает только на Ябле, на винде игнорируется.
Мне такие инструкции почему-то напоминают темы "Кастомные сборки Windows от..." на Rutracker и "Лаунчер для Android от..." на 4pda в 2000-ных.
KoboldCpp — нейросеть для развлечений и работы у нас дома