Comments 17
Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков
Надо же, сколько упихали туда. Вот еще минусы:
Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.
Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.
Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.
У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.
А что за ST?
А есть ли возможность реализовать умный дом на основе этого?
Возможно, я не расчувствовал прелесть KoboldCPP.
Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.
Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.
Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.
Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.
В целом - мощный гайд. Спасибо!
сравнение производительности CPU vs GPU:
На сбалансированном игровом ПК соотношение будет такое: на GPU X токенов в секунду, на CPU 2X токенов в час.
А вообще производительность можно разгонять сколько угодно, жертвуя для этого трудноизмеримым качеством. Но в итоге фигня получится, зато быстрая.
А шуткую я потому, что между CPU и GPU есть несколько промежуточных вариантов, когда часть операций делается на одном устройстве, а часть на другом. Использовать только CPU - это мрак.
Ещё год назад за достойное ролевое общение приходилось платить
Год назад соотношение качества локальной LLM и Clause было такое же, как сейчас: оба выросли.
MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD
Полезен. Правда работает только на Ябле, на винде игнорируется.
На винде полезен, но если не говорить про кобольд (я про него не знаю). Дипсик запускал через mmap с 128 RAM, почитай на проце все крутилось. m2 2 тб нвме, ползало со скоростью улитоса но работало же. Ему нужно полтора терабайта ОЗУ, что мало кто себе может позволить, а нвме доступны.
Мне такие инструкции почему-то напоминают темы "Кастомные сборки Windows от..." на Rutracker и "Лаунчер для Android от..." на 4pda в 2000-ных.
KoboldCpp — нейросеть для развлечений и работы у нас дома