GiantLynx Jul 7 at 10:27

KoboldCpp — нейросеть для развлечений и работы у нас дома

Easy

16 min

14K

SoftwareArtificial IntelligenceMachine learning *

Tutorial

+35

Comments 17

eps Jul 7 at 11:30

Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков

GiantLynx Jul 7 at 13:52

Добавил шаблон в статью

Moog_Prodigy Jul 7 at 12:37

Надо же, сколько упихали туда. Вот еще минусы:

Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.
Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.

Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.

GiantLynx Jul 7 at 13:14

У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.

glefory Jul 11 at 09:26

А что за ST?

GiantLynx Jul 11 at 09:27

Silly Tavern. Фронтэнд для чатботов, тоже для роллплея, но с более удобным UX

Bikedu Jul 7 at 13:05

А есть ли возможность реализовать умный дом на основе этого?

GiantLynx Jul 7 at 13:17

Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.

eps Jul 7 at 13:36

Возможно, я не расчувствовал прелесть KoboldCPP.

Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.

Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.

Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.

whileTrueCry Jul 7 at 16:30

Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.

В целом - мощный гайд. Спасибо!

MountainGoat Jul 7 at 18:20

сравнение производительности CPU vs GPU:

На сбалансированном игровом ПК соотношение будет такое: на GPU X токенов в секунду, на CPU 2X токенов в час.

А вообще производительность можно разгонять сколько угодно, жертвуя для этого трудноизмеримым качеством. Но в итоге фигня получится, зато быстрая.

А шуткую я потому, что между CPU и GPU есть несколько промежуточных вариантов, когда часть операций делается на одном устройстве, а часть на другом. Использовать только CPU - это мрак.

О, нашёл цифры.

GiantLynx Jul 7 at 18:29

Может, наоборот 2x токенов на GPU?

Метрика потери качества при квантовании вполне существует и называется KLD

MountainGoat Jul 7 at 18:34

Существует. Ещё существует консенсус на форумах, что эти математические метрики плохо коррелируют с человеческим пониманием "качества". Они не отражают того как модель в какой-то момент начинает нести вроде бы логичную, но чушь, или повторять одно и то же разными словами.

MountainGoat Jul 7 at 18:16

Ещё год назад за достойное ролевое общение приходилось платить

Год назад соотношение качества локальной LLM и Clause было такое же, как сейчас: оба выросли.

MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD

Полезен. Правда работает только на Ябле, на винде игнорируется.

Moog_Prodigy Jul 13 at 00:04

На винде полезен, но если не говорить про кобольд (я про него не знаю). Дипсик запускал через mmap с 128 RAM, почитай на проце все крутилось. m2 2 тб нвме, ползало со скоростью улитоса но работало же. Ему нужно полтора терабайта ОЗУ, что мало кто себе может позволить, а нвме доступны.

MountainGoat Jul 13 at 14:21

У кобольда в справке написано, что ключ mmap на винде игнорируется.

savostin Jul 7 at 19:02

Мне такие инструкции почему-то напоминают темы "Кастомные сборки Windows от..." на Rutracker и "Лаунчер для Android от..." на 4pda в 2000-ных.