Pull to refresh

Comments 15

Добавил шаблон в статью

Надо же, сколько упихали туда. Вот еще минусы:

  1. Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.

  2. Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.

Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.

  1. У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).

  2. Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.

Silly Tavern. Фронтэнд для чатботов, тоже для роллплея, но с более удобным UX

А есть ли возможность реализовать умный дом на основе этого?

Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.

Возможно, я не расчувствовал прелесть KoboldCPP.

Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.

Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.

Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.

Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.

В целом - мощный гайд. Спасибо!

сравнение производительности CPU vs GPU:

На сбалансированном игровом ПК соотношение будет такое: на GPU X токенов в секунду, на CPU 2X токенов в час.

А вообще производительность можно разгонять сколько угодно, жертвуя для этого трудноизмеримым качеством. Но в итоге фигня получится, зато быстрая.

А шуткую я потому, что между CPU и GPU есть несколько промежуточных вариантов, когда часть операций делается на одном устройстве, а часть на другом. Использовать только CPU - это мрак.

О, нашёл цифры.

Может, наоборот 2x токенов на GPU?

Метрика потери качества при квантовании вполне существует и называется KLD

Существует. Ещё существует консенсус на форумах, что эти математические метрики плохо коррелируют с человеческим пониманием "качества". Они не отражают того как модель в какой-то момент начинает нести вроде бы логичную, но чушь, или повторять одно и то же разными словами.

Ещё год назад за достойное ролевое общение приходилось платить

Год назад соотношение качества локальной LLM и Clause было такое же, как сейчас: оба выросли.

MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD

Полезен. Правда работает только на Ябле, на винде игнорируется.

Мне такие инструкции почему-то напоминают темы "Кастомные сборки Windows от..." на Rutracker и "Лаунчер для Android от..." на 4pda в 2000-ных.

Sign up to leave a comment.

Articles