Search
Write a publication
Pull to refresh

Comments 17

Добавил шаблон в статью

Надо же, сколько упихали туда. Вот еще минусы:

  1. Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.

  2. Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.

Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.

  1. У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).

  2. Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.

Silly Tavern. Фронтэнд для чатботов, тоже для роллплея, но с более удобным UX

А есть ли возможность реализовать умный дом на основе этого?

Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.

Возможно, я не расчувствовал прелесть KoboldCPP.

Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.

Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.

Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.

Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.

В целом - мощный гайд. Спасибо!

сравнение производительности CPU vs GPU:

На сбалансированном игровом ПК соотношение будет такое: на GPU X токенов в секунду, на CPU 2X токенов в час.

А вообще производительность можно разгонять сколько угодно, жертвуя для этого трудноизмеримым качеством. Но в итоге фигня получится, зато быстрая.

А шуткую я потому, что между CPU и GPU есть несколько промежуточных вариантов, когда часть операций делается на одном устройстве, а часть на другом. Использовать только CPU - это мрак.

О, нашёл цифры.

Может, наоборот 2x токенов на GPU?

Метрика потери качества при квантовании вполне существует и называется KLD

Существует. Ещё существует консенсус на форумах, что эти математические метрики плохо коррелируют с человеческим пониманием "качества". Они не отражают того как модель в какой-то момент начинает нести вроде бы логичную, но чушь, или повторять одно и то же разными словами.

Ещё год назад за достойное ролевое общение приходилось платить

Год назад соотношение качества локальной LLM и Clause было такое же, как сейчас: оба выросли.

MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD

Полезен. Правда работает только на Ябле, на винде игнорируется.

На винде полезен, но если не говорить про кобольд (я про него не знаю). Дипсик запускал через mmap с 128 RAM, почитай на проце все крутилось. m2 2 тб нвме, ползало со скоростью улитоса но работало же. Ему нужно полтора терабайта ОЗУ, что мало кто себе может позволить, а нвме доступны.

У кобольда в справке написано, что ключ mmap на винде игнорируется.

Мне такие инструкции почему-то напоминают темы "Кастомные сборки Windows от..." на Rutracker и "Лаунчер для Android от..." на 4pda в 2000-ных.

Sign up to leave a comment.

Articles