Comments 13
У KoboldCPP есть параметры командной строки --flashattention --quantkv 2 которые сильно сокращают потребление памяти, и помогают уместить больше на видеокарту. Они выключены по умолчанию потому что работают не со всеми моделями. Не знаю, доступны ли они через GUI - не пользуюсь.
Судя по разделу "Выбор пресета для генерации" статья лежала в черновиках больше года. От этих настроек давно отказались, там совсем другие сэмплеры уже.
Брать действия в звёздочки имеет смысл только если пишешь пьесу, и действия редкие и короткие. Если брать в звёздочки целые абзацы, у LLM тратится внимание впустую.
Буду очень рад новым метам по пресетам генерации!
--quantkv действительно даёт прирост скорости, но ценой тому отключение ContextShift, эти две опции несовместимы. Более старая совместимая реализация в виде SmartContext, резервирует под себя половину свободной памяти отданной под контекст, если у вас он был 4096, фактически будет работать как 2048, что не очень хорошо.
В принципе можно отключить любую дополнительную работу с контекстом на уровне бекэнда, а проблему "мгновенного забывания" пробовать решить на уровне клиента.
К примеру на SL существует расширение с названием Summarize, оно раз в N(подбирается под размер контекста) сообщений пытается "подытожить" все что лежит в памяти, собрать в один текст и далее уже подсовывать его нейронке в начале каждого сообщения(по сути что-то похожее делает SmartContext). В целом оно даже как-то работает, но иногда может "подытожить" откровенную чепуху от которой бот начнет дурить.
На моей локальной машине с 16vram 64 ram рам, при использовании тяжелой 20b_Q5 модели, от "--quantkv 2" я получаю прирост скорости на бенчмарке где-то с 6.5T/s до 8T/s, приятно но не то что бы имело значение. Более легкие 13b модели растут с условных 40T/s до 50T/s. Опять же приятно, но не сильно влияет на пользовательский опыт.
По моим тестам включение --flashattention сильно замедляет вычисления (особенно заметно на CPU т.к. на видеокарте обычно ограничивает не вычислительная мощность, а скорость обращения к памяти), хоть и сокращает объем потребной видеопамяти. Это имеет смысл, если в результате получается сильно сократить количество слоев, которые будут считаться на CPU (или вообще запихать модель в видеопамять целиком). В противном случае - может получиться даже проигрыш по скорости генерации.
Рискну оставить ссылку на свою старую хабрастатью: GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу? - там прям есть раздел про выбор моделей под ролеплей, можно посмотреть.
Т.к. держу тот самый облачный сервис с ЛЛМ-ками (интеграция с SillyTavern есть), то скажу про апдейты к статье, которые я бы внес сейчас:
Если вы не трогаете потенциально проблемных этических тем - Sonnet 3.5 рулит, прям топ-топ-топ.
Если вы периодически наталкиваетесь на нежелание модели отвечать, то ваш путь по-прежнему в опенсорс сети:
Я уже отказался от идеи переводить "налету", имхо опенсорсные сети действительно стали выдавать очень неплохие ответы на русском языке, можно работать без переводчика.
Для локального запуска или запуска с малыми ресурсами рекомендую Google Gemma-9B или какой-нибудь тюн Mistral 12B Nemo - например, у Ильи Гусева вышла довольно прикольная Saiga-Nemo 12B.
Из больших моделей (которые лучше через API дергать, а то на своей машине не взлетит или очень медленно будет:
EVA Qwen 72B
Hermes 3 405B Instruct - это вообще тюн 405B модели.
(из чуть более старого) WizardLM-2 8x22B
Я прочитал почти все, чтобы понять, о чем вообще речь, может тут 3D какое есть ? Вернулся в начало. Нет, все текстовое. Общаться с нейросетями на разные фентези. Понятно.
Есть такой forumd , на нём центрируются другие форумы с такой же тематикой. Но там хотя бы все живые. Может, пока среди живых остаться ?
Не обязательно общаться на разные фентези, можно не давать ей личность персонажа или написать «коллега по работе, знает много историй и любит обсуждать книги». И получить отличного собеседника с которым можно обсудить Толстого, Достоевского или Толкиена.
Можно её попросить описать все настройки в силл таверн)) или другой программы, если она о ней знает, чтобы знать что и за что отвечает. Спросить как натренировать свою модель, какие лучше использовать материалы. Как натренировать Lore для генерации видео или картинок. Даже можно попросить ее написать промт для генерации картинки по твоему описанию))
А вчера вообще попросил создать сценарий для рп в звездных войнах с Асокой Тано, и за полчаса дискуссий перетянул ее на темную сторону, потому что у нас есть печеньки...
Так что оставаться среди живых или перейти на сторону ии это выбор каждого)) и никто не мешает делать это и там, и там...
да в принципе согласен. Немного ретроспективы: Мы же на Хабре , здесь можно говорить свободно ( :) :) :) -- минутка юмора ) хотя бы технические темы, почти в тему статьи.
На том форумд, где все "живые", никаких подлых сетей, админ самый-самый, говорит тег iframe старый никому не нужен давно, у него куча ограничений. Я показываю страницу с ацкой фотогалереей, где все на на jQuery , сложная анимация в 3D . Я ставлю страницу в внутрь irfame, приклеиваю еще сверху анимации 3D . И все работает ! Все шевелится.
И что я получил от живого админа : минус в репу. Подверг атаке ее ЧСВ.
Поэтому, я скорее соглашусь, живой мир мертвых нейросеток гораздо притягательнее.
Насколько я понимаю, сейчас вполне можно:
Сказать фразу, и перевести его в текст
Текст подсунуть LLM и получить обратную реплику
Это реплику озвучить на основе чьего-то голоса
Звук скормить во что-то оживляющее портрет и делающее lipsync
Фактически получится реальный живой собеседник с настраиваемым внешним видом и голосом.
Для такого SilverTavern нужен? Там вроде есть модули типа wav2lip. И доступ через API.
В идеале бы вообще вместо "речь в текст" скармливать сразу мультимодальной модели, чтобы и интонации понимала... Насколько реально такое замутить, связав модели и модули через API? Или все намного сложнее, чем кажется?
Такое уже было сделано, да. Читал где-то статью (возможно, даже здесь, на Хабре), в которой чел описывал похожую схему. У него ещё был репозиторий на Гитхабе. Короче, там довольно бодро отвечала Эмма Уотсон на русском языке. Задержка буквально секундная, не больше. К сожалению, найти не могу ссылку.
Если общаться с AI на английском то насколько важно точное "попадание" в грамматику и правописание для понимания моего текста?
А какой есть интерфейс для браузера? Или уже есть готовое для запуска в докере?
РП с нейросетью. Общайся со своей вайфу о чем угодно. Часть 1: легкий вкат