Search
Write a publication
Pull to refresh
43
8.5

LLM fan / enjoyer

Send message

Я уверен, что в будущем в ChatGPT (и следом - в других чатботах) просто добавят отключаемую функцию Prompt Enhancer. Хочешь - пиши fine-grain длинный промпт вручную, если нужен микроконтроль, а если нет желания или навыков заморачиваться - ИИ сам преобразует короткий в детальный и даже покажет превью.

Такой подход, правда, к генерации картинок, уже используется в Fooocus, где можно написать короткий промпт, вроде "ginger cat", а встроенный улучшайзер промпта сам добавит все нужные волшебные слова (realistic, best lightning, fine details и тд) чтобы картинка сразу вышла смотрибельной.

Silly Tavern. Фронтэнд для чатботов, тоже для роллплея, но с более удобным UX

Может, наоборот 2x токенов на GPU?

Метрика потери качества при квантовании вполне существует и называется KLD

Добавил шаблон в статью

Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.

  1. У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).

  2. Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.

Не опровергая основную мысль коммента целиком, есть важный нюанс. Ещё в 2023 году ChatGPT-3.5 проходила 44% MMLU и имела около 154 миллиардов параметров. В 2024 llama-3-70b достигла 68% MMLU, обгоняя GPT-4o mini.

Количество флопсов доступных локально обычному юзеру тоже постоянно, хоть и медленнее, растёт, как и цена облачного GPU хостинга.

Это лишь вопрос времени когда каждый ИИ-энтузиаст сможет хостить модель уровня Claude Sonnet у себя на пэке. Конечно, и облачные модели к тому времени пойдут вперёд, но слух что "домашние" модели всегда будут недотыкомками слегка преувеличен.

Круто, спасибо! Век живи, век учись.

Это возможно, но НЕ с LM Studio (и вообще не с программой основанной на llama.cpp, т.е. Ollama тоже не подойдёт) и не с квантоваными GGUF файлами. Для домашней многокарты используются исходники в формате .safetensors и прописываются настройки на vLLM.
Если я не прав и кто-то знает способ - поправьте.

Автор не является вашим личным гладиатором и не ставит перед собой цели носить каштаны из огня ради недостаточно впечатленных комментаторов. Инструкции в статье просты в исполнении и если вместо вынесения для себя пользы из статьи (а она несомненно есть) - вы сетуете, что вас недостаточно сильно впечатлили на скриншотах, "а пруфы будут", "а слабо" - то да, эта статья не для вас и можете написать свою, с нотариально заверенными пруфами. Я буду только рад.

Не совсем понятна суть претензии. Инструкции из статьи можно воспроизвести самому за минуту - задавайте себе на здоровье любые интересующие вопросы.
А никакой ответственный автор не будет ради "хайпа, респекта, уважухи и пруфов перед пацанами" подставляться напрямую публично показывая инструкции как совершить что-то противозаконное. Не говоря уже о том, что это нарушение правил хабра.

Храню как память свои генерации из 2022 года. Это, правда, не LLM, а диффузионка, но напоминание, что темпы развития нейросетей могут огорошить. Через максиму 3-4 года, а то и раньше у каждого, кто сможет себе позволить станцию за 2000-3000 долларов будет свой домашний ChatGPT-4o

Системный промпт может помочь)))

Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.

Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.

Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.

Я не занимаюсь этичным хакингом, но можно попробовать Dolphin-2.7 Mixtral-8x7B и OpenHermes-2.5 Mistral-7B. У них минимум фильтров

Это про ретро и классику! Переделал обзор LLM на самые актуальные.

Начать стоит с того, что мы с вами на брудершафт не пили.
Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.

Добавил блок про железо в статью.
Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.

1

Information

Rating
75-th
Registered
Activity

Specialization

Fullstack Developer, Prompt Engineer
Senior
From 12,000 €
Python
English
REST
SQL
Linux
LLM
Reinforcement learning
NLP