Я уверен, что в будущем в ChatGPT (и следом - в других чатботах) просто добавят отключаемую функцию Prompt Enhancer. Хочешь - пиши fine-grain длинный промпт вручную, если нужен микроконтроль, а если нет желания или навыков заморачиваться - ИИ сам преобразует короткий в детальный и даже покажет превью.
Такой подход, правда, к генерации картинок, уже используется в Fooocus, где можно написать короткий промпт, вроде "ginger cat", а встроенный улучшайзер промпта сам добавит все нужные волшебные слова (realistic, best lightning, fine details и тд) чтобы картинка сразу вышла смотрибельной.
Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.
У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.
Не опровергая основную мысль коммента целиком, есть важный нюанс. Ещё в 2023 году ChatGPT-3.5 проходила 44% MMLU и имела около 154 миллиардов параметров. В 2024 llama-3-70b достигла 68% MMLU, обгоняя GPT-4o mini.
Количество флопсов доступных локально обычному юзеру тоже постоянно, хоть и медленнее, растёт, как и цена облачного GPU хостинга.
Это лишь вопрос времени когда каждый ИИ-энтузиаст сможет хостить модель уровня Claude Sonnet у себя на пэке. Конечно, и облачные модели к тому времени пойдут вперёд, но слух что "домашние" модели всегда будут недотыкомками слегка преувеличен.
Это возможно, но НЕ с LM Studio (и вообще не с программой основанной на llama.cpp, т.е. Ollama тоже не подойдёт) и не с квантоваными GGUF файлами. Для домашней многокарты используются исходники в формате .safetensors и прописываются настройки на vLLM. Если я не прав и кто-то знает способ - поправьте.
Автор не является вашим личным гладиатором и не ставит перед собой цели носить каштаны из огня ради недостаточно впечатленных комментаторов. Инструкции в статье просты в исполнении и если вместо вынесения для себя пользы из статьи (а она несомненно есть) - вы сетуете, что вас недостаточно сильно впечатлили на скриншотах, "а пруфы будут", "а слабо" - то да, эта статья не для вас и можете написать свою, с нотариально заверенными пруфами. Я буду только рад.
Не совсем понятна суть претензии. Инструкции из статьи можно воспроизвести самому за минуту - задавайте себе на здоровье любые интересующие вопросы. А никакой ответственный автор не будет ради "хайпа, респекта, уважухи и пруфов перед пацанами" подставляться напрямую публично показывая инструкции как совершить что-то противозаконное. Не говоря уже о том, что это нарушение правил хабра.
Храню как память свои генерации из 2022 года. Это, правда, не LLM, а диффузионка, но напоминание, что темпы развития нейросетей могут огорошить. Через максиму 3-4 года, а то и раньше у каждого, кто сможет себе позволить станцию за 2000-3000 долларов будет свой домашний ChatGPT-4o
Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.
Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки. Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.
Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.
Начать стоит с того, что мы с вами на брудершафт не пили. Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше. Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.
Добавил блок про железо в статью. Я собирал компьютер полгода назад, ещё до выхода RTX 50xx. Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.
Я уверен, что в будущем в ChatGPT (и следом - в других чатботах) просто добавят отключаемую функцию Prompt Enhancer. Хочешь - пиши fine-grain длинный промпт вручную, если нужен микроконтроль, а если нет желания или навыков заморачиваться - ИИ сам преобразует короткий в детальный и даже покажет превью.
Такой подход, правда, к генерации картинок, уже используется в Fooocus, где можно написать короткий промпт, вроде "ginger cat", а встроенный улучшайзер промпта сам добавит все нужные волшебные слова (realistic, best lightning, fine details и тд) чтобы картинка сразу вышла смотрибельной.
В голосину
Silly Tavern. Фронтэнд для чатботов, тоже для роллплея, но с более удобным UX
Может, наоборот 2x токенов на GPU?
Метрика потери качества при квантовании вполне существует и называется KLD
Добавил шаблон в статью
Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.
У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.
Не опровергая основную мысль коммента целиком, есть важный нюанс. Ещё в 2023 году ChatGPT-3.5 проходила 44% MMLU и имела около 154 миллиардов параметров. В 2024 llama-3-70b достигла 68% MMLU, обгоняя GPT-4o mini.
Количество флопсов доступных локально обычному юзеру тоже постоянно, хоть и медленнее, растёт, как и цена облачного GPU хостинга.
Это лишь вопрос времени когда каждый ИИ-энтузиаст сможет хостить модель уровня Claude Sonnet у себя на пэке. Конечно, и облачные модели к тому времени пойдут вперёд, но слух что "домашние" модели всегда будут недотыкомками слегка преувеличен.
Круто, спасибо! Век живи, век учись.
Это возможно, но НЕ с LM Studio (и вообще не с программой основанной на llama.cpp, т.е. Ollama тоже не подойдёт) и не с квантоваными GGUF файлами. Для домашней многокарты используются исходники в формате .safetensors и прописываются настройки на vLLM.
Если я не прав и кто-то знает способ - поправьте.
Автор не является вашим личным гладиатором и не ставит перед собой цели носить каштаны из огня ради недостаточно впечатленных комментаторов. Инструкции в статье просты в исполнении и если вместо вынесения для себя пользы из статьи (а она несомненно есть) - вы сетуете, что вас недостаточно сильно впечатлили на скриншотах, "а пруфы будут", "а слабо" - то да, эта статья не для вас и можете написать свою, с нотариально заверенными пруфами. Я буду только рад.
Не совсем понятна суть претензии. Инструкции из статьи можно воспроизвести самому за минуту - задавайте себе на здоровье любые интересующие вопросы.
А никакой ответственный автор не будет ради "хайпа, респекта, уважухи и пруфов перед пацанами" подставляться напрямую публично показывая инструкции как совершить что-то противозаконное. Не говоря уже о том, что это нарушение правил хабра.
Храню как память свои генерации из 2022 года. Это, правда, не LLM, а диффузионка, но напоминание, что темпы развития нейросетей могут огорошить. Через максиму 3-4 года, а то и раньше у каждого, кто сможет себе позволить станцию за 2000-3000 долларов будет свой домашний ChatGPT-4o
Системный промпт может помочь)))
Ну это уже больше вопрос личной заинтересованности, нежели проблема софта.
Мне тоже хотелось бы, чтобы софт был опенсорсным - желательно, весь. Но разница в том, что с облачными ассистентами приватности не добится никак от слова совсем, а с локальной LLM - это вопрос низкой вероятности, что софт всё-таки код сливает (низкой - потому что подозрительный траффик бы наверняка кто-то уже заметил) + нескольких усилий для перестраховки.
Ну и есть опенсорсная Ollama, к которой можно подключить человечий FE.
Можно блокировать исходящее соединение для LM Studio через файервол. Не будут работать авто-обновления и discovery service, но устанавливать модели можно и без этого.
Я не занимаюсь этичным хакингом, но можно попробовать Dolphin-2.7 Mixtral-8x7B и OpenHermes-2.5 Mistral-7B. У них минимум фильтров
Это про ретро и классику! Переделал обзор LLM на самые актуальные.
Начать стоит с того, что мы с вами на брудершафт не пили.
Во-вторых я вполне конкретно написал "одна реально похожая" - и чем моя статья отличается я привёл в посте выше.
Те виртуальные "ещё штук 20 по настройке" (с) не нашёл. Надо либо очень сильно натянуть сов на глобусы, либо крутить сильно дольше, чем у меня хватит желания.
Добавил блок про железо в статью.
Я собирал компьютер полгода назад, ещё до выхода RTX 50xx.
Системный блок с Ryzen 7800X3D, 64 GB RAM, RTX 4070 Ti Super 16GB VRAM мне обошлись примерно в 2700 USD. Такую сборку считаю оптимальной, но не топовой.