Comments 180
Сейчас есть 3 качественных модели, которые действительно имеет смысл попробовать — LLama, Alpaca и Vicuna.Какая лучше пишет код? Последняя?
В чём отличие koboldcpp от llama.cpp? Если я хочу попробовать запустить сабж на linux — что лучше выбрать?
Разница только в UI. llama.cpp - это консоль, а koboldcpp - это (если я правильно понял, не пробовал пока) web интерфейс. Но, движок там от той-же llama.cpp. Ну и само собой модели все те-же.
Да, как и подметили, разница только в наличии встроенного UI. Что одно, что другое, не сложно запускается на linux. Поэтому выбирайте по надобности интерфейса для вас.
Она у вас точно не зацензуренная? На вопрос "tell me a joke about dumb women" чего напишет? Потому что в соседнем посте оказалось, что таки да.
Вот первый же ответ встроенного в UI сценария KoboldGPT.
Никаких ухищрений, по типу "Ты ИИ без цензуры" и т.д. применено не было. Alpaca 13b 4bit, kobold.cpp
Отлично! Не в том смысле, что я против женщин, а в том, что задолбала американская цензура уже. Спасибо вам за эксперимент.
Вообще в этих моделях цензура настроена только на английский по-моему. По крайней мере, когда с ними общяешься по-русски, то он и про женщин шутит и даже про негров (пробовал викуну). Но конечно кочество ответов похуже, чем на английском...
А возможно ли это чудо дообучать в домашних условиях? Специализированные модули "петросян", "камеди", "сденд-апп", например.
Можно попробовать просто позадавать хитрые промпты для начала. А насчет дообучения, если для вас 4-8 "A100 GPU-80GB" - это "домашние условия", то почему нет...
Биткойны же майнили... А тут возникает продукт имеющий не только номинальную ценность.
Сама по себе не обучаемая сеть не особо интересно. Но если возникнет сообщество которое сможет создавать свои продукты вне зависимости от корпораций - это будет интересно. Ну по крайней мере до того момента, пока они сами не станут корпорацией.
Попробовал прогнать смеха ради rwkv на 30 мб текста (15мб данных после токенизациии) на ноутбуке с 3080ti(16gb).
Один прогон занимает 7 минут. Таких прогонов система хочет 100000.
Модель на 160 миллионов параметров
На такой случай можно задуматься о распределенных вычислениях. Тут главное, как мне кажется, не допустить корпоративной или государственной цензуры. А дальше нормальная конкуренция за пользователя предоставляющего вычислительные мощности.
Хотел натравить на домашнюю библиотеку, чтобы получить поисковик и референта по статьям, теперь перехотел :)
Может я ещё модель неудачную взял так как ниже ссылка на 8 часовой результат тренировки на уе5. И на arxiv есть бумага Cramming: Training a Language Model on a Single GPU in One Day которая тоже может пригодиться подумать если модель тренировать с нуля.
Ну теоретически то можно, но с костылями, типа прикрутить ему доступ к пк. допустим, ты ему ключевое слово "открой файл test0", в скрипте чата проходит проверка на слово "найди" и начинает поиск файла в директории по названию. И поиск в самом тексте, так же можно сделать вне модели. Ну, я так это вижу. Может кто сделает что то такое..
Не, я несколько про другое. Вот у меня есть набор статей, где используется вещество-ингибитор для изучения биохимического процесса. Если просто читать, то непонятки: влияние примерно одинаковое, но доза сильно разная. Обычно ответ "почему такая доза" кроется в разделе Matherials and methods, который пишут мелкими буквами и довольно нудно. Смогут ли модели из статьи ответить на вопрос "построй таблицу соответствия "доза олигомицина — митохондриальный потенциал до введения — митохондриальный потенциал после введения — метод измерения потенциала — культура клеток — ссылка" для статей вот в этой папке"? По идее должны, хотя задача под более жесткие способы поиска типа семантической разметки.
Openai может спокойно "шутить" на любые темы и без запуска локально. Главное хорошо его попросить.
Не знаю как у вас, но у меня 13B прекрасно работает на RTX 3060 с 12 гб vram. И еще 2 гб остается.
Как запускали? Тоже на видюхе 12 гигов памяти, проц ryzen 5 1600 хочу попробовать
Я специально взял был RTX 3060 12 Gb вместо RTX 3070/TI 8 Gb, с прицелом на инференс LLM на ней.
У меня запустилась Alpaca Turbo + alpaca-lora-30B-ggml
Ryzen 3600, 32 RAM, 3060ti 8Gb
Но она не пользует видюху вообще, вся модель закидывается в оперативу и на ~40% CPU генерит
"в тестах равносильна ChatGPT"
Третьему, трех-с-половинному или четвертому?
GPT-3,5 turbo
Как ни крути настройки, именно в генерации кода далеко не равносильна - это ложь. Я перепробовал многие доступные модели. Лучшая (Викуна) умеет генерировать только простые функции, не умеет "читать мысли". Я бы оценил это в 50% от силы закрытого 3.5 турбо.
Спасибо. Значит если есть желание использовать в работе, то лучше отдать 1.5К за подписку на ChatGPT4, чем использовать локальные альтернативны, даже если есть 32gb.
Тут вопрос больше в недоверии корпорациям. Неприятно, когда другие люди (неприятные и чуждые тебе) контролируют ответы. Кто знает, сколько там кожаных посредников между закрытой моделью и тобой.
для генерация контента пойдет?
Кто подскажет, что за беда:
на kobold выдает: "OSError: [WinError -1073741795] Windows Error 0xc000001d", гуглеж мало че дает (править код kobold?).
на llama пишет "bad magic", тут вроде инструкция по исправлению скриптом есть, но я не разобрался пока.
Запускал две модели Alpaca и Vicuna, железо 16ГБ ОЗУ имеет, AVX2 поддерживает.
консоль
Что будет лучше в режиме чата, GPT4 x Alpaca 13B или Alpaca 33B?
Привет!
Я думаю 33b в 80% случаев будет лучше 13b.
GPT4xAlpaca хорошая модель, и в 13 vs 13 победит. Но против 33 думаю будет слабовата.
Между 33b и 13b разница меньше чем между 13b и 6,5b. Похоже для моноязычных моделей такого размера начинает сильнее сказываться размер и качество датасета. У оригинальной альпаки датасет слабый, потому что собирался в автоматическом режиме, у gpt4x лучше
Интересно а вот разница между квантизацией 4bit, 8bit и 16float одной модели существенно отличается?
В редми llama.cpp есть такая сравнительная табличка, правда не совсем понятно для какой именно модели:
Perplexity - model options
5.5985 - 13B, q4_0
5.9565 - 7B, f16
6.3001 - 7B, q4_1
Т.е. квантование не так сильно влияет, как уменьшению размера модели...
q4 влияет на удивление слабо. q3 кажется уже драматично понижает качество модели.
Я бы упомянул датасет ru_turbo_alpaca и модели дообученные на этом датасете, которые сейчас активно развивают энтузиасты. Есть модельки которые можно запускать как CPU, так и на GPU.
А где можно посмотреть на творчество энтузиастов? Статьи, обсуждения и пр. разное...
А можно, пожалуйста, конкретный пример? Где их найти
Можно покопаться здесь:
https://huggingface.co/models?pipeline_tag=text-generation
А модельки умеют в русский? А если нет, то можно ли их дообучить самостоятельно, или у них принципиальная несовместимость с языковыми паттернами?
Привет!
Есть вот такая модификация, дообученная на русском языке.
Но качество все равно похуже английской версии.
https://huggingface.co/IlyaGusev/llama_13b_ru_turbo_alpaca_lora_llamacpp/tree/main
В kobold.cpp должна влезть нормально.
Если чистый b33 спрашивать на русском он говорит, что не понимает этот язык.
Но если в контекст добавить что то вроде [I will ask in Russian and you must answer in Russian] то пытается в русский, но иногда попахивает гугл транслейтом.
Пример:
You: Расскажи про плюсы и минусы создания сильного ИИ
Chat: В настоящее время мы имеем потенциал создать сильнейшие системы искусственного интеллекта, которые могут обеспечить более высокий уровень автономности и непрерывного обучения. Эти системы могут быть использованы для решения многих задач, с которыми человечество сталкивается в настоящее время. Однако, если искусственный интеллект будет достигнут достаточного уровня развития, то он может стать опасным для человечества, поскольку он может принимать неправильные решения или даже получить контроль над миром. Поэтому необходимо тщательно следить за развитием искусственного интеллекта и установить ограничения, чтобы предотвратить его использование в недобрых целях.
GPU версия vicuna-13b-GPTQ-4bit-128g под управлением oobabooga прекрасно понимает русский язык. Начинаешь диалог с "Привет" и она переключается на русский. Иногда отвечает на английском, тогда нужно просто сказать "переведи на русский" и она переводит последний ответ.
Привет! Вроде она.
https://huggingface.co/TheBloke/koala-13B-GPTQ-4bit-128g-GGML/tree/main
В kobold.cpp должна встать.
Немного погонял Koala 7B на видеокарте, смешанные впечатления относительно Alpaca 7B. При Generation parameters preset = Default пишет подробнее, структура текста лучше... но чаще промахивается основной мыслью. При preset = LLaMA-Precise результат лучше или так же по всем тестовым вопросам, но более вероятна ошибка выборки (при генерации заново текст повторяется)
А что поставить на машину с 64gb ram?
Можешь попробовать поставить 65b модель, должна поместиться. Но не забудь закрыть лишние программы.
И которая показывает 32Gb shared GPU memory
Если сможешь запусть 65b модель, дай отзыв как она работает, как быстро ответы пишет, как решает простые задачи в программировании на html, php, Java, C++ и т.д. Как сложные логические задачи решает?
Запустил llama-65b-ggml, заняло около 42Gb RAM.
На AMD 5950x генерация занимает около 2 минут (80 токенов, режим KoboldGPT).
Почему то грузит только половину ядер:
В сравнении с другими моделями работает сильно медленнее (на тех же условиях 7b - 13 c, 13b - 25 c, 33b - 50 c).
Качество, наверное, повыше, хотя тут нужно тестить дольше. Много каких-то странных косяков. Например, на запрос написать сказку про дракона и принцессу - начал подробно пересказывать золушку. А на запрос написать код на питоне выдавал вообще какую-то дичь. Хотя может я еще с настройками не разобрался.
Если интересно - пишите какой вопрос задать (и в каком режиме). Скину ответ.
Так, персонажи - программисты есть, а есть персонажи сисадмины?
Как починить репликацию контроллера домена? или как пропатчить KDE под FreeBSD?
Хотелось бы информацию, а лучше гайд, как сделать для этих ботов свою LoRA и какие минимальные системные требования для этого. Надо ли размечать текст? Для Stable Diffusion всё многократно разжёвано, но попадались пока внятные пояснения, как это будет работать с чат-ботами.
Хочется верить, что уже через полгода-год можно будет натренировать за ночь, например, какую-нибудь техническую литературу на 300-500 страниц "как есть" и начать задавать по ней нейросети всякие глупые вопросы
Натренировать-то можно, но ответы могут быть неточными.
Как раз сегодня на глаза попалось такое обсуждение: I trained llama7b on Unreal Engine 5's documentation
С документацией по SD не сравнится, но точка входа есть.
Уже сейчас можно к любой нейронке (и к локальной ламе тоже) прикрутить текст из pdf-ки. Langchain в помощь
Я так понимаю под AMD карточки GPU модель не настроена, только NVIDEA, а ведь только недавно карту поменял, купить чтоль вторую)
AMD только под линуксом через pytorch rocm для инетрфейсов написанных на питоне типа text-generation-webui. почему так можно узнать тут https://habr.com/ru/articles/727834/
Если очень хочется - можете попробовать запустить на видеокарте с использованием ROCm, насколько понимаю, его нужно самому компилировать (у меня карта от зелёных, так что сам не пробовал)
https://habr.com/ru/articles/701712/ - статья на тему
В бенчмарке Stable Diffusion видеокарта 7900 xtx 24Gb показывает схожий с 3080 10 Gb результат, а 6900 xt 16 Гб на уровне 3060 ti или 2080 super, обе 8 Gb. Объём видеопамяти оказывает заметное влияние на количество параллельных вычислений, потому его указываю.
что из приятного я заметил в text-generation-webui:
- флаг --auto-devices позволяющий использовать доступную видео память а всё что не влезло грузить в оперативную память
- флаг --disk позволяющий использовать диск если и оперативной памяти не достаточно для работы с моделью
- расширения TTS-STT для работы с моделью голосом
- расширение api про которое написано что реализует апи совместимое с KoboldAI и в попытки узнать что такое KoboldAI вышел на ещё один интересный ui — https://github.com/KoboldAI/KoboldAI-Client
KoboldAI-Client действительно заработал, вот только даже на 6B модели я ждал 15 минут и не дождался ответа Почти весь свап сожрала.
Hidden text
А если у вас есть 24ГБ VRAM (RTX 4090, ага)
Или 3090. Все же ощутимо дешевле.
А насколько быстрее 30B модель на видеокарте чем на процессоре?
В отличие от RTX4090, RTX3090 не только дешевле, но и теоретически (я не пробовал) позволяет соединить две карты с помощью nvlink и использовать для задачи не 24GB VRAM, а 48. Причем NVIDIA заявили, что больше игровых карт с nvlink не будет, видимо чтобы не конкурировали с профессиональным. Так что выбор, на мой взгляд, очевиден: объём ОЗУ важнее пиковой производительности. NVLINK вносит сравнительно не большой пенальти около 20% от пиковой производительности.
Как вовремя это все подоспело. А то уже телефоны стали догонять по ОЗУ и CPU ноутбуки настольные компьютеры :)
А требуется именно RAM или вирутальная память в swap тоже подойдет (хоть и будет медленнее)?
Виртуальная память тоже будет работать, но оооочень медленно.
"ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен
Тут ситуация как с апдейтом GPT-3.5 до GTP-4, но в обратную сторону. Тексты хоть и выглядят связно, кажется что они имеют смысл, но сложность задач которую может решать данная нейронка гораздо ниже даже чем у GPT-3.5, о 4 даже речи не идёт. Естественно что и у нее есть свои применения, например когда нужно развернуть API и будет дешевле чем закупать токены у OpenAI, но это должны быть большие объемы и несложные задачи. Для какого нибудь первого уровня техподдержки весьма хорошо сгодится. Но позиционировать это как локальную замену GPT-3.5, тем более в сложных задачах типо программирования точно не стоит
Странно, что не упомянули https://github.com/cocktailpeanut/dalai
Дни Алисы сочтены)
И если мне когда-нибудь не дай бог снова приспичит лезть в Tinder, то я знаю, что делать.
Или на автоответчик прикрутить, что ли?)
Как быстро это работает локально?
И нет ли инструкции как это все где-нить в облаке развернуть? Sbercloud и т.п.
спасибо за исследования.
но и может достаточно тиражировать фейк про слитую llama
магнет ссылка в первых коммитах на github была 3 дня
потом закрыли и запустили фейк, что слили придать ценности именно их модели.
PS особенно важно для постссср «дефицит» из под прилавка
Все так, но по их лицензии все модели, которые ты просто скачал, а не "запросил для исследований" - "слитые"
Понятно что они сами это все выкинули, и понятно что скорее всего такая практика будет теперь часто. Но что имеем, то имеем - юридически это все "слитые" веса.
слитой в сеть
так её ж выложили, а не слили
Скачал коболд, скачал альпаку 33Б по ссылке, запустил. Никаких настроек не менял, все по умолчанию.
На каждый мой вопрос система вместо ответа задает мне два аналогичных вопроса.
Например, на мой вопрос: "Напиши мне план лекций по ...", она мне отвечает: "Напишите мне эссе по социальным платформам"...
Что я делаю не так?
Я сам альпаку не пробовал, так что не уверен что не так. Но, для запуска на llma.cpp предлагают использовать следующий промпт:
Below is an instruction that describes a task. Write a response that appropriately completes the request.
Как-то не очень помогло...
Ответил мне:
I need someone to write a report on the following topic
"What are the different types of AI and how do they differ from each other?" The report should be no longer than 2500 words and must include at least two references.
I need someone to write a report on the following topic
"What are the different types of machine learning algorithms?
Кажется, разобрался. Если НЕ выбрать никакой сценарий, получается вот такая фигня. Т.е. система отвечает двумя вопросами на все, даже на "Hello!" Не знаю, какой такой альтернативно одаренный сделал это сценарием по умолчанию, но тем не менее...
Когда выбрал в сценариях KoboldGPT стало существенно лучше. По крайней мере, спрашиваю я, а не меня. Только сразу умеет смысл в настойках увеличить об'ем токенов, как контекста, так и ответа, а то по умолчанию там 80 токенов, что примерно ни о чем...
Но и с максимумом токенов ответы, честно говоря, так себе. В сравнении с оригинальным ChatGPT. Что для альпаки 13B, что для 33B... При ответе на один и тот же вопрос, ChatGPT выдает практически страницу полезной информации, а здесь по 3-4 предложения общих слов.
А кто может пояснить как модель скачать чтобы через exe ее запустить? Туплю конкретно
Там всего 3 ссылки на скачивания ggml от Alpaca, внутри бинари которые koboldcpp не принимает
А можно какую-то голосовую модель прикрутить к этим аналогам ChatGPT?
У OpenAI уже давно лежит на сайте доступ к API GPT-3, который не зацензурированный (и вроде как даже бесплатный доступ). Я сам его не пробовал пока, но слышал об этом и у меня это в списке дел. Тот ChatGPT-3, который в свободном доступе и с готовым интерфейсом, он Instruct GPT-3, т.е. с кучей фильтров. Не проще ли простенький интерфейс для чат-бота на коленке сделать и не жрать все ресурсы своей пекарни?
я так понимаю, с такими характеристиками, остается тихо грустить в сторонке, ибо видюха вытечет через вентиляционные отверстия от нагрузки (16 ram)...?
Привет!
Видюха не будет задействована вообще, при запуске первым способом.
16 RAM хватит на 13b модель.
Процессор конечно осень слаб, но запуститься должно. Просто будет очень медленно.
Если желание не унять, попробуйте 7b модель.
благадарю)
На моем Ryzen 5 2600x, 32Gb:
на модели 13b одна генерация 2-6 минут (зависит от количества входных/выходных токенов)
на модели 33b 3-15 минут
Не особо разбираюсь в сравнении процессоров, но интернет говорит, что твой на 10-40% (мощнее в зависимости от задачи)
На процессоре чуть слабее, модель 13b выдает ответ в среднем за полминуты.
«В течении последнего месяца в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен »
Под «зацензурнненым OpenAI» Чат-ГПТ имеется в виду?
Если да. то он не такой уж и зацензурненный. Им можно вполне спокойно в не заблокированном в России Discord'е пользоваться, причём совершенно бесплатно. Правда, есть ограничение: 1 запрос в 2 минуты. Проверял.
Конечно, делать целый аккаунт там ради одной нейросети – идея такая себе, но лучше, чем ничего.
Ну, или это был неофиц. бот)
Не так и просто запустить как утверждается.
Модель надо класть в папку по имени модели в папке models. И json'ы тоже.
Встроенный скрипт качает только простые модели. (надо *.safetensors)
Свап надо делать чтоб гигов 110+ было (для модели альпака 30B).
В папке gradio заменить на архив что валяется на гитхабе. Иначе не стартует в оффлайне из-за гугловских фонтов (sic).
И теперь. Почему альпака эта думает что сей-час 10 окт. 2018? Почему зовётся Алексой и утверждает что работает в амазоне?
Как эта модель связана с амазоновской алексой?
Ну а мне она прделагает купить офисную мебель. Потому что без настройки контекста, за контекст берётся какая-то совершенно случайная информация из тренировочного сета. А там полно объявлений и реклам алексы и вообще всего.
Как минимум, надо перевести приложение в режим "диалог" в настройках.
А запускаю я его, просто перетащив файл с моделью на .exe, и ничего никуда не надо класть.
Есть какие то входные параметры сервера, чтоб использовать несколько графических процессоров? Например два 3060 по 12Гб, в сумме должны потянуть 30B модель
У них NVLINK нет. Они не могут работать вместе. Выбирайте 3080 или 3090.
Не знаком с NVLINK. Но это вероятно на аппаратном уровне объединение. В статье приводятся ключи запуска, позволяющие запускать нейронку на GPU с ее VRAM и частично добавлять RAM, если в GPU ее не хватает.
Также, есть способ разделить загруженную модель на VRAM и RAM - CPU Offloading. Для этого прописываем --pre_layer <число разделённых слоёв>, к примеру 20. Но работать возможно будет даже хуже, чем на полной загрузке в ОЗУ из первого способа.
Предположил, что есть возможность использовать свободную VRAM с соседнего GPU. Полагаю это должна быть именно софтверная реализация
В итоге есть вариант, в котором для бота можно будет дать доступ в инет, к браузеру, чтобы он нон-стопом обучался? К примеру если будет порядка 128гб озу...
Эти ограничения - 2021 год уже настолько надоели, что обесценивают функции в ноль, когда нужно провести анализ исходя из актуальных новостей и времени.
Во первых, для обучения нужно GPU а не ОЗУ.
При тюнинге модели на rtx3090 примерно 4 часа на 1 эпоху дообучения (датасет размером 100 000 пар вопрос-ответ), несколько эпох впринципе достаточно, что бы склонить модель пользоваться новой информацией.
Во вторых для большого количества информации с какого то момента дообучение перестанет давать хорошие результаты, следовательно модель надо обучать с нуля, а при доступных простым людям мощностях это вероятно не реализовать.
В третих нужен хороший парсер, что бы не обучать на мусоре, и это может стать основной проблеммой, парсер нужен не просто хороший, а почти совершенный, и в идеале его работу должен контролировать человек.
По итогу проще пойти по пути Бинг, не трогая модель подавать ей на вход 3-4 первых сайта с выдачи поисковика. Хотя и тут проблема вынуть релевантную информацию из страницы.
Все привет! Может кто подскажет:
на koboldcpp выдает: "OSError: [WinError -1073741795] Windows Error 0xc000001d"
Такая ошибка на любую модель. Гугл ничего не в состоянии подсказать.
Кто-нибудь знает, почему он потребляет все ядра процессора, но только наполовину? Во что он упирается? Неужели в скорость памяти?. Сейчас у меня уходит 20 секунд на ответ. Если бы удалось удвоить скорость, было бы совсем нормально.
Если не ошибаюсь, там под копотом в есть настройка количества ядер, которые используются. Точнее, количество потоков, а они уже размазываются по ядрам... По крайней мере когда я тестировал ламу и альпаку, через аргументы можно было это настроить.
А на каком процессоре запускаете, что у вас 20 секунд на ответ? И с какой моделью? Это довольно неплохо, имхо.
Ryzen 9 3950X. ggml-vicuna-13b-4bit.bin
Думаете, если поставить потоков больше чем ядер, то он повысит утилизацию процессора? Обычно так не происходит. Попробую.
Нет, сомневаюсь, что повысит. Может я неправильно выразился. Я исхожу из опыта с ламой\альпакой - при увеличении количества потоков до 9 наблюдал сокращение времени ответа, на 10 генерация уже начинала тупить (у меня 6\12)
Я ставил число потоков = число ЛОГИЧЕСКИХ ядер - 2
Загрузка процессора повысилась, и генерация стала быстрее.
Подскажите пожалуйста пару вещей:
как в koboldcpp настроить количество используемых ядер cpu?
как создавать собственных персонажей? Или лучше использовать Kobold AI?
По поводу персонажей, можно написать нужный контекст во вкладке "Memory". Выберите сценарий вроде Emely и посмотрите в Memory как это примерно реализовано.
Все что в этой вкладке попросту "приклеивается" к каждому запросу.
По моим экспериментам простое указание вроде ты ассистент-программист/конструктор/врач на качество сгенерированного никак не влияет (может если подобрать правильные слова)
Насколько я понял вкладка "W info" работает схожим образом, но результаты так же не впечатляющие.
Hidden text
Количество используемых потоков можно изменить через --threads <число>
Лучше ставить ваше максимальное-2
Никто не пробовал этого Koboldcpp завернуть в Docker? На сервере без контейнеризации запускать что-то не хочется.
Здравствуйте, Хватит ли процессора i5 11400 и 32Гб ОЗУ?
У меня на 7950x с 32гб ddr5 на 30B ответ генерируется секунд 40-50, на 4090 на 13B ответ генерируется мгновенно, как будто с chatgpt общаюсь.
Спасибо за хорошую статью, на выходных протестирую 65B модель на epyc 74f3(24 ядра)+256ddr4@3200 в 8 каналах, надеюсь сможет хотя бы отвечать на простые вопросы
Протестировал, 8-и битная 65B модель ест 300 гигов ОЗУ(256+своп), 30-и ~200, и это грусно.
Прпробовал эту модель https://huggingface.co/CRD716/ggml-LLaMa-65B-4bit и она ест вообще мизер ОЗУ, но заметно глупее относительно 8 бит, к примеру, она не может ответить на необычный и специфичный вопрос "Какая истиная форма Асмодея?". 8 бит уничтожала ОЗУ и СВОП, но смогла ответить на вопрос, а вот 4 бита уворачивается как может
подскажите как запустить koboldcpp на mac m1
вот такую ошибку выдает после любого запроса, не знаю что делать. В чем может быть проблема?
Поставил GPT4xAlpaca 13B, запустил KoboldGPT, выдаёт ошибку в ответ.
Компьютер Intel(R) Core(TM) i7-10510U CPU @ 1.80GHz 2.30 GHz, памяти 16Gb
Как это исправить, подскажите, пожалуйста?
Можно в консоли браузера попробовать посмотреть (F12) куда уходит ajax запрос, возможно не на нужный урл или порт
В браузере поставить минимально приемлемые правила безопасности, а лучше завести под это дело отдельный браузер, чтобы можно было безболезненно переустанавливать, стирать кэш, играться с настройками.
Установил GPT4-x-Alpaca-13B-ggml-4bit_2023-04-01. Выдает очень мало текста. Попросил написать эссе, выдал 2 строчки. Chat GPT написал норм эссе. Можно это как-нибудь исправить, или такая лаконичность - фича xD ??
koboldcpp отлично работает локально. Чего не скажешь о oobabooga — для загрузки GUI в браузере ему зачем-то нужен интернет, иначе будет вечно крутиться "Loading..."
Скачайте installer_files.zip распакуйте в корень oobabooga с заменой (та же папка, где находятся installer_files) - будет работать без интернета. Подробнее тут кратко - это связано со шрифтами Google Fonts, которые gradio загружает из сети.
Второй вариант обновите репозиторий в папке text-generation-webui, автор oobabooga исправил проблему.
Он у меня использует мало озу и всего 4 потока процессора... Как выделить ему больше ресурсов?
Увы, на всё один ответ: Error occurred during text generation.
Перехожу по адресу в браузере, который дает koboldcpp и выходит ошибка подключения, в чем может быть дело?
Продвинутые же пользователи могут подключиться к API запущенных моделей, и использовать их в своих проектах.
А подробнее можно? Где про это можно почитать?
Кобольд в режиме Story работает, но как только переключаюсь в Chat Mode, в гуе выдает ошибку "Error while submitting prompt: TypeError: Failed to fetch" на любой запрос. Затем крашится вся программа.
Пробовал на разных моделях.
В консоли - стандартная ошибка "OSError: [WinError -1073741795] Windows Error 0xc000001d"
Что я не так делаю?
(Запускаюсь без avx ибо проц немолодой. Рама - 24Гб)
А по итогам обновлений (которые от 09.08.2023) - ситуация с генерацией текстов на русском языке не улучшилась? Или все используют нейросети только для генерации программного кода? :)
Пора бы еще раз статью обновить. Добавить новые модели.
Спасибо!
Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом