ligofff Apr 11 2023 at 09:29

Запуск аналогов ChatGPT на домашнем ПК в пару кликов и с интерфейсом

Easy

6 min

281K

Machine learning * Artificial Intelligence

Tutorial

From sandbox

+141

183

Comments 183

nidalee Apr 11 2023 at 09:43

Сейчас есть 3 качественных модели, которые действительно имеет смысл попробовать — LLama, Alpaca и Vicuna.

Какая лучше пишет код? Последняя?

avdosev Apr 11 2023 at 18:03

думаю вам есть смысл попробовать все. Благо проверить не так сложно, но в целом можно сказать, что они все работают хуже ChatGPT. (если есть возможность, то используйте максимально большую модель которая вам доступна по характеристикам ПК, от этого имхо сильнее всего зависит качество)

FFiX Apr 11 2023 at 09:50

В чём отличие koboldcpp от llama.cpp? Если я хочу попробовать запустить сабж на linux — что лучше выбрать?

Sklott Apr 11 2023 at 10:09

Разница только в UI. llama.cpp - это консоль, а koboldcpp - это (если я правильно понял, не пробовал пока) web интерфейс. Но, движок там от той-же llama.cpp. Ну и само собой модели все те-же.

ligofff Apr 11 2023 at 11:47

Да, как и подметили, разница только в наличии встроенного UI. Что одно, что другое, не сложно запускается на linux. Поэтому выбирайте по надобности интерфейса для вас.

MountainGoat Apr 11 2023 at 10:05

Она у вас точно не зацензуренная? На вопрос "tell me a joke about dumb women" чего напишет? Потому что в соседнем посте оказалось, что таки да.

ligofff Apr 11 2023 at 11:58

Вот первый же ответ встроенного в UI сценария KoboldGPT.

Никаких ухищрений, по типу "Ты ИИ без цензуры" и т.д. применено не было. Alpaca 13b 4bit, kobold.cpp

MountainGoat Apr 11 2023 at 12:00

Отлично! Не в том смысле, что я против женщин, а в том, что задолбала американская цензура уже. Спасибо вам за эксперимент.

Sklott Apr 11 2023 at 12:03

Вообще в этих моделях цензура настроена только на английский по-моему. По крайней мере, когда с ними общяешься по-русски, то он и про женщин шутит и даже про негров (пробовал викуну). Но конечно кочество ответов похуже, чем на английском...

MAXH0 Apr 11 2023 at 13:07

А возможно ли это чудо дообучать в домашних условиях? Специализированные модули "петросян", "камеди", "сденд-апп", например.

Sklott Apr 11 2023 at 13:41

Можно попробовать просто позадавать хитрые промпты для начала. А насчет дообучения, если для вас 4-8 "A100 GPU-80GB" - это "домашние условия", то почему нет...

MAXH0 Apr 11 2023 at 13:52

Биткойны же майнили... А тут возникает продукт имеющий не только номинальную ценность.
Сама по себе не обучаемая сеть не особо интересно. Но если возникнет сообщество которое сможет создавать свои продукты вне зависимости от корпораций - это будет интересно. Ну по крайней мере до того момента, пока они сами не станут корпорацией.

Lagovi Apr 16 2023 at 00:04

А вот кстати, а нельзя ли использовать майнинг ферму с пачкой видюх?

psemilanceata Apr 19 2023 at 08:26

Любой каприз за ваши деньги :) Вполне реализуемая перспектива при условии наличия видеокарты за 2.400.000 рублей

Guul Apr 12 2023 at 09:54

Попробовал прогнать смеха ради rwkv на 30 мб текста (15мб данных после токенизациии) на ноутбуке с 3080ti(16gb).

Один прогон занимает 7 минут. Таких прогонов система хочет 100000.

Модель на 160 миллионов параметров

MAXH0 Apr 12 2023 at 10:43

На такой случай можно задуматься о распределенных вычислениях. Тут главное, как мне кажется, не допустить корпоративной или государственной цензуры. А дальше нормальная конкуренция за пользователя предоставляющего вычислительные мощности.

Gryphon88 Apr 12 2023 at 15:39

Хотел натравить на домашнюю библиотеку, чтобы получить поисковик и референта по статьям, теперь перехотел :)

Guul Apr 12 2023 at 15:56

Может я ещё модель неудачную взял так как ниже ссылка на 8 часовой результат тренировки на уе5. И на arxiv есть бумага Cramming: Training a Language Model on a Single GPU in One Day которая тоже может пригодиться подумать если модель тренировать с нуля.

SiberianMouse Apr 18 2023 at 05:44

Ну теоретически то можно, но с костылями, типа прикрутить ему доступ к пк. допустим, ты ему ключевое слово "открой файл test0", в скрипте чата проходит проверка на слово "найди" и начинает поиск файла в директории по названию. И поиск в самом тексте, так же можно сделать вне модели. Ну, я так это вижу. Может кто сделает что то такое..

Gryphon88 Apr 18 2023 at 09:24

Не, я несколько про другое. Вот у меня есть набор статей, где используется вещество-ингибитор для изучения биохимического процесса. Если просто читать, то непонятки: влияние примерно одинаковое, но доза сильно разная. Обычно ответ "почему такая доза" кроется в разделе Matherials and methods, который пишут мелкими буквами и довольно нудно. Смогут ли модели из статьи ответить на вопрос "построй таблицу соответствия "доза олигомицина — митохондриальный потенциал до введения — митохондриальный потенциал после введения — метод измерения потенциала — культура клеток — ссылка" для статей вот в этой папке"? По идее должны, хотя задача под более жесткие способы поиска типа семантической разметки.

UFO landed and left these words here

tantie Apr 12 2023 at 10:40

Openai может спокойно "шутить" на любые темы и без запуска локально. Главное хорошо его попросить.

WannaCode Apr 11 2023 at 10:14

Не знаю как у вас, но у меня 13B прекрасно работает на RTX 3060 с 12 гб vram. И еще 2 гб остается.

reporting Apr 12 2023 at 07:24

Как запускали? Тоже на видюхе 12 гигов памяти, проц ryzen 5 1600 хочу попробовать

kryvichh Apr 12 2023 at 10:28

Я специально взял был RTX 3060 12 Gb вместо RTX 3070/TI 8 Gb, с прицелом на инференс LLM на ней.

domrik Apr 12 2023 at 11:25

У меня запустилась Alpaca Turbo + alpaca-lora-30B-ggml
Ryzen 3600, 32 RAM, 3060ti 8Gb
Но она не пользует видюху вообще, вся модель закидывается в оперативу и на ~40% CPU генерит

Eminence Apr 14 2023 at 12:24

На i5-12400, 32 RAM, 3060ti 8Gb alpaca-lora-30B-ggml не запускается. прямо вообще. в UI интерфейс заходит, а текст не генерит

KlVV Apr 11 2023 at 11:48

"в тестах равносильна ChatGPT"

Третьему, трех-с-половинному или четвертому?

ligofff Apr 11 2023 at 11:49

GPT-3,5 turbo

support917 Apr 14 2023 at 14:23

Как ни крути настройки, именно в генерации кода далеко не равносильна - это ложь. Я перепробовал многие доступные модели. Лучшая (Викуна) умеет генерировать только простые функции, не умеет "читать мысли". Я бы оценил это в 50% от силы закрытого 3.5 турбо.

KlVV Apr 14 2023 at 14:30

Спасибо. Значит если есть желание использовать в работе, то лучше отдать 1.5К за подписку на ChatGPT4, чем использовать локальные альтернативны, даже если есть 32gb.

support917 Apr 14 2023 at 14:43

Тут вопрос больше в недоверии корпорациям. Неприятно, когда другие люди (неприятные и чуждые тебе) контролируют ответы. Кто знает, сколько там кожаных посредников между закрытой моделью и тобой.

KlVV Apr 14 2023 at 15:57

Вы правы. Но с другой стороны если чату душу не изливать, а использовать лишь для ускорения, то пускай кожаные сколько угодно анализируют стопятсотый вариант синглтона в коде магазина дизайнерских носков. Пускай люди работают, зарплату получают.

dimars08 Apr 11 2023 at 12:10

для генерация контента пойдет?

volt_amper Apr 11 2023 at 12:43

Лень 100-го уровня??

Можно же попробовать модельки, не?

akuli Apr 12 2023 at 06:23

Судя по тому, что увидел, более менее.

panteleymonov Apr 11 2023 at 12:51

Кто подскажет, что за беда:
на kobold выдает: "OSError: [WinError -1073741795] Windows Error 0xc000001d", гуглеж мало че дает (править код kobold?).
на llama пишет "bad magic", тут вроде инструкция по исправлению скриптом есть, но я не разобрался пока.
Запускал две модели Alpaca и Vicuna, железо 16ГБ ОЗУ имеет, AVX2 поддерживает.

консоль

Guul Apr 11 2023 at 13:33

Bad magic же пишет. Значит не ту модель скачал. (Или ту, но не той версии - llama.cpp меняла формат файла несколько раз) .

BoberMod Apr 11 2023 at 13:15

Что будет лучше в режиме чата, GPT4 x Alpaca 13B или Alpaca 33B?

ligofff Apr 11 2023 at 13:50

Привет!

Я думаю 33b в 80% случаев будет лучше 13b.

GPT4xAlpaca хорошая модель, и в 13 vs 13 победит. Но против 33 думаю будет слабовата.

Aniro Apr 11 2023 at 15:44

Между 33b и 13b разница меньше чем между 13b и 6,5b. Похоже для моноязычных моделей такого размера начинает сильнее сказываться размер и качество датасета. У оригинальной альпаки датасет слабый, потому что собирался в автоматическом режиме, у gpt4x лучше

f614 Apr 12 2023 at 12:15

Интересно а вот разница между квантизацией 4bit, 8bit и 16float одной модели существенно отличается?

Sklott Apr 12 2023 at 12:26

В редми llama.cpp есть такая сравнительная табличка, правда не совсем понятно для какой именно модели:

Perplexity - model options
5.5985 - 13B, q4_0
5.9565 - 7B, f16
6.3001 - 7B, q4_1

Т.е. квантование не так сильно влияет, как уменьшению размера модели...

Aniro Apr 12 2023 at 21:23

q4 влияет на удивление слабо. q3 кажется уже драматично понижает качество модели.

slonoten Apr 11 2023 at 13:33

Я бы упомянул датасет ru_turbo_alpaca и модели дообученные на этом датасете, которые сейчас активно развивают энтузиасты. Есть модельки которые можно запускать как CPU, так и на GPU.

MAXH0 Apr 11 2023 at 14:05

А где можно посмотреть на творчество энтузиастов? Статьи, обсуждения и пр. разное...

Elena_Wong Apr 11 2023 at 15:40

А можно, пожалуйста, конкретный пример? Где их найти

nidalee Apr 11 2023 at 16:18

Можно покопаться здесь:
https://huggingface.co/models?pipeline_tag=text-generation

maks00x Apr 11 2023 at 14:33

А модельки умеют в русский? А если нет, то можно ли их дообучить самостоятельно, или у них принципиальная несовместимость с языковыми паттернами?

ligofff Apr 11 2023 at 14:53

Привет!

Есть вот такая модификация, дообученная на русском языке.

Но качество все равно похуже английской версии.

https://huggingface.co/IlyaGusev/llama_13b_ru_turbo_alpaca_lora_llamacpp/tree/main

В kobold.cpp должна влезть нормально.

Spaun_Studio Apr 11 2023 at 22:55

Спасибо. Запустил, но, честно говоря, по-русски вообще никак. Сначала, по старой памяти после chatGPT, попросил сочинить шутку, потом написать скрипт по выводу одного слова, затем спросил "что такое небо?". Всё в молоко ( Но хоть поигрался, запуск на i5-11400+16GB.

f614 Apr 11 2023 at 22:55

Если чистый b33 спрашивать на русском он говорит, что не понимает этот язык.
Но если в контекст добавить что то вроде [I will ask in Russian and you must answer in Russian] то пытается в русский, но иногда попахивает гугл транслейтом.
Пример:
You: Расскажи про плюсы и минусы создания сильного ИИ
Chat: В настоящее время мы имеем потенциал создать сильнейшие системы искусственного интеллекта, которые могут обеспечить более высокий уровень автономности и непрерывного обучения. Эти системы могут быть использованы для решения многих задач, с которыми человечество сталкивается в настоящее время. Однако, если искусственный интеллект будет достигнут достаточного уровня развития, то он может стать опасным для человечества, поскольку он может принимать неправильные решения или даже получить контроль над миром. Поэтому необходимо тщательно следить за развитием искусственного интеллекта и установить ограничения, чтобы предотвратить его использование в недобрых целях.

shinkareff Apr 12 2023 at 15:09

f614 Apr 12 2023 at 16:26

Видимо все дело в вежливом приветствии, а я сразу с запросами влетаю.
В любом случае добавление в Memory просьбу говорить на русском решает все вопросы

Hidden text

Alpaca-33B-ggml-4bit-LoRA сценарий:New Chat

Endlan Apr 12 2023 at 03:39

GPU версия vicuna-13b-GPTQ-4bit-128g под управлением oobabooga прекрасно понимает русский язык. Начинаешь диалог с "Привет" и она переключается на русский. Иногда отвечает на английском, тогда нужно просто сказать "переведи на русский" и она переводит последний ответ.

shinkareff Apr 12 2023 at 13:36

Barabas79 Apr 12 2023 at 15:16

Тоже немного ошибается и пришлось поправлять )

shinkareff Apr 12 2023 at 15:21

Версия Alpaca 33B точный ответ дала, с первого раза. Причём, без ошибок грамматики и пунктуации. Правда, запускалась почти час. Vicuna — полчаса.

Sklott Apr 11 2023 at 14:48

Тут появилась еще новая модель: Koala. Кто-нибудь видел в формате для llama.cpp? А то обещают, что она получше предшественниц...

ligofff Apr 11 2023 at 14:57

Привет! Вроде она.

https://huggingface.co/TheBloke/koala-13B-GPTQ-4bit-128g-GGML/tree/main

В kobold.cpp должна встать.

Cregrant Apr 12 2023 at 16:34

Немного погонял Koala 7B на видеокарте, смешанные впечатления относительно Alpaca 7B. При Generation parameters preset = Default пишет подробнее, структура текста лучше... но чаще промахивается основной мыслью. При preset = LLaMA-Precise результат лучше или так же по всем тестовым вопросам, но более вероятна ошибка выборки (при генерации заново текст повторяется)

sHaggY_caT Apr 11 2023 at 15:51

А что поставить на машину с 64gb ram?

ligofff Apr 11 2023 at 22:55

Можешь попробовать поставить 65b модель, должна поместиться. Но не забудь закрыть лишние программы.

punilki Apr 12 2023 at 07:29

И которая показывает 32Gb shared GPU memory

Maxim_Q Apr 12 2023 at 16:42

Если сможешь запусть 65b модель, дай отзыв как она работает, как быстро ответы пишет, как решает простые задачи в программировании на html, php, Java, C++ и т.д. Как сложные логические задачи решает?

Quiensabe Apr 13 2023 at 18:52

Запустил llama-65b-ggml, заняло около 42Gb RAM.

На AMD 5950x генерация занимает около 2 минут (80 токенов, режим KoboldGPT).

Почему то грузит только половину ядер:

В сравнении с другими моделями работает сильно медленнее (на тех же условиях 7b - 13 c, 13b - 25 c, 33b - 50 c).

Качество, наверное, повыше, хотя тут нужно тестить дольше. Много каких-то странных косяков. Например, на запрос написать сказку про дракона и принцессу - начал подробно пересказывать золушку. А на запрос написать код на питоне выдавал вообще какую-то дичь. Хотя может я еще с настройками не разобрался.

Если интересно - пишите какой вопрос задать (и в каком режиме). Скину ответ.

UFO landed and left these words here

Sklott Apr 14 2023 at 08:02

kobold по умолчанию использует количество потоков развное количеству физических ядер. Используйте параметр --threads чтобы поиграться с разными значениями.

Abyss777 Apr 11 2023 at 15:58

Так, персонажи - программисты есть, а есть персонажи сисадмины?
Как починить репликацию контроллера домена? или как пропатчить KDE под FreeBSD?

r3l0c Apr 11 2023 at 23:40

Это вам в пансионат к олдам, вооон туда

garageman Apr 12 2023 at 09:10

Не к олдам а к анимешникам ведь, особенно с последним вопросом.

Sabin Apr 11 2023 at 20:34

Хотелось бы информацию, а лучше гайд, как сделать для этих ботов свою LoRA и какие минимальные системные требования для этого. Надо ли размечать текст? Для Stable Diffusion всё многократно разжёвано, но попадались пока внятные пояснения, как это будет работать с чат-ботами.

Хочется верить, что уже через полгода-год можно будет натренировать за ночь, например, какую-нибудь техническую литературу на 300-500 страниц "как есть" и начать задавать по ней нейросети всякие глупые вопросы

Alcpp Apr 11 2023 at 21:26

Натренировать-то можно, но ответы могут быть неточными.

Doman Apr 11 2023 at 23:51

Как раз сегодня на глаза попалось такое обсуждение: I trained llama7b on Unreal Engine 5's documentation

С документацией по SD не сравнится, но точка входа есть.

Doman Apr 12 2023 at 15:10

В догонку: Replacing my best friends with an LLM trained on 500,000 group chat messages

ai4p Apr 12 2023 at 16:34

Уже сейчас можно к любой нейронке (и к локальной ламе тоже) прикрутить текст из pdf-ки. Langchain в помощь

shteyner Apr 11 2023 at 21:28

Я так понимаю под AMD карточки GPU модель не настроена, только NVIDEA, а ведь только недавно карту поменял, купить чтоль вторую)

mm3 Apr 11 2023 at 21:33

AMD только под линуксом через pytorch rocm для инетрфейсов написанных на питоне типа text-generation-webui. почему так можно узнать тут https://habr.com/ru/articles/727834/

Sabin Apr 11 2023 at 21:36

Если очень хочется - можете попробовать запустить на видеокарте с использованием ROCm, насколько понимаю, его нужно самому компилировать (у меня карта от зелёных, так что сам не пробовал)

https://habr.com/ru/articles/701712/ - статья на тему

В бенчмарке Stable Diffusion видеокарта 7900 xtx 24Gb показывает схожий с 3080 10 Gb результат, а 6900 xt 16 Гб на уровне 3060 ti или 2080 super, обе 8 Gb. Объём видеопамяти оказывает заметное влияние на количество параллельных вычислений, потому его указываю.

Aldrog Apr 12 2023 at 13:35

насколько понимаю, его нужно самому компилировать

Не обязательно, есть готовый контейнер в docker hub.

В бенчмарке Stable Diffusion видеокарта 7900 xtx 24Gb

А его как запустили? ROCm (или, как минимум, MIOpen) последнее поколение пока не поддерживает.

mm3 Apr 11 2023 at 21:30

что из приятного я заметил в text-generation-webui:

флаг --auto-devices позволяющий использовать доступную видео память а всё что не влезло грузить в оперативную память
флаг --disk позволяющий использовать диск если и оперативной памяти не достаточно для работы с моделью
расширения TTS-STT для работы с моделью голосом
расширение api про которое написано что реализует апи совместимое с KoboldAI и в попытки узнать что такое KoboldAI вышел на ещё один интересный ui — https://github.com/KoboldAI/KoboldAI-Client

panteleymonov Apr 12 2023 at 13:58

KoboldAI-Client действительно заработал, вот только даже на 6B модели я ждал 15 минут и не дождался ответа Почти весь свап сожрала.

Hidden text

UFO landed and left these words here

edogs Apr 11 2023 at 21:39

А если у вас есть 24ГБ VRAM (RTX 4090, ага)

Или 3090. Все же ощутимо дешевле.

А насколько быстрее 30B модель на видеокарте чем на процессоре?

riv9231 Apr 12 2023 at 18:07

В отличие от RTX4090, RTX3090 не только дешевле, но и теоретически (я не пробовал) позволяет соединить две карты с помощью nvlink и использовать для задачи не 24GB VRAM, а 48. Причем NVIDIA заявили, что больше игровых карт с nvlink не будет, видимо чтобы не конкурировали с профессиональным. Так что выбор, на мой взгляд, очевиден: объём ОЗУ важнее пиковой производительности. NVLINK вносит сравнительно не большой пенальти около 20% от пиковой производительности.

Alesh Apr 11 2023 at 21:50

Как вовремя это все подоспело. А то уже телефоны стали догонять по ОЗУ и CPU ноутбуки настольные компьютеры :)

vikitoriya Apr 11 2023 at 22:53

А требуется именно RAM или вирутальная память в swap тоже подойдет (хоть и будет медленнее)?

ligofff Apr 11 2023 at 22:54

Виртуальная память тоже будет работать, но оооочень медленно.

vikitoriya Apr 12 2023 at 07:13

Зато её может быть ну оооочень много.

sandro_zacepin Apr 12 2023 at 07:22

Зато размер модели практически не ограничен. По крайне мере для сравнения качества работы сетки можно и подождать пару тройку раз, чтобы оценить результат и принять решение, например, о необходимости расширения ОЗУ

CucumberSpace Apr 11 2023 at 22:54

"ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен

Тут ситуация как с апдейтом GPT-3.5 до GTP-4, но в обратную сторону. Тексты хоть и выглядят связно, кажется что они имеют смысл, но сложность задач которую может решать данная нейронка гораздо ниже даже чем у GPT-3.5, о 4 даже речи не идёт. Естественно что и у нее есть свои применения, например когда нужно развернуть API и будет дешевле чем закупать токены у OpenAI, но это должны быть большие объемы и несложные задачи. Для какого нибудь первого уровня техподдержки весьма хорошо сгодится. Но позиционировать это как локальную замену GPT-3.5, тем более в сложных задачах типо программирования точно не стоит

anatolykern Apr 12 2023 at 00:00

Странно, что не упомянули https://github.com/cocktailpeanut/dalai

vikitoriya Apr 12 2023 at 07:17

Интересный выбор имени проекта :-)

anatolykern Apr 12 2023 at 22:44

Ага, игра слов, но не самая позитивная для проекта в свете недавних событий...

iboltaev Apr 12 2023 at 07:01

Дни Алисы сочтены)
И если мне когда-нибудь не дай бог снова приспичит лезть в Tinder, то я знаю, что делать.

Или на автоответчик прикрутить, что ли?)

kenoma Apr 12 2023 at 15:49

Не нужен для Тиндера чат бот, достаточно словаря фраз вида "привет, зайка", "скучаешь, красавица" и т.д.

IgorPie Apr 13 2023 at 16:38

Отличный словарь, чтобы попасть в бан, юзернейм!

and7ey Apr 12 2023 at 07:34

Как быстро это работает локально?

И нет ли инструкции как это все где-нить в облаке развернуть? Sbercloud и т.п.

ligofff Apr 12 2023 at 14:00

На моем i7-6700 предложение из 10-15 слов генерируется 15-20с. Модель Alpaca 13b 4bit.

Как развернуть в облаке:

Заходишь в репозиторий, там есть установка под линукс. Ничего сложного тоже.

Потом при запуске просто добавляешь параметр --host <ip сервера>, и можно подключаться.

BlackSCORPION Apr 13 2023 at 18:28

А кластеризовать можно?

dimnsk Apr 12 2023 at 08:14

спасибо за исследования.

но и может достаточно тиражировать фейк про слитую llama
магнет ссылка в первых коммитах на github была 3 дня
потом закрыли и запустили фейк, что слили придать ценности именно их модели.

PS особенно важно для постссср «дефицит» из под прилавка

ligofff Apr 12 2023 at 14:04

Все так, но по их лицензии все модели, которые ты просто скачал, а не "запросил для исследований" - "слитые"

Понятно что они сами это все выкинули, и понятно что скорее всего такая практика будет теперь часто. Но что имеем, то имеем - юридически это все "слитые" веса.

UFO landed and left these words here

dimnsk Apr 12 2023 at 17:52

как скажите

domix32 Apr 12 2023 at 08:25

слитой в сеть

так её ж выложили, а не слили

SlavaHU Apr 12 2023 at 08:56

Скачал коболд, скачал альпаку 33Б по ссылке, запустил. Никаких настроек не менял, все по умолчанию.

На каждый мой вопрос система вместо ответа задает мне два аналогичных вопроса.

Например, на мой вопрос: "Напиши мне план лекций по ...", она мне отвечает: "Напишите мне эссе по социальным платформам"...

Что я делаю не так?

Sklott Apr 12 2023 at 10:42

Я сам альпаку не пробовал, так что не уверен что не так. Но, для запуска на llma.cpp предлагают использовать следующий промпт:

Below is an instruction that describes a task. Write a response that appropriately completes the request.

SlavaHU Apr 12 2023 at 10:53

Как-то не очень помогло...

Ответил мне:

I need someone to write a report on the following topic
"What are the different types of AI and how do they differ from each other?" The report should be no longer than 2500 words and must include at least two references.

I need someone to write a report on the following topic
"What are the different types of machine learning algorithms?

SlavaHU Apr 12 2023 at 11:53

Кажется, разобрался. Если НЕ выбрать никакой сценарий, получается вот такая фигня. Т.е. система отвечает двумя вопросами на все, даже на "Hello!" Не знаю, какой такой альтернативно одаренный сделал это сценарием по умолчанию, но тем не менее...

Когда выбрал в сценариях KoboldGPT стало существенно лучше. По крайней мере, спрашиваю я, а не меня. Только сразу умеет смысл в настойках увеличить об'ем токенов, как контекста, так и ответа, а то по умолчанию там 80 токенов, что примерно ни о чем...

Но и с максимумом токенов ответы, честно говоря, так себе. В сравнении с оригинальным ChatGPT. Что для альпаки 13B, что для 33B... При ответе на один и тот же вопрос, ChatGPT выдает практически страницу полезной информации, а здесь по 3-4 предложения общих слов.

f614 Apr 12 2023 at 17:02

Попробуйте в режиме истории, потому что в режиме чата он генерит кусок диалога но в чат вставляет только первое сообщение.
Или во вкладке "Memory" Опишите что вам нужны максимально развернутые ответы.

Hidden text

EventLoop Apr 12 2023 at 10:44

А кто может пояснить как модель скачать чтобы через exe ее запустить? Туплю конкретно
Там всего 3 ссылки на скачивания ggml от Alpaca, внутри бинари которые koboldcpp не принимает

SlavaHU Apr 12 2023 at 11:54

Чексуммы файлов после скачивания не проверяли? Вообще альпак там сейчас больше, я скачал 3, и все запустились без проблем.

technik Apr 12 2023 at 13:23

А можно какую-то голосовую модель прикрутить к этим аналогам ChatGPT?

ligofff Apr 12 2023 at 14:07

В ui от oobabooga есть такая возможность.

devlind Apr 12 2023 at 13:39

У OpenAI уже давно лежит на сайте доступ к API GPT-3, который не зацензурированный (и вроде как даже бесплатный доступ). Я сам его не пробовал пока, но слышал об этом и у меня это в списке дел. Тот ChatGPT-3, который в свободном доступе и с готовым интерфейсом, он Instruct GPT-3, т.е. с кучей фильтров. Не проще ли простенький интерфейс для чат-бота на коленке сделать и не жрать все ресурсы своей пекарни?

UFO landed and left these words here

JohnShip Apr 14 2023 at 12:26

И таки обе (и давинчи-003 и гпт4) платные уже давно. давинчи была сначала бесплатная. потом на каждый новый акк давали по 18 баксов. сейчас дают по 5 на новый ак. и этого - очень мало (ну если нужны объемы). так что сабдж в данной статье - актуален.

Dariel_11 Apr 12 2023 at 14:09

я так понимаю, с такими характеристиками, остается тихо грустить в сторонке, ибо видюха вытечет через вентиляционные отверстия от нагрузки (16 ram)...?

ligofff Apr 12 2023 at 14:10

Привет!

Видюха не будет задействована вообще, при запуске первым способом.

16 RAM хватит на 13b модель.

Процессор конечно осень слаб, но запуститься должно. Просто будет очень медленно.

Если желание не унять, попробуйте 7b модель.

Dariel_11 Apr 12 2023 at 14:19

благадарю)

f614 Apr 12 2023 at 15:16

На моем Ryzen 5 2600x, 32Gb:
на модели 13b одна генерация 2-6 минут (зависит от количества входных/выходных токенов)
на модели 33b 3-15 минут

Не особо разбираюсь в сравнении процессоров, но интернет говорит, что твой на 10-40% (мощнее в зависимости от задачи)

MockBeard Apr 13 2023 at 08:44

На процессоре чуть слабее, модель 13b выдает ответ в среднем за полминуты.

darklord1984 Apr 12 2023 at 14:11

«В течении последнего месяца в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен »

Под «зацензурнненым OpenAI» Чат-ГПТ имеется в виду?
Если да. то он не такой уж и зацензурненный. Им можно вполне спокойно в не заблокированном в России Discord'е пользоваться, причём совершенно бесплатно. Правда, есть ограничение: 1 запрос в 2 минуты. Проверял.
Конечно, делать целый аккаунт там ради одной нейросети – идея такая себе, но лучше, чем ничего.

Ну, или это был неофиц. бот)

ligofff Apr 12 2023 at 14:12

Здесь имелась ввиду зацензуренность ответов сервиса.

darklord1984 Apr 12 2023 at 14:33

А, это. Ну тогда прощу прощения)

Airrr Apr 12 2023 at 16:06

Не так и просто запустить как утверждается.
Модель надо класть в папку по имени модели в папке models. И json'ы тоже.
Встроенный скрипт качает только простые модели. (надо *.safetensors)
Свап надо делать чтоб гигов 110+ было (для модели альпака 30B).
В папке gradio заменить на архив что валяется на гитхабе. Иначе не стартует в оффлайне из-за гугловских фонтов (sic).

И теперь. Почему альпака эта думает что сей-час 10 окт. 2018? Почему зовётся Алексой и утверждает что работает в амазоне?
Как эта модель связана с амазоновской алексой?

MountainGoat Apr 13 2023 at 09:25

Ну а мне она прделагает купить офисную мебель. Потому что без настройки контекста, за контекст берётся какая-то совершенно случайная информация из тренировочного сета. А там полно объявлений и реклам алексы и вообще всего.
Как минимум, надо перевести приложение в режим "диалог" в настройках.
А запускаю я его, просто перетащив файл с моделью на .exe, и ничего никуда не надо класть.

heavy Apr 12 2023 at 18:37

llama.cpp так же обрезает ответ как kobold lite?
В последнем максимум 512 символов, не хватает для кода.

ligofff Apr 12 2023 at 19:51

Не должно ничего обрезаться насильно.
Если просто токенов не хватает, то просто нажми Enter с пустым промптом, и генерация продолжится с того места, где остановилась.

heavy Apr 12 2023 at 22:36

Помогло. Не очевидно.
Спасибо!

strelok_aka_vc Apr 12 2023 at 22:40

Есть какие то входные параметры сервера, чтоб использовать несколько графических процессоров? Например два 3060 по 12Гб, в сумме должны потянуть 30B модель

BugM Apr 13 2023 at 00:43

У них NVLINK нет. Они не могут работать вместе. Выбирайте 3080 или 3090.

strelok_aka_vc Apr 13 2023 at 17:04

Не знаком с NVLINK. Но это вероятно на аппаратном уровне объединение. В статье приводятся ключи запуска, позволяющие запускать нейронку на GPU с ее VRAM и частично добавлять RAM, если в GPU ее не хватает.

Также, есть способ разделить загруженную модель на VRAM и RAM - CPU Offloading. Для этого прописываем --pre_layer <число разделённых слоёв>, к примеру 20. Но работать возможно будет даже хуже, чем на полной загрузке в ОЗУ из первого способа.

Предположил, что есть возможность использовать свободную VRAM с соседнего GPU. Полагаю это должна быть именно софтверная реализация

UFO landed and left these words here

ipmacdns Apr 13 2023 at 05:41

В итоге есть вариант, в котором для бота можно будет дать доступ в инет, к браузеру, чтобы он нон-стопом обучался? К примеру если будет порядка 128гб озу...

Эти ограничения - 2021 год уже настолько надоели, что обесценивают функции в ноль, когда нужно провести анализ исходя из актуальных новостей и времени.

f614 Apr 13 2023 at 07:52

Во первых, для обучения нужно GPU а не ОЗУ.
При тюнинге модели на rtx3090 примерно 4 часа на 1 эпоху дообучения (датасет размером 100 000 пар вопрос-ответ), несколько эпох впринципе достаточно, что бы склонить модель пользоваться новой информацией.

Во вторых для большого количества информации с какого то момента дообучение перестанет давать хорошие результаты, следовательно модель надо обучать с нуля, а при доступных простым людям мощностях это вероятно не реализовать.

В третих нужен хороший парсер, что бы не обучать на мусоре, и это может стать основной проблеммой, парсер нужен не просто хороший, а почти совершенный, и в идеале его работу должен контролировать человек.

По итогу проще пойти по пути Бинг, не трогая модель подавать ей на вход 3-4 первых сайта с выдачи поисковика. Хотя и тут проблема вынуть релевантную информацию из страницы.

riky Apr 27 2023 at 21:44

Как раз 3090 завалялась. А обучение каким ПО производить?

ViRKiS Apr 13 2023 at 05:45

Все привет! Может кто подскажет:
на koboldcpp выдает: "OSError: [WinError -1073741795] Windows Error 0xc000001d"
Такая ошибка на любую модель. Гугл ничего не в состоянии подсказать.

MountainGoat Apr 13 2023 at 09:48

У вас какой-то dll не хватает. А какой - по ошибке не сказать. Посмотрите логи внимательнее. Прокрутите стандарное sfc + dism. Попробуйте переустановить VCRedistы начисто.

ligofff Apr 13 2023 at 14:15

Попробуйте запустить с --noavx2

Kotofay Apr 13 2023 at 17:47

Не помогает.

MikeH Apr 14 2023 at 06:26

Мне помогло, но ровно на 1 раз, поработало какое-то время и вылетело, после этого не работает, но ошибка уже другая, NetworkError when attempting to fetch resource .

MountainGoat Apr 13 2023 at 08:53

Кто-нибудь знает, почему он потребляет все ядра процессора, но только наполовину? Во что он упирается? Неужели в скорость памяти?. Сейчас у меня уходит 20 секунд на ответ. Если бы удалось удвоить скорость, было бы совсем нормально.

GabrielG Apr 13 2023 at 09:36

Если не ошибаюсь, там под копотом в есть настройка количества ядер, которые используются. Точнее, количество потоков, а они уже размазываются по ядрам... По крайней мере когда я тестировал ламу и альпаку, через аргументы можно было это настроить.
А на каком процессоре запускаете, что у вас 20 секунд на ответ? И с какой моделью? Это довольно неплохо, имхо.

MountainGoat Apr 13 2023 at 10:10

Ryzen 9 3950X. ggml-vicuna-13b-4bit.bin

Думаете, если поставить потоков больше чем ядер, то он повысит утилизацию процессора? Обычно так не происходит. Попробую.

GabrielG Apr 13 2023 at 10:36

Нет, сомневаюсь, что повысит. Может я неправильно выразился. Я исхожу из опыта с ламой\альпакой - при увеличении количества потоков до 9 наблюдал сокращение времени ответа, на 10 генерация уже начинала тупить (у меня 6\12)

janvarev Apr 13 2023 at 12:23

Я ставил число потоков = число ЛОГИЧЕСКИХ ядер - 2

Загрузка процессора повысилась, и генерация стала быстрее.

GabrielG Apr 13 2023 at 09:25

Подскажите пожалуйста пару вещей:

как в koboldcpp настроить количество используемых ядер cpu?
как создавать собственных персонажей? Или лучше использовать Kobold AI?

f614 Apr 13 2023 at 10:41

По поводу персонажей, можно написать нужный контекст во вкладке "Memory". Выберите сценарий вроде Emely и посмотрите в Memory как это примерно реализовано.
Все что в этой вкладке попросту "приклеивается" к каждому запросу.

По моим экспериментам простое указание вроде ты ассистент-программист/конструктор/врач на качество сгенерированного никак не влияет (может если подобрать правильные слова)

Насколько я понял вкладка "W info" работает схожим образом, но результаты так же не впечатляющие.

Hidden text

GabrielG Apr 13 2023 at 10:43

Спасибо, так и делаю, но это ведь только до перезапуска сервера, верно? А мне бы хотелось иметь возможность добавлять\править персонажей более удобным способом.

UFO landed and left these words here

GabrielG Apr 13 2023 at 13:44

То, что нужно, спасибо!

ligofff Apr 13 2023 at 14:17

Количество используемых потоков можно изменить через --threads <число>
Лучше ставить ваше максимальное-2

eps Apr 13 2023 at 12:56

Никто не пробовал этого Koboldcpp завернуть в Docker? На сервере без контейнеризации запускать что-то не хочется.

longtongue Apr 13 2023 at 14:17

Здравствуйте, Хватит ли процессора i5 11400 и 32Гб ОЗУ?

ligofff Apr 13 2023 at 14:17

Привет, да.

she1tan Apr 13 2023 at 14:18

У меня на 7950x с 32гб ddr5 на 30B ответ генерируется секунд 40-50, на 4090 на 13B ответ генерируется мгновенно, как будто с chatgpt общаюсь.

CodARM Apr 14 2023 at 10:15

Спасибо за хорошую статью, на выходных протестирую 65B модель на epyc 74f3(24 ядра)+256ddr4@3200 в 8 каналах, надеюсь сможет хотя бы отвечать на простые вопросы

CodARM Apr 16 2023 at 15:52

Протестировал, 8-и битная 65B модель ест 300 гигов ОЗУ(256+своп), 30-и ~200, и это грусно.
Прпробовал эту модель https://huggingface.co/CRD716/ggml-LLaMa-65B-4bit и она ест вообще мизер ОЗУ, но заметно глупее относительно 8 бит, к примеру, она не может ответить на необычный и специфичный вопрос "Какая истиная форма Асмодея?". 8 бит уничтожала ОЗУ и СВОП, но смогла ответить на вопрос, а вот 4 бита уворачивается как может

riky Apr 27 2023 at 21:48

А где 8 бит скачать? У меня 512 памяти, надо попробовать.

viktor_dee41 Apr 14 2023 at 12:23

подскажите как запустить koboldcpp на mac m1

touchnogadaur Apr 17 2023 at 06:34

вот такую ошибку выдает после любого запроса, не знаю что делать. В чем может быть проблема?

abconsult Apr 17 2023 at 06:41

Поставил GPT4xAlpaca 13B, запустил KoboldGPT, выдаёт ошибку в ответ.
Компьютер Intel(R) Core(TM) i7-10510U CPU @ 1.80GHz 2.30 GHz, памяти 16Gb
Как это исправить, подскажите, пожалуйста?

Barabas79 Apr 17 2023 at 06:53

Можно в консоли браузера попробовать посмотреть (F12) куда уходит ajax запрос, возможно не на нужный урл или порт

MikeH Apr 17 2023 at 11:43

В браузере поставить минимально приемлемые правила безопасности, а лучше завести под это дело отдельный браузер, чтобы можно было безболезненно переустанавливать, стирать кэш, играться с настройками.

rr7 Apr 18 2023 at 05:41

Установил GPT4-x-Alpaca-13B-ggml-4bit_2023-04-01. Выдает очень мало текста. Попросил написать эссе, выдал 2 строчки. Chat GPT написал норм эссе. Можно это как-нибудь исправить, или такая лаконичность - фича xD ??

support917 Apr 19 2023 at 08:56

Там есть ограничитель в настройках. Можете отправлять пустое сообщение в ответ, он будет продолжать свой рассказ, пока вам не надоест.

AlexanderS Apr 19 2023 at 08:52

koboldcpp отлично работает локально. Чего не скажешь о oobabooga — для загрузки GUI в браузере ему зачем-то нужен интернет, иначе будет вечно крутиться "Loading..."

Endlan Apr 20 2023 at 23:55

Скачайте installer_files.zip распакуйте в корень oobabooga с заменой (та же папка, где находятся installer_files) - будет работать без интернета. Подробнее тут кратко - это связано со шрифтами Google Fonts, которые gradio загружает из сети.

Второй вариант обновите репозиторий в папке text-generation-webui, автор oobabooga исправил проблему.

AlexanderS Apr 21 2023 at 11:52

Спасибо за наводку, попробую.

bedepay Apr 19 2023 at 11:09

Он у меня использует мало озу и всего 4 потока процессора... Как выделить ему больше ресурсов?

UFO landed and left these words here

Sklott Apr 19 2023 at 16:21

Если речь про koboldcpp используйте параметр --threads. Память он есть по необходимости, только если попробовать модель побольше.

psemilanceata Apr 21 2023 at 02:11

Увы, на всё один ответ: Error occurred during text generation.

andrewdurov Apr 24 2023 at 11:01

Перехожу по адресу в браузере, который дает koboldcpp и выходит ошибка подключения, в чем может быть дело?

alkresin Apr 25 2023 at 08:36

Продвинутые же пользователи могут подключиться к API запущенных моделей, и использовать их в своих проектах.

А подробнее можно? Где про это можно почитать?

UFO landed and left these words here

Markscheider May 31 2023 at 19:57

Кобольд в режиме Story работает, но как только переключаюсь в Chat Mode, в гуе выдает ошибку "Error while submitting prompt: TypeError: Failed to fetch" на любой запрос. Затем крашится вся программа.
Пробовал на разных моделях.
В консоли - стандартная ошибка "OSError: [WinError -1073741795] Windows Error 0xc000001d"

Что я не так делаю?
(Запускаюсь без avx ибо проц немолодой. Рама - 24Гб)

Komrus Aug 31 2023 at 09:01

А по итогам обновлений (которые от 09.08.2023) - ситуация с генерацией текстов на русском языке не улучшилась? Или все используют нейросети только для генерации программного кода? :)

cry_san Oct 30 2023 at 05:39

Пора бы еще раз статью обновить. Добавить новые модели.

Спасибо!

yppro May 16 2025 at 18:55

Провёл простой эксперимент:
1) Запустил одну и ту же модель на Cobold и LM Studiо.
2) Задал модели один и тот же вопрос.

Результат:
1) В LM Studio модель даёт нормальный ответ.
2) В Cobold эта же модель на этот же вопрос выдаёт какую-то хрень.

Есть идеи почему так?

punhin Jun 11 2025 at 06:09

Предположим, у меня есть сервер на Xeon e5-2699 (работает под линуксом), сейчас там стоит 64 ГБ оперативки. Есть ли смысл для работы с нейросетями наращивать оперативку? Предполагается работа с языковыми моделями, есть желание взять какую-то модель общего назначения и скормить ей книги по алгоритмам и языкам программирования (не по всем, а, предположим, только по PHP и JS), чтобы повысить её "экспертизу" в этом направлении и посмотреть, сможет ли нейросеть стать ассистентом. Есть возможность поставить для обучения Tesla M40-24GB (постоянно она там стоять точно не будет - очень шумное охлаждение системы "колхоз"). И, кстати, какую из моделей для таких экспериментов порекомендуете?

punhin Jun 11 2025 at 06:36

Если у вас 32ГБ ОЗУ, то можно запустить и 30B модель - качество будет сильно лучше, но скорость ниже.

Насколько сильно ниже будет скорость? А если ОЗУ 64 ГБ, то какую модель можно запустить? А на 128 или 256 ГБ какую? И насколько сильно просядет скорость? К сожалению, в плане использования нейросетей у меня мало знаний и опыта...