MountainGoat Jan 1 2024 at 21:40

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

Medium

17 min

13K

Abnormal programming * Artificial IntelligenceNatural Language Processing *

Review

+18

Comments 13

SlavikF Jan 2 2024 at 02:04

В последующих примерах использования я приведу мои запросы к ИИ

Не могли бы вы уточить: в приведённых примерах использовался mixtral-8×7b или OpenAI?

И ещё вопрос: что думаете по поводу того: чтобы использовать не Kobold.CPP, а oobabooga/text-generation-webui ?

MountainGoat Jan 2 2024 at 06:13

Только mixtral. Только self-hosted.

В течении лета я попеременно пользовался Kobold.CPP и Oobabooga и второй регулярно оказывался хуже: то глючит, то отстаёт по действительно нужным фичам. С тех пор я бросил на него смотреть. Но ответить чётко нельзя, потому что речь о софте, который релизят каждые две-три недели и там, и там.

С рисованием, кстати, та же история: в Auto1111 фич больше, зато в InvokeAI они работают лучше. Сильно подозреваю, что все утилиты, взявшиеся за Gradio не могут управиться с этим зверем и он даёт им кучу проблем.

vassabi Jan 2 2024 at 15:43

субъективно (Убунта + внешняя GeForce RTX 4090)

1) и кобольд и убабунга отлично работают с GGUF ( со всем остальным - раз через раз)
2) убабунга оказалась более требовательной к файловой системе (изза конды), поэтому пришлось шаманить

PS: я тоже за self-hosted. А иначе какой смысл ?

septa Jan 2 2024 at 15:55

В чем разница между этим и стандартным ChatGPT или AI Assitant (платный) в Pycharm?
Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI

MountainGoat Jan 2 2024 at 16:12

Разница в том, что это работает бесплатно, без ограничений на число запросов, без необходимости отправлять свои исходники в Америку, без покупки ключей на чёрном рынке или оплаты по схеме "Честное слово".

На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использовать сервис, за использование которого вас в любой момент может забанить не только сам сервис, но и ваш заказчик в России.

Если у вас контора, то ИИ сервер может быть один на всех, тогда вообще дешевле получается. Потому что если делить аккаунт ChatGPT между разработчиками, то там совсем грустные лимиты получаются.

logran Jan 2 2024 at 17:48

Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI

Локально размещенный AI имеет всё то же самое. У Mixtral-а контекст 32к, у Yi-34b есть вообще варианта в 200к (реально норм отвечает на примерно 100к контекста, дальше путается), на 3090/4090 с определенным допущениями влазит порядка 60-75к.

MountainGoat Jan 2 2024 at 17:55

Вот только скорость, скорость. Если LLM не влезла на видеокарту со всей требухой, то скорость чтения контекста около 20 токенов в секунду. 32к/20 = 1600 (26 минут)

logran Jan 3 2024 at 21:05

Да, но для аналога копилота не надо 32к. Это контекст который для загрузки целых больших документов и книг обычно используется. И опять же - Yi-34b в exl2 влазит в уже не молодую 3090 вместе с 32к контекстом спокойно. А при определенных допущениях и с большим. И большинство бэкэндов контекст кэширует, так что даже если не влазит - долгое обращение лишь при первом запросе.

vova_sam Jan 2 2024 at 16:41

дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника

GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям."
Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах

Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.

Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?

Получается, что LLM снова уводит развитие IT от массового разработки к избранным

MountainGoat Jan 2 2024 at 17:01

Откуда эти сведения берутся?

LLM размером 7b, заточенные под кодинг, уже неплохо помогают кодить. Чтобы их запускать и получать ответ моментально, нужна одна видеокарта типа 3060 с 8Гб памяти. Можно и вообще без видеокарты обойтись, одним процессором, тогда она будет писать текст со скоростью печатающей секретарши.

Пара 3090, чтобы гонять mixtral 8x7b на космической скорости, конечно стоит дорого, но, как я написал выше уже, её можно расшарить одну на предприятие или тусовку гиков вскладчину. Только тогда и нужна такая скорость, при которой ИИ печатает быстрее, чем можно читать. Ну или чтобы с большими контекстами работать.

Без космических требований к скорости, 8x7b отлично живёт и на одной 3090 и даже поскромнее. И совершенно необязательно, что в дальнейшем модели будут расти в размере - прирост размера не даёт пропорционального качества. Уже 2 поколения подряд 7B нового поколения обгоняют 30B предыдущего.

vova_sam Jan 2 2024 at 17:18

какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-)
"нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.

Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.

Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.

Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"

Это все игрушки, но в образовательных целях, конечно, отлично, что они есть

MountainGoat Jan 2 2024 at 17:46

Так, вот я сейчас ограничил VRAM до 7 с хвостиком Гб и запустил mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf. Скорость получилась 275мс/токен. Да, конечно, это всё равно ядро 4090, но оно редко нагружается выше 25%, потому что всё равно всё упирается в скорость видеопамяти.

Не знаю, есть ли способ ограничить производительность ядра до уровня 3060.

logran Jan 2 2024 at 17:51

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть").

Если вы не гонитесь за космическими скоростями, то есть вариант с Tesla P40 за 160$. Да, зимой вместо отопления (3090 в этом плане не лучше), но за такую смешную цену вы даже 3060 не возьмете, а тут целые 24гб VRAM.