Comments 13
В последующих примерах использования я приведу мои запросы к ИИ
Не могли бы вы уточить: в приведённых примерах использовался mixtral-8×7b или OpenAI?
И ещё вопрос: что думаете по поводу того: чтобы использовать не Kobold.CPP, а oobabooga/text-generation-webui ?
Только mixtral. Только self-hosted.
В течении лета я попеременно пользовался Kobold.CPP и Oobabooga и второй регулярно оказывался хуже: то глючит, то отстаёт по действительно нужным фичам. С тех пор я бросил на него смотреть. Но ответить чётко нельзя, потому что речь о софте, который релизят каждые две-три недели и там, и там.
С рисованием, кстати, та же история: в Auto1111 фич больше, зато в InvokeAI они работают лучше. Сильно подозреваю, что все утилиты, взявшиеся за Gradio не могут управиться с этим зверем и он даёт им кучу проблем.
субъективно (Убунта + внешняя GeForce RTX 4090)
1) и кобольд и убабунга отлично работают с GGUF ( со всем остальным - раз через раз)
2) убабунга оказалась более требовательной к файловой системе (изза конды), поэтому пришлось шаманить
PS: я тоже за self-hosted. А иначе какой смысл ?
В чем разница между этим и стандартным ChatGPT или AI Assitant (платный) в Pycharm?
Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI
Разница в том, что это работает бесплатно, без ограничений на число запросов, без необходимости отправлять свои исходники в Америку, без покупки ключей на чёрном рынке или оплаты по схеме "Честное слово".
На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использовать сервис, за использование которого вас в любой момент может забанить не только сам сервис, но и ваш заказчик в России.
Если у вас контора, то ИИ сервер может быть один на всех, тогда вообще дешевле получается. Потому что если делить аккаунт ChatGPT между разработчиками, то там совсем грустные лимиты получаются.
Чат GPT имеет контекст и возможность продолжить разговор. На сегодняшний день я считаю, что такой вариант гораздо лучше, чем использование локально размещенного AI с ограничениями только для работы в EDI
Локально размещенный AI имеет всё то же самое. У Mixtral-а контекст 32к, у Yi-34b есть вообще варианта в 200к (реально норм отвечает на примерно 100к контекста, дальше путается), на 3090/4090 с определенным допущениями влазит порядка 60-75к.
Вот только скорость, скорость. Если LLM не влезла на видеокарту со всей требухой, то скорость чтения контекста около 20 токенов в секунду. 32к/20 = 1600 (26 минут)
Да, но для аналога копилота не надо 32к. Это контекст который для загрузки целых больших документов и книг обычно используется. И опять же - Yi-34b в exl2 влазит в уже не молодую 3090 вместе с 32к контекстом спокойно. А при определенных допущениях и с большим. И большинство бэкэндов контекст кэширует, так что даже если не влазит - долгое обращение лишь при первом запросе.
дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника
GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям."
Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах
Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.
Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?
Получается, что LLM снова уводит развитие IT от массового разработки к избранным
Откуда эти сведения берутся?
LLM размером 7b, заточенные под кодинг, уже неплохо помогают кодить. Чтобы их запускать и получать ответ моментально, нужна одна видеокарта типа 3060 с 8Гб памяти. Можно и вообще без видеокарты обойтись, одним процессором, тогда она будет писать текст со скоростью печатающей секретарши.
Пара 3090, чтобы гонять mixtral 8x7b на космической скорости, конечно стоит дорого, но, как я написал выше уже, её можно расшарить одну на предприятие или тусовку гиков вскладчину. Только тогда и нужна такая скорость, при которой ИИ печатает быстрее, чем можно читать. Ну или чтобы с большими контекстами работать.
Без космических требований к скорости, 8x7b отлично живёт и на одной 3090 и даже поскромнее. И совершенно необязательно, что в дальнейшем модели будут расти в размере - прирост размера не даёт пропорционального качества. Уже 2 поколения подряд 7B нового поколения обгоняют 30B предыдущего.
какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-)
"нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.
Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.
Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.
Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.
Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"
Это все игрушки, но в образовательных целях, конечно, отлично, что они есть
Так, вот я сейчас ограничил VRAM до 7 с хвостиком Гб и запустил mixtral-8x7b-instruct-v0.1.Q5_K_M.gguf.
Скорость получилась 275мс/токен. Да, конечно, это всё равно ядро 4090, но оно редко нагружается выше 25%, потому что всё равно всё упирается в скорость видеопамяти.
Не знаю, есть ли способ ограничить производительность ядра до уровня 3060.
Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть").
Если вы не гонитесь за космическими скоростями, то есть вариант с Tesla P40 за 160$. Да, зимой вместо отопления (3090 в этом плане не лучше), но за такую смешную цену вы даже 3060 не возьмете, а тут целые 24гб VRAM.
Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне