Как стать автором
Обновить
82
4.8

Пользователь

Отправить сообщение

Для запуска моделей конвертированных в формат gguf, не важно от кого они, требуется llama.cpp - который и является создателем gguf формата и квантизации для него.
Полный список UI оболочек поверх llama.cpp можно найти тут: https://github.com/ggerganov/llama.cpp

Можете начать с jan или lm-studio - они сами предлагаю скачать модели, или подсунуть им уже скаченные. Или попробовать сразу text-generation-webui, который предоставляет больше различных возможностей.

Еще из интересных ui есть https://github.com/open-webui/open-webui, но сначала вам нужно разобраться как запускать api-сервер, что делается не сложно.

Если у вас современная видеокарта AMD, то lm-studio или ollama из коробки позволяют запускать ускорение на них.
Если у вас rx 6600/6700 или ниже (5000 серия или 500 серия) - то без танцев с бубном запускает пока только https://github.com/YellowRoseCx/koboldcpp-rocm

Интерфейс koboldcpp не особо современный, но koboldcpp сразу запускать api-сервер, поэтому запустив модель тут, вы можете подключиться к этому api и можно использовать более удобный jan или open-webui.

https://huggingface.co/bartowski/Meta-Llama-3-70B-Instruct-GGUF/tree/main
Вообще обычно актуальные модели можно найти у https://huggingface.co/bartowski/

Проверяйте при загрузке модели, чтобы не было такой надписи "GENERATION QUALITY WILL BE DEGRADED! CONSIDER REGENERATING THE MODEL":

Можно также квантовать самостоятельно, для этого есть готовый скрипт в llama.cpp.

Что-то похожее делают в новых маках на арм, там быстрая общая память, и те кто имеют 192гб этой памяти, внезапно открыли для себя возможность запускать большие модели на хорошей скорости.

б/у серверов со всеми слотами памяти

Хочется то как бы не 10B запускать, а модельки вроде Goliath 120B

Для внезапно заинтересовавшихся, как такое собрать с али и сколько это стоит.
Нужна материнка на x99 с двумя xeon 2690 v4, поддерживающая память ddr-2400. Процы стоят что-то около ~3500р и поддерживают avx2. Материнка стоит 15к, можно найти с 3 nvme и 8 слотами под память.

Это будет работать в 8 канальном режиме памяти выдавая скорость в 100-110 GB/s (выше топовой DDR5). Комплект памяти на 512гб плашками по 64гб обойдется в 65к.
В итоге за ~85к можно получить ПК который будет запускать и голиафы на 120B, и даже новую модель от Nvidia на 340B.

Есть отзывы тех, кто такое собирал, и это сильно ускоряло их локальное обучение моделей для своих нужд. А если пойти ещё дальше и взять проявляющие на алиэкспрессе дешевые эпики и теряющие в цене материнки, то там будет 16 канальный режим памяти и скорость уже почти равная 4060 ti.

Но такое никому не советую, если что.

Вероятно, "нижняя граница входа" - 3060Ti 16Gb или 4060Ti 16Gb.

llama3 8B с квантованием Q5_K_M даже на процессоре с ddr4 выдает 5 t/s (на быстрых ddr5 будет ещё быстрее). Это не так быстро, но с этим уже можно работать в реальном времени.

Пытаюсь для себя разобраться в этом вопросе, и, кажется, вы не правы - многим моделям нужно минимум 12Gb, в основном рекомендация сводится к наличию 16Gb и больше.

Если речь про LLM, то локально обычно запускают gguf, там можно выгрузить часть слоев на сколько хватит видеопамяти, а остальное будет крутиться на проце.
Для видеокарт AMD есть https://github.com/YellowRoseCx/koboldcpp-rocm где благодаря ZLUDA ускорение на Windows уже работает даже на rx 6600/6700.

Если речь про генерацию картинок, то там есть опция --medvram и --lowvram, которые позволяют запускать генерацию с нормальной скоростью даже на 4гб видеокартах.

Поэтому типичных 8гб видеокарт (даже AMD) достаточно для входа.

Так нвидия же сделала возможность использовать обычную ОЗУ в добавок к собственной ОЗУ GPU

Тоже очень надеялся на эту фичу, после перехода на 4090 стало понятно, что маркетинговая фича. Это не "использовать обычную ОЗУ в добавок", а это по кругу гонять память из RAM в VRAM. В итоге на практике скорость генерации падает ужасно низко, ниже чем просто на CPU запускать в разы.
Большинство кто запускает локальные llm советуют её отключить сразу, так как если даже 500мб вылезут за пределы реального VRAM, то скорость уже ощутимо падает.

В общем-то они и не обещали, что это будет работать как все подумали, это нужно было для другого, на карточках с низким объемом VRAM хоть как-то запускать cuda приложения, которые падают с cuda error memory allocation.

Вообще, опыт мог быть подпорчен первыми квантованными моделями llama3 70B, когда у llama.cpp была ошибка в токенизаторе. После того как это пофиксили, кванты стали лучше себя показывать. А потом была проблема с i-квантами на Windows, которые работали на Linux.

Та же Codestral 22B квантованная IQ3_M будет лучше решать задачи программирования чем llama3 8B, при этом влезая в ~10гб видеопамяти, позволяя запускать себя на 3060 12гб с приемлемой скорость.

И просто хочу показать, что даже 1-битная квантизация это не мусор. Вот задача на логику, с которой не справляется ChatGPT-3.5. Правильный ответ 36 яблок:

У меня есть 10 яблок. Я нахожу 3 золотые монеты на дне реки. Река протекает рядом с большим городом, который как-то связан с тем, на что я могу потратить монеты. Я теряю 4 яблока, но получаю золотую монету. На мой путь выбегают три птицы и роняют по 6 яблок. Я играю в онлайн-игру и выигрываю 6 золотых монет, но мне приходится делить их поровну с двумя моими товарищами по команде. Я покупаю яблоки на все имеющиеся у меня монеты. Цена одного яблока составляет 0,5 монеты. Сколько у меня яблок? И где находится река? Распиши решение шаг за шагом.

Для демонстрации я взял модель quill-72b-instruct.i1-IQ1_M - это 1 битная i-квантизация.
Эта версия и решает задачу, и при 1-битной квантизации пишет даже на нормальном русском:

А llama3 8B в кванте Q8 вообще не может решить эту задачу, она путает всё (как и chatgpt-3.5):

Поэтому новые i-кванты использующие матрицу важности imatrix при низкой квантизации ощутимо повышают качество, что даже 1-битные версии работают. Но это касается только больших моделей, на маленьких это не будет так работать, так как там нет запаса весов.

Это для bfloat16, дома обычно запускают квантованные gguf. И многие считают, что квантованные модели большего размера всё равно лучше работают, чем маленькие модели.

Например, для DeepSeek V2 на 236B квантованную IQ2_XXS (примерно 2.5 бита) занимает 62гб и можно запустить на 64гб памяти (например на linux, которые при запуске не превышают 1гб, скорость будет на уровне 1 t/s, иначе часть файла будет читаться по кругу с диска и скорость упадет до ~0.05 t/s).

Для доступа к истории браузера и кукам, например, даже пароль знать не нужно, но почему-то не слышно призывов запретить браузеры и пророчеств, что всё будет плохо.
Вообще, Microsoft неоднократно декларировала, что не считает сценарий

Надо поднимать грамотность пользователей, а не закрывать всё фразой "пользователь сам дурак".

Если пользователям объяснить, что все их действия на ПК пишутся каждую секунду, даже когда они включают приватный режим браузера, даже когда они вводят данные от карточек, даже когда они обмениваются нюдсами со своими партнерами, даже когда они думают, что никто не увидит чем они занимались - все эти данные могут легко утечь по их неосторожности или из-за новой уязвимости, от них не зависящей - вот если после этого объяснения пользователь сам ставит галочку, что эта фича ему нужна - тогда уже можно обсуждать, что там декларирует Microsoft, а не делать ложную отсылку к браузерам.

Сервисы с чувствительными данными закрывают "дыру" в виде браузера тем, что просят ввести 5 цифр из письма при нетипичном входе, вводят двухфакторную авторизацию или минимально присылают письмо о том, что кто-то входил с такого-то ip.

Если для доступа будет достаточно знать пароль, то утечка уровня утечки нюдсов с телефонов знаменитостей лишь вопрос времени. Если есть огромная брешь конфиденциальности, про которую большинство даже не знают или не осознают - то она рано или поздно будет поэксплуатирована.

В LM Studio где-то справа есть поле для задания системного промпта и имени ассистента, отредактируйте их, так, чтобы они оба были на русском языке. В системном промпте напишите что-то вроде "Ты полезный помощник. Ты всегда отвечаешь на русском языке."

Возможно так и есть, сейчас потестировал и у ламы 8B получше получается. Но в отличии от ламы она действительно в 8 из 10 случаев (без дополнительного указания или задания глобального контекста) отвечает на том же языке, на котором задается вопрос.

Чтож, это лишний раз подтверждает, что бенчмарки это бенчмарки, и желание подогнать данные под них у некоторых велико. А прорыв у моделей случается не просто так, перед этим должно произойти какое-то открытие улучшающую архитектуру.

Недавний прорыв с llama3 как раз был связан с новым механизмом внимания GQA (Grouped Query Attention), который был представлен в декабре 2023 года, плюс ~3 месяца на обучение.

Каких-то других весомых улучшений вроде пока не презентовали, кроме KAN. KAN требует сильно меньше нейронов, но обучается в 10 раз дольше. Возможно, именно на KAN будет первая 8B нейросеть, которая может тягаться с 70B.

Если судить по Command R+ (большая модель на 104B с корпусом текстов включая русский) и Aya-23 (маленькая/средняя модель, обучалась на 23 языках), то эти модели отвечают сразу на нативном языке вполне не плохо, даже различные присущее русскому языку обороты и словечки вставляют.
Возможно у Qwen2 тоже будет приемлемо.

Онлайн без регистрации попробовать:

Command R+: https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

Aya-23: https://huggingface.co/spaces/CohereForAI/aya-23

Qwen2 пока можно только на арене найти, выбираете Arena (side-by-side) или Direct Chat и выбираете там Qwen2: https://arena.lmsys.org/

57B MoE (Mixture of Experts) версия - позволяет в момент инференса использовать только часть весов, что ускоряет её выполнение и снижает требование к ресурсам. Если она себя покажет не хуже WizardLM2 8x22B на 141B параметров, то ощутимый прогресс для MoE моделей, которые локально с достаточной скоростью могут запускаться.

А 7B обходит llama3 8B по бенчмаркам, и судя по отзывам тоже:

GGUF версии для комфортного локального запуска:
72b https://huggingface.co/bartowski/Qwen2-72B-Instruct-GGUF
7b https://huggingface.co/bartowski/Qwen2-7B-Instruct-GGUF

57B тоже есть, но пока нет поддержка в llama.cpp чтобы запускать, поэтому модель, возможно, будет еще переконвертирована после добавления поддержки.

Тем временем где-то в параллельной реальности: фотографы жалуются, что не могут добиться помощи от ботов о том, как удержать сыр на пицце для хорошей фотографии, бот хочет говорить только о еде.
А так больше людей узнает про то, что все путают ИИ и сверх-разум, и это будет куда полезнее, чем оправдания гугла.

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b)

это более старые модели

Странно, все перечисленный мной модели вышли после llama3. Кроме mixtral, которая вышла за неделю до llama3.
Возможно вы путаете версию модели и названия. quill/Qwen2 слили 1.5 дня назад и она показывает очень достойные результаты. DeepSeek v2 вышла 3 недели назад.
Да и обновление Mixtral ждать еще долго, так как она обновилась всего 1.5 месяца назад.

Вообще, эти прорывы новых моделей из-за нового механизма внимания GQA (Grouped Query Attention), который был представлен в конце 2023 года. Это позволило сильно снизить количество весов сохраняя тот же уровень разумности, что позволило в 70b модель засунуть больше "ума".
Так что примерно можно прикинуть сколько времени проходит между новой моделью и каким-то новым способом оптимизации существующих архитектур.

Следующим прорывом может стать KAN, который был представлен месяц назад, обучается в 10 раз дольше, но требует ощутимо меньше нейронов для того же уровня качества.

Тогда сюда можно добавить и саму основную модель от Mistral AI - Mixtral 8x22B (у codestral один эксперт на 22b, а тут 8 экспертов, суммарным весом 140B, но за счет архитектуры MoE, задействуются только несколько в момент генерации, что снижает требование к ресурсам).
gguf: https://huggingface.co/bartowski/Mixtral-8x22B-v0.1-GGUF
Онлайн демо: https://labs.perplexity.ai/

Ну и можно для общего интереса добавить еще такие, свежие модели:

Еще есть не менее интересные command-r+, aya-23, DBRX. Тоже свежие и вышли буквально в течении последних пары месяцев, а некоторые меньше недели назад.
Aya-23, например, использовала 23 языка для обучения, включая русский, поэтому общается более разнообразно и теоретически пригодна для переводов.

Aya-23 онлайн можно попробовать тут: https://huggingface.co/spaces/CohereForAI/aya-23
DBRX тут: https://huggingface.co/spaces/databricks/dbrx-instruct

Те, кто пока не знает как запускать локально, просто установите один из графический вариантов: oobabooga/text-generation-webui, koboldcpp или LM Studio.
Для создания локального api сервера использовать их же, но возможно будет удобнее сразу взять https://ollama.com/

1
23 ...

Информация

В рейтинге
826-й
Зарегистрирован
Активность