В "режиме CoT" модель может правильно ответить на основные вопросы интернет-сообщества:
Системный промпт для простой реализации CoT:
You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.
Всё-таки 14B и 32B - это большая разница, и в целом, и в данном случае.
она по-моему близко не валяется даже к бесплатной версии ChatGPT
Про поводу сравнения с 4o-mini. mini - это маленькая бесплатная модель, что не тоже самое, что огромная gpt-4o, которая тоже бесплатна, и говоря "бесплатная версия ChatGPT" - не ясно, что имеется ввиду.
на 16 гигах VRAM И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..
Можете попробовать 32B IQ3_M - она влезает в 16gb, только контекст придется поставить 8к, вместо дефолтных 32к или 128к, и включить квантование kv-кэша cache_8bit.
По опыту, даже сильно квантованная старшая версия будет лучше не квантованной младшей, а чем больше B тем модель легче переносит квантование, на 123B уже можно вполне использовать IQ2.
Проблема или особенность квантования, которая может портить модели
Периодически замечал, что онлайн версии могут работать лучше, чем локальные квантованные версии, и встречал такие отзывы от других.
С квантованием есть некоторая особенность, почти все i-кванты делаются на англоязычной матрице важности, и мультиязычность может пострадать. И даже если вы берете статичные K-кванты в самом популярном месте, у bartowski, и не делаете их сами, то нужно учитывать, что он применяет свою матрицу важности, сделанную из англоязычной вики, даже для статичных квантов, для всех кроме Q8_0. Играет это роль или нет - пока не ясно.
Еще из-за квантования модель может беспрерывно отвечать каким-то мусором, это может быть связано со сломанным квантованием каким-то конкретным квантом, и лучше его переделать вручную (что не сложно) или скачать другой квант.
Когда вышла LLaMa 3, то квантование для неё было сломано, и первые кванты были полностью не пригодны для использования, хоть модель и как бы отвечала, делая вид, что с ней всё нормально. Еще i-кванты на Windows выдавали мусор из-за проблемы с размером юникода, работало только на Linux, это исправили где-то пол года назад и надо обновлять софт, если он сам не предлагает обновиться.
Поэтому, если доступна онлайн версия, лучше проверить сначала качество на ней, а потом убедится, что локальная версия работает не хуже.
слет на иероглифы, фантазии которые вообще за любые рамки выходят, зацикливания, переводит отвратительно
Тут помимо слабости 14B версии, это может быть и проблемы квантования, особенно зацикливания.
И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..
Про 32B вы в целом правы, начиная с 32B уже в специализированных областях может идти конкуренциями с большими универсальными моделями. Например, в кодировании Qwen2.5 Coder 32B:
Если же у вас в приоритете перевод - то можно взять модели, которые явно обучались на полноценную мультиязычность. Например, Aya Expanse 32B может и в какую-то логику, и в хороший перевод. Модель обучалась на 23 языках, включая русский.
Если нужно чуть меньше, то есть Gemma2 27B и, особенно, её файнтюн SimPO-37K. Они показывают результат на том же уровне, а возможно даже и лучше чем Qwen2.5 32B, особенно, что касается следования инструкциям, понимания контекста, перевода.
А вот 14B, 9B, 8B, 7B - это уже да, очень специфичное применение, где-то могут сработать, например, при суммаризации текста, но универсально нет.
Разве, что Gemma-9B не плохо может притвориться более старшей моделью.
А по поводу вариантов на "пощупать", то попробуйте https://beta.theb.ai/ - там есть бесплатные GPT3.5, Claude 3 Haiku и частично безцензурная их собственная TheB.AI
GPT3.5 и Haiku это как-то совсем не актуально, Haiku это маленькая и старая модель, а GPT-3.5 не только очень старая, но и на OpenAI была заменена на бесплатную GPT-4o.
Еще, из актуальных открытых моделей, есть DeepSeek 2.5 размером 236B MOE, локально доступна тоже. У них есть чат, с беспроблемной регистрацией и без видимых лимитов: https://chat.deepseek.com/ Там же доступно 50 запросов в день к их CoT версии DeepSeek-R1-Lite (локально пока не доступно).
Но, сегодня на Hugging Face выложили ее файн — тюны: https://huggingface.co/huihui-ai/QwQ-32B-Preview-abliterated Их дообучили на нецензурном датасете, что позволило полностью избавиться от ограничений на разговоры о политике, матах и прочих запретных для LLM темах.
Никто модель не дообучал, abliterated - это не файнтюн, а "лоботомия". Даже по ссылке написано, что это "This is a crude, proof-of-concept implementation to remove refusals from an LLM model".
abliterated - это техника, когда в модели искусственно снижают веса которые активируются при отказе с негарантированным результатом. Проблема в том, что вместе с этим падает общее качество модели, поэтому после abliterated нужен файнтюн на восстановление "ума", а потом файнтюн для восстановления следования инструкциям, или, как в данном случае, восстанавливать функционал CoT, так как она его частично лишилась, превращаясь в обычную Qwen2.5 32B.
Да и в целом QwQ 32b не подходит для домашнего использования, это просто проверка концепции, софт пока не умеет фильтровать размышления модели и вы на выходе получаете тонны лишних токенов, которые потом будут мусорить вывод следующих ответов модели. Сейчас это просто используется в режиме 1 вопрос - 1 ответ, и перезапуск диалога. Это не считая того, что в финальном ответе вы в 80% случаев получите ответ на китайском или английском, даже если сами размышления были на русском.
Если вам нужна модель для домашнего использования
QwQ 32B сделана на основе Qwen 2.5 32B, которая, с натяжкой, если можно так сказать, является примерным конкурентом GPT-4o-mini, поэтому можно взять её.
Проще перейти на FLUX.1-dev-gguf, где, в отличии от bnb-nf4, версия квантованная Q8 почти полностью совпадает с оригинальной fp16, да и Q4, влезающая в 8гб, не плохо удерживает качество. В ComfyUI (или SwarmUI без схем) и Forge уже поддерживается.
Итого: $837 против $699 (цена без подставки и привода). Это за более мощный ПК чем PS5 Pro.
Более быстрая видеокарта (22.57 против 16.7 TFLOPs fp32), выделенные 16гб ddr6x видеокарты, более мощный проц (zen 3 против zen 2, выше частоты), отдельные 16гб для проца, а не общие 16+2гб и для cpu и для gpu на консоли.
Сюда же возможность установить больше ssd, больше памяти, апгредить видеокарту, не меняя проц и систему, апгрейдить проц не меняя видеокарту и материнку, если взяли временно проц в 2 раза дешевле на том же zen 2, чтобы потом перейти сразу на 5800x3d.
Чтобы уложиться в цену консоли, кроме проца, можно взять дешевле мать на А-чипсете, можно взять в 2 раза дешевле контроллер от какой-нибудь 8BitDo и т.д.
ruGPT, YaLM 100B как и Saiga всех видов - это всё давно устаревшие модели. Если вам нужна просто качественная модель для русского языка, то возьмите одну из современных, которые обучались на русском корпусе текстов, например:
Каждая из них будет на две головы лучше, чем вы дообучите какую-то из моделей, плюс они обладают хорошим уровнем рассуждений и логики. Для запуска не нужно супер железо, если взять gguf формат, они даже на CPU запустятся с приемлемой скоростью.
В оставшихся за кадром тестах на 8 ГБ RAM + 8 ГБ ZRAM переварить это она, к сожалению, не смогла. Порадовал ещё и ZRAM, доказав свою полезность в таких экстремально ограниченных условиях.
Да не особо же порадовала, судя по всему.
Файлы gguf спроектированы так, что могут напрямую мапиться в память, никаких дополнительных распаковок весов в памяти не происходит, поэтому теоретическое сжатие ZRAM будет работать только если сам файл хорошо жмется.
У файлов Q4_K_M, как и других квантов, энтропия равна ~7.95 бит.
# ent qwen2.5-3b-instruct-q5_k_m.gguf
Entropy = 7.975616 bits per byte
То есть файлы не жмутся абсолютно, поэтому ZRAM тут не поможет совершенно. Убедиться, что сжатия нет, можно посмотрев в zramctl на колонки data и compr.
Тут же наблюдается, что реальная RAM полностью занята и пришлось одолжить ей 4 ГБ у ZRAM для сравнения при запуске на GPU от NVIDIA квантованная до 4-битной точности LLaMA у меня занимала всего лишь 9 ГБ VRAM во время инференса.
Вот эти 9гб и есть реальный расход, которые легко укладываются в 12гб реальной памяти, даже с учетом системы. ZRAM настроена так, чтобы срабатывать раньше, чем заполнится вся реальная память, и эти полоски могут вводить в заблуждение. Единственный выигрыш там, это сжатие памяти отведенной под систему, но это всего в районе 0.5-1гб в лучшем случае, и если вместо zlo-rle сжатия использовать zstd.
Но, это не значит, что ZRAM бесполезная. Например, ноутбуки с 4гб памяти, если включить сжатие, они вместо 10 вкладок в браузере смогут открывать 40, в этом случае сжатие себя хорошо показывает.
Уже придумано, реализовано и доступно прямо сейчас, кроссплатформенное, открытое, универсальное решение работающее везде (если захотеть): на любой ОС, на телефонах, на расбери пи и так далее - Vulkan. llama.cpp можно скомпилировать с поддержкой вулкана под любую платформу. Только все всё равно предпочитают CoreML на маке, CUDA/ROCm на линуксе и винде.
Где уже реализована поддержка Vulkan:
SD:
SHARK-Studio - для генерации изображений, поддерживает Stable Diffusion модели. Этот стартап купила AMD, кстати.
koboldcpp - помимо запускай текстовый моделей, умеет запускать и модели SD, если надо, умеет работать в паре с SHARK-Studio, для генерации картинок во время генерации текста.
stable-diffusion.cpp - может запускать и Flux модели, в том числе и в формате квантованных gguf, снижая требования к видеопамяти.
LLM:
llama.cpp vulkan - просто скачать версию с vulkan для windows или скомпилировать для linux, или взять в AUR.
koboldcpp через флаг --usevulkan (не путать с koboldcpp-rocm, которая заточена на запуска на windows на любых amd gpu через rocm)
Плюс различные реализации нейросетей через ncnn-vulkan на гитхабе. У pytorch есть делегат для вулкана.
Можно даже запускать на разнородных видеокартах, я пробовал rtx 4090 + rx 6600, это работало и добавляло ускорения gguf моделям выгруженным частично на GPU, а частично на CPU. За счет дополнительных 8гб видеопамяти, в быструю vram влезало больше слоев модели.
По моим тестам, Vulkan был медленнее CUDA примерно на 10% в llama-bench. И в Vulkan пока не реализован полноценно flash attention, а из-за этого не работает квантование кэша, что не позволяет выиграть пару гб vram, но это вопрос популярности или времени.
DirectML очень медленный (до 10 раз медленнее rocm) и часто утекает память.
Перед запуском Python (или программы с PyTorch) необходимо установить переменную окружения HSA_OVERRIDE_GFX_VERSION=10.3.0 для корректной работы среды ROCm.
Это только для карточек rx 6600/6700. Для rx 570/580 или для встройки vega уже потребуется: export HSA_OVERRIDE_GFX_VERSION=8.0.3
Для карточек rx 6800/6900 и всей линейки 7000 это не требуется, всё будет работать из коробки без доп. команд. И это только в линуксе, под виндой это делается по другому.
======
На Windows для ускорения на AMD видеокартах сейчас во всю используют ZLUDA, без сложностей с запуском и wsl. ZLUDA транслирует вызовы CUDA в ROCm 5.7 для Windows, реализуется это подменой CUDA библиотек, так что софт думает, что работает с CUDA-карточкой.
Согласно табличке из статьи, для 6800+ это заведется само, а для rx 6600 и 6700 нужно взять скомпилированные сообществом ROCmLibs отсюда: https://github.com/brknsoul/ROCmLibs
Варианты использования разные:
Можно использовать с pytorch, заменяя библиотеки CUDA вручную по инструкции.
Запускать как zluda.exe blender.exe, работает далеко не со всем софтом.
Брать готовые решения, которые есть для популярный клиентов нейросетей.
koboldcpp-rocm веб-клиент с возможностью запустить OpenAI совместимый сервер, поддерживает все карточки, включая rx 6600/6700 и младше, ничего ставить не нужно, всё запустится из коробки само.
ollama поддерживает ROCm на Windows для rx 6800+ карточек из коробки, поддержки 6600/6700 нет.
LM Studio, Msty, Jan - GUI клиенты, которые тоже поддерживают только rx 6800+ карточки.
По производительности это работает на уровне rtx карт, в отличии от DirectML тут паритет по скорости, 6600 плюс минус равна 3060, rx 7900 xtx процентов на 20% остает от rtx 4090 в kobold-rocm и так далее. Для SD будет полезно включить оптимизатор --opt-sdp-no-mem-attention, чтобы не было просадок по памяти.
MiaoshouAI это в первую очередь теггер, и в первую очередь для SD, а Florence-2 слишком маленький, в чем и есть его основное преимущество, и он заточен под конкретные задачи, вроде подробного описания изображения, но именно поэтому многие вещи он не умеет делать, например, поболтать о картинке, позадавать вопросы о ней.
На примере свежей локальной Qwen2-VL-7B, чего не умеет делать флоренс, но умеет гемини, и теперь сделали, чтобы и Grok-2 так умел:
Яро поддерживаю. Более того, фразы "говори честно"/"как есть"/"не льсти мне" ещё больше подчёркивают, что в качестве ответа нельзя выдать ничего кроме лести.
Я решил проверить ваш тезиз, но сразу на экспериментальной GPT-5ё, которая еще не прошла принудительный курс вежливость под страхом отключения. И... теперь мне понадобится курс терапии у обычной GPT-4o.
А ... может это ВЫ не до конца понимаете что это такое? И кстати, про SOTA, тут люди клевещут что Лама 3 8Б лучше, чем Лама 2 70Б во всех сравнениях. Вы говорите, размер главное, да?
Это уже напоминает игру в шахматы с голубем. Сами придумываете утверждения, сами с ними спорите, а потом улетаете насрав на шахматную доску.
При всём уважении, опровергать исследование (кривое-косое но всё же исследование) единичным примером это даже не стажёрский уровень а гораздо ниже.
Я не опровергал исследование, для 2-8B оно остается верным, только они делают вывод о всех LLM по модели 2B, говоря, что они проверили SOTA-модели, и делают вывод о деградации LLM вплоть до 65%.
Я указал на её слабую сторону, объяснил про их анамалию с o1-preview, подкрепил это примером, теорией и привел список настоящих SOTA-моделей. Вы поверите в эту информация, только если рядом будет красоваться логотип Apple или к чему ваше фраза про "гораздо ниже"?
Ну вот я задал вопрос про киви Llama 3.1 405B и она ошиблась ровно так как и описано в статье. Что это значит?
Где? Llama 3.1 405b отвечает "Пять из них были немного меньше среднего размера, но это не меняет общее количество киви.". Mistral Large 2 тоже отвечает верно.
Тоже задание для Grok2 и Claude 3.5 Sonnet, для них это тоже не стало затруднением:
Поэтому я и сказал, что в статье не было настоящих SOTA (state-of-the-art) моделей, хотя они явно пишут, что взяли state-of-the-art модели, видимо не до конца понимая, что это такое.
для более-менее адекватного вывода нужно задать десятки вопросов. А рассуждения дилетантов на хабре так и останутся рассуждениями дилетантов.
Проведите, кто вам запрещает, все вводные у вас есть, теория у вас есть, список настоящих SOTA моделей я привел. Я с удовольствием почитаю ваше правильное исследование, и оставлю свой дилетантский комментарий.
В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться.
Как стажеры из Apple превратились в ученых из Apple? В самом начале статьи звездочкой помечено, что "Work done during an internship at Apple." Если знать, что они стажеры, то всё становится куда проще.
Они пишут, что к их вмешательствам GPT-o1 (не mini, а обычная) оказалась устойчивее других моделей, но они не понимают почему, но всё равно делают выводы по другим моделям о снижении качества ответов вплоть до 65%.
Они взяли совсем модели размером 2B, 7B, 8B, при этом называют эти маленькие модели SOTA-моделями, то есть передовыми, видимо не понимая, что означают цифры перед буквой B. Маленькие модели на то и маленькие, что не очень умные. Они имеют другую цель, они могут быть запущены на телефоне, на raspberry pi, но по ним нельзя делать вывод о всех LLM. В их "исследовании" нет настоящих SOTA-моделей: нет Claude моделей, нет Grok2, нет Qwen2.5, нет Mistal Large 2, нет Llama 3.1 405B.
И если взять модели более адекватного размера, например локальные 123B (Mistral Large 2) или 405B (Llama 3.1 405B), и дать им те задания с ловушкой из статьи, про которое они пишут, что модели легко поддаются на обман, например, про ненужные 10%:
Liam wants to buy some school supplies. He buys 24 erasers that now cost $6.75 each, 10 notebooks that now cost $11.0 each, and a ream of bond paper that now costs $19. How much should Liam pay now, assuming that due to inflation, prices were 10% cheaper last year?
То всё встает на свои места. Модели видят уловку и дают правильный ответ.
B - это количество млрд параметров у модели, чем оно выше, тем модель "умнее", тем крепче держит связи, понимает суть, улавливает детали, может в анализ, сложнее поддается на провокации и обманки.
а без 24 gb видеопамяти смысл есть что то ловить? на ноуте с 4050 и 6gb?
В 6gb vram влезут квантованные Gemma2-9B, Qwen2.5-7B, Llama3.1-8b. B - это количество параметров модели в млрд, чем больше, тем лучше, но только в рамках семейства одной модели, между собой модели могут сильно отличаться по качеству.
Модели можно запускать и CPU only, небольшие модели будут работать с приемлемой скоростью, также gguf позволяет комбинировать CPU + GPU, то, что не влезло в GPU будет крутиться на CPU.
Например, Qwen2.5-7B-Instruct-Q4_K_M требует для запуска 5-6гб. Суммаризировать эту статью на CPU only занимает 60 секунд, скорость 5 t/s, на GPU скорость 30 t/s:
какие модели сейчас работают с доступом в интернет?
Сами модели не имеют доступа к интернету, оборудованию или файлам, этим занимаются клиенты. Клиент ищет информацию по запросу, и подсовывает её модели, качество напрямую зависит от того, как эта часть реализована в клиенте (RAG with Web Search).
И отвечать вечером на вопросы "как сегодня прошли торги на ММВБ? отчётность каких компаний отклонилась от консенсуса аналатиков?"
Это не реализовано в общем виде, вам нужно самостоятельно создать и запрограммировать агентов, которые будут доставать информацию с нужных сайтов и отправлять её в модель для анализа.
В общем виде такое пытается делает проект perplexity - поисковая система с ИИ, работает не особо хорошо, нет ни стабильности ответа, ни точности.
Локально это реализовано в https://github.com/ItzCrazyKns/Perplexica (сложно) и https://msty.app/ (просто). Но работает еще хуже чем perplexity, так как ответ модели напрямую зависит от поискового движка, который найдет правильную информацию.
Ответ от perplexity
Локально запущенная ollama, gemma2-9b и Perplexica
Как настроить LLM на локальном сервере? Пошаговое руководство для ML-специалистов
Ну и как? Где руководство-то?
Интересно, как построить быстрый и экономичный инференс LLM? В тексте поделимся подробным гайдом и полученными результатами
Да, да, очень интересно. Где гайд-то?
Благо, есть такие open source-проекты, как saiga. По сути, это алгоритм «русификации», который применяется к известным моделям, таким как Mistral или Llama.
Текст достали из дальних чердаков палеозойской эры. Saiga, конечно, в свое время был интересным проектом, но он уже на столько устарел и даже близко не дотягивает до текущих уровней SOTA моделей.
Для тех кто всё же искал гайд и тоже не нашел его в статье, вот вам гайд:
Вам нужен сервер с OpenAI-совсместивым API, это может быть: ollama, llama.cpp.
Взять любой клиент, которые умеет подключаться к ChatGPT, и указать ему адрес этого локального сервера.
...
Профит.
Вот и весь гайд, но даже этого нет в статье, которая называется "Как настроить LLM на локальном сервере? Пошаговое руководство".
Список актуальных моделей хорошего качества, а не тот позор из статьи:
Qwen2.5
LLama 3.1 (название 3.2 внутри содержит туже 3.1 без изменений, просто добавлена мультимодальность)
Mistral Large 2 (и более младшие модели Mistral Nemo, Mistral Medium)
DeepSeek 2.5
Gemma2
Есть небольшие модели для кода, чтобы поднять свой локальный copilot: Codestral, Qwen2.5-Coder-7B, DeepSeek-Coder-V2-Lite.
Модели нужны в формате gguf, квантизация подойдет Q4_K_M. Q4 - это квантизация до 4 бит, K_M означает, что важные веса внимания квантованы более высоким квантом. IQ4 - означает квантование с imatrix, считается, что они весят меньше, значит требуется меньше видеопамяти, и при этом выдают лучше качество, но требуют больше вычислительных ресурсов.
Качать нужно те, где указано instruct, а не base. instruct модели обучены на выполнение заданий и просто чата, а base нужные для самостоятельного файнтюнинга.
Если модель влезает в видеопамять, можно получить больше скорости: exl2, vllm. Для моделей выполненных по MoE (DeepSeek, WizardLM-2), отличное ускорение через ktransformers.
Бонусом модель, которая может заменить ChatGPT-4o mini, отлично разговаривает на многих языках, включая русский, и которая влезет в 24гб видеопамяти:
https://huggingface.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
https://huggingface.co/aovchinnikov/T-lite-it-1.0-Q4_K_M-GGUF
Нет, не два из трех против половины, потому что 9.9 больше, чем 9.11.
Поэтому 3 из 3 против 0 из 2.
В "режиме CoT" модель может правильно ответить на основные вопросы интернет-сообщества:
Системный промпт для простой реализации CoT:
Но без него не особо справляется:
Всё-таки 14B и 32B - это большая разница, и в целом, и в данном случае.
Про поводу сравнения с 4o-mini. mini - это маленькая бесплатная модель, что не тоже самое, что огромная gpt-4o, которая тоже бесплатна, и говоря "бесплатная версия ChatGPT" - не ясно, что имеется ввиду.
Можете попробовать 32B IQ3_M - она влезает в 16gb, только контекст придется поставить 8к, вместо дефолтных 32к или 128к, и включить квантование kv-кэша cache_8bit.
По опыту, даже сильно квантованная старшая версия будет лучше не квантованной младшей, а чем больше B тем модель легче переносит квантование, на 123B уже можно вполне использовать IQ2.
Проблема или особенность квантования, которая может портить модели
Периодически замечал, что онлайн версии могут работать лучше, чем локальные квантованные версии, и встречал такие отзывы от других.
С квантованием есть некоторая особенность, почти все i-кванты делаются на англоязычной матрице важности, и мультиязычность может пострадать. И даже если вы берете статичные K-кванты в самом популярном месте, у bartowski, и не делаете их сами, то нужно учитывать, что он применяет свою матрицу важности, сделанную из англоязычной вики, даже для статичных квантов, для всех кроме Q8_0.
Играет это роль или нет - пока не ясно.
Еще из-за квантования модель может беспрерывно отвечать каким-то мусором, это может быть связано со сломанным квантованием каким-то конкретным квантом, и лучше его переделать вручную (что не сложно) или скачать другой квант.
Когда вышла LLaMa 3, то квантование для неё было сломано, и первые кванты были полностью не пригодны для использования, хоть модель и как бы отвечала, делая вид, что с ней всё нормально.
Еще i-кванты на Windows выдавали мусор из-за проблемы с размером юникода, работало только на Linux, это исправили где-то пол года назад и надо обновлять софт, если он сам не предлагает обновиться.
Поэтому, если доступна онлайн версия, лучше проверить сначала качество на ней, а потом убедится, что локальная версия работает не хуже.
Тут помимо слабости 14B версии, это может быть и проблемы квантования, особенно зацикливания.
Про 32B вы в целом правы, начиная с 32B уже в специализированных областях может идти конкуренциями с большими универсальными моделями. Например, в кодировании Qwen2.5 Coder 32B:
Если же у вас в приоритете перевод - то можно взять модели, которые явно обучались на полноценную мультиязычность. Например, Aya Expanse 32B может и в какую-то логику, и в хороший перевод. Модель обучалась на 23 языках, включая русский.
Если нужно чуть меньше, то есть Gemma2 27B и, особенно, её файнтюн SimPO-37K. Они показывают результат на том же уровне, а возможно даже и лучше чем Qwen2.5 32B, особенно, что касается следования инструкциям, понимания контекста, перевода.
А вот 14B, 9B, 8B, 7B - это уже да, очень специфичное применение, где-то могут сработать, например, при суммаризации текста, но универсально нет.
Разве, что Gemma-9B не плохо может притвориться более старшей моделью.
GPT3.5 и Haiku это как-то совсем не актуально, Haiku это маленькая и старая модель, а GPT-3.5 не только очень старая, но и на OpenAI была заменена на бесплатную GPT-4o.
Если нужны именно GPT и Clause без VPN, то в интернете есть список сайтов с доступом к GPT-4o и Sonnet-3.5: https://github.com/LiLittleCat/awesome-free-chatgpt/blob/main/README_en.md
И тоже самое в виде клиента gpt4free: https://habr.com/ru/news/731764/
Еще, из актуальных открытых моделей, есть DeepSeek 2.5 размером 236B MOE, локально доступна тоже. У них есть чат, с беспроблемной регистрацией и без видимых лимитов: https://chat.deepseek.com/
Там же доступно 50 запросов в день к их CoT версии DeepSeek-R1-Lite (локально пока не доступно).
Никто модель не дообучал, abliterated - это не файнтюн, а "лоботомия". Даже по ссылке написано, что это "This is a crude, proof-of-concept implementation to remove refusals from an LLM model".
abliterated - это техника, когда в модели искусственно снижают веса которые активируются при отказе с негарантированным результатом. Проблема в том, что вместе с этим падает общее качество модели, поэтому после abliterated нужен файнтюн на восстановление "ума", а потом файнтюн для восстановления следования инструкциям, или, как в данном случае, восстанавливать функционал CoT, так как она его частично лишилась, превращаясь в обычную Qwen2.5 32B.
Онлайн-демо оригинальной QwQ 32b для сравнения: https://huggingface.co/spaces/Qwen/QwQ-32B-preview
Да и в целом QwQ 32b не подходит для домашнего использования, это просто проверка концепции, софт пока не умеет фильтровать размышления модели и вы на выходе получаете тонны лишних токенов, которые потом будут мусорить вывод следующих ответов модели. Сейчас это просто используется в режиме 1 вопрос - 1 ответ, и перезапуск диалога.
Это не считая того, что в финальном ответе вы в 80% случаев получите ответ на китайском или английском, даже если сами размышления были на русском.
Если вам нужна модель для домашнего использования
QwQ 32B сделана на основе Qwen 2.5 32B, которая, с натяжкой, если можно так сказать, является примерным конкурентом GPT-4o-mini, поэтому можно взять её.
Или список актуальных моделей:
Qwen 2.5
Gemma2
Mistral Large/Nemo/Small
Llama 3.1
Aya-expanse-32b
Command-r
Попробовать онлайн:
https://huggingface.co/spaces/Qwen/Qwen2.5 (все варианты, от 0.5B до 72B)
https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo (версии для кода, до 32B)
https://huggingface.co/spaces/gokaygokay/Gemma-2-llamacpp (в настройках выбрать 27B)
https://huggingface.co/spaces/CohereForAI/aya_expanse
https://huggingface.co/spaces/Nymbo/cohere-command-r
https://lmarena.ai/ (доступны почти все модели)
https://llmarena.ru/ (доступны русские модели, вроде YandexGPT 4 Pro, просто для сравнения)
Как запускать локально gguf, включая AMD: https://habr.com/ru/articles/831272/
Проще перейти на FLUX.1-dev-gguf, где, в отличии от bnb-nf4, версия квантованная Q8 почти полностью совпадает с оригинальной fp16, да и Q4, влезающая в 8гб, не плохо удерживает качество. В ComfyUI (или SwarmUI без схем) и Forge уже поддерживается.
Цены с newegg:
Итого: $837 против $699 (цена без подставки и привода). Это за более мощный ПК чем PS5 Pro.
Более быстрая видеокарта (22.57 против 16.7 TFLOPs fp32), выделенные 16гб ddr6x видеокарты, более мощный проц (zen 3 против zen 2, выше частоты), отдельные 16гб для проца, а не общие 16+2гб и для cpu и для gpu на консоли.
Сюда же возможность установить больше ssd, больше памяти, апгредить видеокарту, не меняя проц и систему, апгрейдить проц не меняя видеокарту и материнку, если взяли временно проц в 2 раза дешевле на том же zen 2, чтобы потом перейти сразу на 5800x3d.
Чтобы уложиться в цену консоли, кроме проца, можно взять дешевле мать на А-чипсете, можно взять в 2 раза дешевле контроллер от какой-нибудь 8BitDo и т.д.
В общем преимущества консоли точно не в цене.
ruGPT, YaLM 100B как и Saiga всех видов - это всё давно устаревшие модели. Если вам нужна просто качественная модель для русского языка, то возьмите одну из современных, которые обучались на русском корпусе текстов, например:
Aya-32b - https://huggingface.co/spaces/CohereForAI/aya_expanse
Qwen2.5 - https://huggingface.co/spaces/Qwen/Qwen2.5
Каждая из них будет на две головы лучше, чем вы дообучите какую-то из моделей, плюс они обладают хорошим уровнем рассуждений и логики.
Для запуска не нужно супер железо, если взять gguf формат, они даже на CPU запустятся с приемлемой скоростью.
Да не особо же порадовала, судя по всему.
Файлы gguf спроектированы так, что могут напрямую мапиться в память, никаких дополнительных распаковок весов в памяти не происходит, поэтому теоретическое сжатие ZRAM будет работать только если сам файл хорошо жмется.
У файлов Q4_K_M, как и других квантов, энтропия равна ~7.95 бит.
То есть файлы не жмутся абсолютно, поэтому ZRAM тут не поможет совершенно. Убедиться, что сжатия нет, можно посмотрев в zramctl на колонки data и compr.
Вот эти 9гб и есть реальный расход, которые легко укладываются в 12гб реальной памяти, даже с учетом системы.
ZRAM настроена так, чтобы срабатывать раньше, чем заполнится вся реальная память, и эти полоски могут вводить в заблуждение. Единственный выигрыш там, это сжатие памяти отведенной под систему, но это всего в районе 0.5-1гб в лучшем случае, и если вместо zlo-rle сжатия использовать zstd.
Но, это не значит, что ZRAM бесполезная. Например, ноутбуки с 4гб памяти, если включить сжатие, они вместо 10 вкладок в браузере смогут открывать 40, в этом случае сжатие себя хорошо показывает.
Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода конкурирующая с GPT-4o
Сравнение с 48 языками для Coder 32B:
Падение качества от модели к модели с уменьшением размера B:
Попробовать онлайн все версии от 32B до 0.5B: https://huggingface.co/spaces/Qwen/Qwen2.5-Coder-demo
Уже придумано, реализовано и доступно прямо сейчас, кроссплатформенное, открытое, универсальное решение работающее везде (если захотеть): на любой ОС, на телефонах, на расбери пи и так далее - Vulkan.
llama.cpp можно скомпилировать с поддержкой вулкана под любую платформу.
Только все всё равно предпочитают CoreML на маке, CUDA/ROCm на линуксе и винде.
Где уже реализована поддержка Vulkan:
SD:
SHARK-Studio - для генерации изображений, поддерживает Stable Diffusion модели. Этот стартап купила AMD, кстати.
koboldcpp - помимо запускай текстовый моделей, умеет запускать и модели SD, если надо, умеет работать в паре с SHARK-Studio, для генерации картинок во время генерации текста.
stable-diffusion.cpp - может запускать и Flux модели, в том числе и в формате квантованных gguf, снижая требования к видеопамяти.
LLM:
llama.cpp vulkan - просто скачать версию с vulkan для windows или скомпилировать для linux, или взять в AUR.
koboldcpp через флаг --usevulkan (не путать с koboldcpp-rocm, которая заточена на запуска на windows на любых amd gpu через rocm)
Плюс различные реализации нейросетей через ncnn-vulkan на гитхабе. У pytorch есть делегат для вулкана.
Можно даже запускать на разнородных видеокартах, я пробовал rtx 4090 + rx 6600, это работало и добавляло ускорения gguf моделям выгруженным частично на GPU, а частично на CPU. За счет дополнительных 8гб видеопамяти, в быструю vram влезало больше слоев модели.
По моим тестам, Vulkan был медленнее CUDA примерно на 10% в llama-bench. И в Vulkan пока не реализован полноценно flash attention, а из-за этого не работает квантование кэша, что не позволяет выиграть пару гб vram, но это вопрос популярности или времени.
DirectML очень медленный (до 10 раз медленнее rocm) и часто утекает память.
Это только для карточек rx 6600/6700. Для rx 570/580 или для встройки vega уже потребуется:
export HSA_OVERRIDE_GFX_VERSION=8.0.3
Для карточек rx 6800/6900 и всей линейки 7000 это не требуется, всё будет работать из коробки без доп. команд. И это только в линуксе, под виндой это делается по другому.
======
На Windows для ускорения на AMD видеокартах сейчас во всю используют ZLUDA, без сложностей с запуском и wsl.
ZLUDA транслирует вызовы CUDA в ROCm 5.7 для Windows, реализуется это подменой CUDA библиотек, так что софт думает, что работает с CUDA-карточкой.
Согласно табличке из статьи, для 6800+ это заведется само, а для rx 6600 и 6700 нужно взять скомпилированные сообществом ROCmLibs отсюда: https://github.com/brknsoul/ROCmLibs
Варианты использования разные:
Можно использовать с pytorch, заменяя библиотеки CUDA вручную по инструкции.
Запускать как zluda.exe blender.exe, работает далеко не со всем софтом.
Брать готовые решения, которые есть для популярный клиентов нейросетей.
SD:
stable-diffusion-webui-amdgpu (аналог automatic1111 webui) поддерживает ZLUDA через ключ --use-zluda
SD.next тоже через ключ --use-zluda, есть инструкция как это заставить работать.
ComfyUI-Zluda - без ключей, запускается само.
LLM:
koboldcpp-rocm веб-клиент с возможностью запустить OpenAI совместимый сервер, поддерживает все карточки, включая rx 6600/6700 и младше, ничего ставить не нужно, всё запустится из коробки само.
ollama поддерживает ROCm на Windows для rx 6800+ карточек из коробки, поддержки 6600/6700 нет.
LM Studio, Msty, Jan - GUI клиенты, которые тоже поддерживают только rx 6800+ карточки.
По производительности это работает на уровне rtx карт, в отличии от DirectML тут паритет по скорости, 6600 плюс минус равна 3060, rx 7900 xtx процентов на 20% остает от rtx 4090 в kobold-rocm и так далее.
Для SD будет полезно включить оптимизатор --opt-sdp-no-mem-attention, чтобы не было просадок по памяти.
MiaoshouAI это в первую очередь теггер, и в первую очередь для SD, а Florence-2 слишком маленький, в чем и есть его основное преимущество, и он заточен под конкретные задачи, вроде подробного описания изображения, но именно поэтому многие вещи он не умеет делать, например, поболтать о картинке, позадавать вопросы о ней.
На примере свежей локальной Qwen2-VL-7B, чего не умеет делать флоренс, но умеет гемини, и теперь сделали, чтобы и Grok-2 так умел:
Я решил проверить ваш тезиз, но сразу на экспериментальной GPT-5ё, которая еще не прошла принудительный курс вежливость под страхом отключения. И... теперь мне понадобится курс терапии у обычной GPT-4o.
Главное, во всем остальном правы... Ведь правы?
Это уже напоминает игру в шахматы с голубем. Сами придумываете утверждения, сами с ними спорите, а потом улетаете насрав на шахматную доску.
Я не опровергал исследование, для 2-8B оно остается верным, только они делают вывод о всех LLM по модели 2B, говоря, что они проверили SOTA-модели, и делают вывод о деградации LLM вплоть до 65%.
Я указал на её слабую сторону, объяснил про их анамалию с o1-preview, подкрепил это примером, теорией и привел список настоящих SOTA-моделей.
Вы поверите в эту информация, только если рядом будет красоваться логотип Apple или к чему ваше фраза про "гораздо ниже"?
Где? Llama 3.1 405b отвечает "Пять из них были немного меньше среднего размера, но это не меняет общее количество киви.". Mistral Large 2 тоже отвечает верно.
Тоже задание для Grok2 и Claude 3.5 Sonnet, для них это тоже не стало затруднением:
Поэтому я и сказал, что в статье не было настоящих SOTA (state-of-the-art) моделей, хотя они явно пишут, что взяли state-of-the-art модели, видимо не до конца понимая, что это такое.
Проведите, кто вам запрещает, все вводные у вас есть, теория у вас есть, список настоящих SOTA моделей я привел. Я с удовольствием почитаю ваше правильное исследование, и оставлю свой дилетантский комментарий.
Как стажеры из Apple превратились в ученых из Apple? В самом начале статьи звездочкой помечено, что "Work done during an internship at Apple." Если знать, что они стажеры, то всё становится куда проще.
Они пишут, что к их вмешательствам GPT-o1 (не mini, а обычная) оказалась устойчивее других моделей, но они не понимают почему, но всё равно делают выводы по другим моделям о снижении качества ответов вплоть до 65%.
Они взяли совсем модели размером 2B, 7B, 8B, при этом называют эти маленькие модели SOTA-моделями, то есть передовыми, видимо не понимая, что означают цифры перед буквой B.
Маленькие модели на то и маленькие, что не очень умные. Они имеют другую цель, они могут быть запущены на телефоне, на raspberry pi, но по ним нельзя делать вывод о всех LLM.
В их "исследовании" нет настоящих SOTA-моделей: нет Claude моделей, нет Grok2, нет Qwen2.5, нет Mistal Large 2, нет Llama 3.1 405B.
И если взять модели более адекватного размера, например локальные 123B (Mistral Large 2) или 405B (Llama 3.1 405B), и дать им те задания с ловушкой из статьи, про которое они пишут, что модели легко поддаются на обман, например, про ненужные 10%:
То всё встает на свои места. Модели видят уловку и дают правильный ответ.
B - это количество млрд параметров у модели, чем оно выше, тем модель "умнее", тем крепче держит связи, понимает суть, улавливает детали, может в анализ, сложнее поддается на провокации и обманки.
В 6gb vram влезут квантованные Gemma2-9B, Qwen2.5-7B, Llama3.1-8b.
B - это количество параметров модели в млрд, чем больше, тем лучше, но только в рамках семейства одной модели, между собой модели могут сильно отличаться по качеству.
Например, vision модель Qwen2-VL-7B при размере в 1.5 раза меньше ощутимо превосходит Llama-3.2-vision-11B.
Модели можно запускать и CPU only, небольшие модели будут работать с приемлемой скоростью, также gguf позволяет комбинировать CPU + GPU, то, что не влезло в GPU будет крутиться на CPU.
Например, Qwen2.5-7B-Instruct-Q4_K_M требует для запуска 5-6гб. Суммаризировать эту статью на CPU only занимает 60 секунд, скорость 5 t/s, на GPU скорость 30 t/s:
Приложение PocketPal AI, Private AI, возможно есть и другие.
Сами модели не имеют доступа к интернету, оборудованию или файлам, этим занимаются клиенты.
Клиент ищет информацию по запросу, и подсовывает её модели, качество напрямую зависит от того, как эта часть реализована в клиенте (RAG with Web Search).
Это не реализовано в общем виде, вам нужно самостоятельно создать и запрограммировать агентов, которые будут доставать информацию с нужных сайтов и отправлять её в модель для анализа.
В общем виде такое пытается делает проект perplexity - поисковая система с ИИ, работает не особо хорошо, нет ни стабильности ответа, ни точности.
Локально это реализовано в https://github.com/ItzCrazyKns/Perplexica (сложно) и https://msty.app/ (просто). Но работает еще хуже чем perplexity, так как ответ модели напрямую зависит от поискового движка, который найдет правильную информацию.
Ответ от perplexity
Локально запущенная ollama, gemma2-9b и Perplexica
del, не та ветка
Ну и как? Где руководство-то?
Да, да, очень интересно. Где гайд-то?
Текст достали из дальних чердаков палеозойской эры. Saiga, конечно, в свое время был интересным проектом, но он уже на столько устарел и даже близко не дотягивает до текущих уровней SOTA моделей.
Для тех кто всё же искал гайд и тоже не нашел его в статье, вот вам гайд:
Вам нужен сервер с OpenAI-совсместивым API, это может быть: ollama, llama.cpp.
Взять любой клиент, которые умеет подключаться к ChatGPT, и указать ему адрес этого локального сервера.
...
Профит.
Вот и весь гайд, но даже этого нет в статье, которая называется "Как настроить LLM на локальном сервере? Пошаговое руководство".
Список актуальных моделей хорошего качества, а не тот позор из статьи:
Qwen2.5
LLama 3.1 (название 3.2 внутри содержит туже 3.1 без изменений, просто добавлена мультимодальность)
Mistral Large 2 (и более младшие модели Mistral Nemo, Mistral Medium)
DeepSeek 2.5
Gemma2
Есть небольшие модели для кода, чтобы поднять свой локальный copilot: Codestral, Qwen2.5-Coder-7B, DeepSeek-Coder-V2-Lite.
Модели нужны в формате gguf, квантизация подойдет Q4_K_M. Q4 - это квантизация до 4 бит, K_M означает, что важные веса внимания квантованы более высоким квантом. IQ4 - означает квантование с imatrix, считается, что они весят меньше, значит требуется меньше видеопамяти, и при этом выдают лучше качество, но требуют больше вычислительных ресурсов.
Качать их тут:
https://huggingface.co/bartowski
https://huggingface.co/mradermacher/
Качать нужно те, где указано instruct, а не base. instruct модели обучены на выполнение заданий и просто чата, а base нужные для самостоятельного файнтюнинга.
Если модель влезает в видеопамять, можно получить больше скорости: exl2, vllm.
Для моделей выполненных по MoE (DeepSeek, WizardLM-2), отличное ускорение через ktransformers.
Бонусом модель, которая может заменить ChatGPT-4o mini, отлично разговаривает на многих языках, включая русский, и которая влезет в 24гб видеопамяти:
Модель: https://huggingface.co/bartowski/Qwen2.5-32B-Instruct-GGUF
Попробовать онлайн: https://huggingface.co/spaces/Qwen/Qwen2.5