Pull to refresh
121
5.4
Send message

Если вы взяли ту, что в статье, то вы взяли старшую обычную модель V3 размером 671B, просто квантованную Q2_K_XS.
Для запуска такой модели не хватит 64гб памяти, нужно 210гб, это даже с учетом MoE, фактически модель работала со скоростью вашего диска, откуда вы загружали её, так как памяти не хватило и модель постоянно считывалась с диска.
Для нормальной скорости вам нужна быстрая память, например, минимально 6-8 канальная на б/у эпиках, и то получится 3-4 токена в секунду.

Вам, видимо, нужна дистиллированная версия R1, которая будет размером 70b, 32b или 14b, для такого размера уже хватит скоростей двухканальной ddr5 6000+ с частичной выгрузкой на gpu - https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5

Но, возможно, вам больше подойдет Qwen 2.5 Coder, так как размышляющая модель R1 требует много генераций - https://huggingface.co/collections/unsloth/qwen-25-coder-6732bc833ed65dd1964994d4

Речь не про просто запуск, стандартные трансформеры можно сразу запускать на чем угодно. Речь про квантованные модели gguf, которые снижают требования к железу в несколько раз, позволяя запускать такие тяжелые модели на обычном ПК.

Например, модель DeepSeek-R1-Distill-Qwen-32B:

  • в оригинальных трансформерах модель требует 67гб памяти.

  • если взять gguf с квантованием Q4_K_M, то модель требует всего 20гб памяти.

Потеря качества между Q4_K_M и оригинальной моделью будет несколько процентов, что вполне приемлемо.

gguf версии для локального запуска все варианты: https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5

В llama.cpp поддержка была добавлена вчера, поэтому все проекты построенные на нем, вроде ollama, lm studio или oobabooga/text-generation-webui получат обновление позже. Пока можно запустить используя веб-сервер от самой llama.cpp:

.\llama-server.exe -m "DeepSeek-R1-Distill-Qwen-32B-Q4_K_M.gguf" -ngl 99

-ngl 99 - это количество слоев, которые будут выгружены на видеокарту, нужно установить в зависимости от количества видеопамяти.
Для windows, если у вас не новые amd или любой intel, то качайте vulkan версию, если новые amd, то hip, если nvidia, то cuda версию.

По идее, чтобы заработало нормально, лучше следовать рекомендациям от создателей:

  1. Задать системный промпт:
    A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.

  2. Установить температуру в диапазоне от 0.5 до 0.7, иначе может быть бесконечный вывод и непоследовательное рассуждение.

После этого модель будет работать нормально и вести диалог в чате самостоятельно фильтруя теги размышления.

Не знаю, это из-за квантования пишет водород как гидрород, или просто так удобнее размышлять. 极高 - "очень велико"
Не знаю, это из-за квантования пишет водород как гидрород, или просто так удобнее размышлять. 极高 - "очень велико"
Не довел ответ до гелия-4, но и вопрос был про другое
Не довел ответ до гелия-4, но и вопрос был про другое

И просто баловство, подвоха он не заметил

Тут нужен мем "а вы?". В крабовых палочках 0 палочек и 0 крабов. Не все вещи называются так, как ожидается. Свиными крылышками в сообществе барбекю называют свиные голяшки.

Напомню, o1 не модель, а агентная система поверх одной или нескольких

Бывший сотрудник из OpenAI опровергает эту информацию. Его слова подтверждает текущий сотрудник из OpenAI. По их словам o1 это одна модель и она работает просто как CoT (цепочка рассуждений).
Ну что-то вроде открытых альтернатив QwQ или QvQ, или DeepThink, которые попытались повторить этот подход, обучив модель сразу с CoT.

Генерация субтитров из аудиодорожки уже есть, её и будут использоваться в VLC.

Изначально это whisper, но куда удобнее на домашнем ПК использовать whisper.cpp + ggml-large-v3-turbo-q5_0.bin или ggml-large-v3-turbo-q8_0.bin.
Можно создавать как субтитры, так и просто текст, работает на многих языках, включая русский.

Возможно есть готовые GUI для этого, чтобы не возиться с конвертацией и консолью, как минимум в Kdenlive есть встроенная поддержка.

Они представили еще кое-что интересное для ML - Project DIGITS.

Маленькая коробка с 128гб ddr5x и чипом GB10 с cuda ядрами. Обеспечивают ядра 1 PFLOPS (1 петафлопс) fp4 - если сравнивать с int4, то это где-то на уровне 4080 Super.
Память ddr5x, и если битность будет хотя бы 256, то скорость будет как на gtx1080 - 320гб/с, что быстрее чем 4060 ti. Но может и 384 бит не пожалеют.

Коробка обещано, что поддерживает не только инференс, но и обучение, при том, что в fp4 влезают модели размером 200B, и коробки можно объединять, в две коробки влезет LLama 3.1 405B. Где-то в мае за 3к $.

Если на битности не сэкономят, то такая коробка будет быстрее чем собирать сервер на эпиках, что выйдет тоже не дешево, и учитывая в разы меньшие размеры, отсутствие проблем с двухпроцессорной NUMA, возможность обучения с нормальной скоростью - то это компенсирует цену. Так что пока это самое интересное из предложений для ML.

Ну, всмысле, нужно вручную в настройка выбрать оформление окон в стиле Windows 9x. И, возможно, до установить классическую тему, как тут: https://www.reddit.com/r/unixporn/comments/11britw/kde_went_full_on_classic_windows_style/

Если вам нужно не просто привычно выглядевшее, но еще и точно также работающее по всяким хоткеям (например, кнопки win + стрелочки для окон) и прочему поведению - то только 2 варианта: KDE и Cinnamon. KDE более близкий аналог.

https://github.com/doublecmd/doublecmd

Доступен во всех репозиториях, пытается полностью повторить логику, идею, хоткеи totalcmd, и на 95% справляется с этим.

Если бы кто-то легко и задороно объяснил, что же такое то самое "обучение", то может и не было бы столько удивления вокруг того, что модель не училась как какой-то мета-ии-разум читающий учебники за 1-9 класс, и поэтому она не может знать, кто она такая, и почему её нельзя этому обучить, по крайней мере на текущих трансформерах из-за проблемы переобучения.

Обучение происходит в 3 этапа:

  1. pre-train

  2. Выравнивание

  3. Файнтюн на следования инструкциям

Во время pre-train модель получает сырые данные из интернета, просто терабайты всего текста до которого удалось дотянуться, никак не отсортированного и никак не фильтрованного (даже если кто-то привирает, что они всё фильтруют и у них отборный датасет, то чем больше разнообразие для pre-train, тем лучше калибруется модель).
На этом этапе происходит калибровка весов модели по схеме "полная фраза" минусу "последнее слово", и веса калибруются так, чтобы во фразе "однажды в студеную зимнюю" продолжением было "пору" или "ночь", а не "грелку" или "миску". Это учит модель строить правильные связи между словами, предложениями.

Дальше идет выравнивание. Ей на вход дают начало фразы, а на выходе правильный ответ. Правильный не только по содержанию, но и по длине и оформлению - все эти красивые формулы в выводе или форматирование списком, и также лаконичность или наоборот, красноречивость ответа. На этом этапе модель также в специальном формате запоминает чем отличается запрос пользователя и её ответ.

Вот именно тут уже используется очень качественный датасет, он и синтезируется и составляется вручную, но он обычно на порядки меньше датасета для pre-train, так как создать такой датасет очень сложно, и чем он будет качественнее, тем умнее будет модель. На выходе получится base модель.

И последний этап, это дообучение на следование инструкциям. Сейчас модель умеет только продолжать фразу, а не инициализировать всю цепочку внутри себя, и, например, написав ей "Сейчас я напишу функцию фибоначчи" она продолжит ответ, и ответ даже может быть очень сложным и умным, с кучей рассуждений, но при этом модель не будет понимать простые "Напиши функцию фибоначчи" или "Сколько будет 2 + 2?".
Тут модели показывают, что если пользователь задал вопрос, написал какое-то требование к виду ответа и так далее, то ей нужно начать отвечать на этот вопрос с учетом всех пожеланий.
Это будет instruct модель, которая уже может работать в режиме чатика.

Вот из-за 1 pre-train этапа модель будет отвечать, что она кто угодно. Самый релевантный ответ по её мнению, что она ChatGPT - самая популярная модель в мире, потому что упоминания про chatgpt в неотсортированном датасете будет на порядки выше, чем любые другие модели (при чем на разных языках ответ может манятся, в зависимости от наполнения сырого pre-train датасета).

И вот тут, даже если на 2 этапе скормить ей огромный датасет о том, что она deepseek, то произойдет переобучение, и всё что будет знать модель, что она deepseek, а всё остальное позабудет и станет на любой вопрос отвечать, что вот ваш рецепт свиных крылышек, а она, между прочим, deepseek. Из-за проблемы переобучения так делать не будут, поэтому модель будет периодически всё равно путаться, кто же она такая.

Тоже самое с подсчетом буквы r, хотя модель не видит даже слов, не то что букв, она оперирует числами токенами, то есть это буквально проблема токенизаторов, которые являются внешней для моделей системой, но обсуждают именно это, а не то, как модель может рассуждать или программировать.
И уже есть попытки отказаться полностью от токенизатора и работать с байтами напрямую, что может дать большую глубину понимания языков, слов и букв.

Не уверен, что смогу запустить это же на своём маке

Для запуска на домашнем ПК используется движок llama.cpp и gguf модели с квантованием. Возможен запуск как на CPU, так и CPU плюс частично GPU.
Дома можно запускать как легкую версию, так и pro, если есть хотя бы 24гб ОЗУ.

T-lite Q4_K_M для запуска требует всего 5гб памяти, поэтому легко влезет в 8гб видеокарту.
На CPU же скорость работы 7 t/s, это быстрее скорости чтения. И в коллабе можете запускать квантованную версию, будет в разы быстрее.

Квантование Q4_K_M - это 4.9-битное квантование, типичное хорошее квантование, которое сохраняет качество плюс-минус близкое к оригиналу. Чем младше модель, тем хуже она переносить квантование, но даже для запуска кванта Q8_0, требуется всего 9гб памяти.

Для начала проще всего взять LM Studio или Jan - это gui-клиенты для windows/linux/mac.
Как запускать, включая AMD-видеокарты: https://habr.com/ru/articles/831272/

Чтобы это работало автоматически, кванты должны называться официально как в llama.cpp, в вашем примере только Q8_0 назван правильно, поэтому он и должен скачиваться. Если бы остальные кванты были названы правильно, то был бы выпадающий список.

А так любой gguf можно добавить и вручную, в ollama через создание конфига, а в oobabooga/text-generation-webui просто закинуть файл в папку models и т.д.

С недавних пор в ollama можно напрямую качать gguf модели с huggingface по шаблону.
ollama run hf.co/{username}/{repository}

Например, так:
ollama run hf.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
или так с квантом
ollama run hf.co/bartowski/Qwen2.5-Coder-32B-Instruct-GGUF:Q2_K

Либо скопировать эту строчку на странице модели, можно там же выбрать нужный квант:

Нет, не два из трех против половины, потому что 9.9 больше, чем 9.11.
Поэтому 3 из 3 против 0 из 2.

В "режиме CoT" модель может правильно ответить на основные вопросы интернет-сообщества:

Системный промпт для простой реализации CoT:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags.

Но без него не особо справляется:

Я довольно долго щупал qwen2.5 14b

Всё-таки 14B и 32B - это большая разница, и в целом, и в данном случае.

она по-моему близко не валяется даже к бесплатной версии ChatGPT

Про поводу сравнения с 4o-mini. mini - это маленькая бесплатная модель, что не тоже самое, что огромная gpt-4o, которая тоже бесплатна, и говоря "бесплатная версия ChatGPT" - не ясно, что имеется ввиду.

на 16 гигах VRAM
И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..

Можете попробовать 32B IQ3_M - она влезает в 16gb, только контекст придется поставить 8к, вместо дефолтных 32к или 128к, и включить квантование kv-кэша cache_8bit.

По опыту, даже сильно квантованная старшая версия будет лучше не квантованной младшей, а чем больше B тем модель легче переносит квантование, на 123B уже можно вполне использовать IQ2.

Проблема или особенность квантования, которая может портить модели

Периодически замечал, что онлайн версии могут работать лучше, чем локальные квантованные версии, и встречал такие отзывы от других.

С квантованием есть некоторая особенность, почти все i-кванты делаются на англоязычной матрице важности, и мультиязычность может пострадать. И даже если вы берете статичные K-кванты в самом популярном месте, у bartowski, и не делаете их сами, то нужно учитывать, что он применяет свою матрицу важности, сделанную из англоязычной вики, даже для статичных квантов, для всех кроме Q8_0.
Играет это роль или нет - пока не ясно.

Еще из-за квантования модель может беспрерывно отвечать каким-то мусором, это может быть связано со сломанным квантованием каким-то конкретным квантом, и лучше его переделать вручную (что не сложно) или скачать другой квант.

Когда вышла LLaMa 3, то квантование для неё было сломано, и первые кванты были полностью не пригодны для использования, хоть модель и как бы отвечала, делая вид, что с ней всё нормально.
Еще i-кванты на Windows выдавали мусор из-за проблемы с размером юникода, работало только на Linux, это исправили где-то пол года назад и надо обновлять софт, если он сам не предлагает обновиться.

Поэтому, если доступна онлайн версия, лучше проверить сначала качество на ней, а потом убедится, что локальная версия работает не хуже.

слет на иероглифы, фантазии которые вообще за любые рамки выходят, зацикливания, переводит отвратительно

Тут помимо слабости 14B версии, это может быть и проблемы квантования, особенно зацикливания.

И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..

Про 32B вы в целом правы, начиная с 32B уже в специализированных областях может идти конкуренциями с большими универсальными моделями. Например, в кодировании Qwen2.5 Coder 32B:

Если же у вас в приоритете перевод - то можно взять модели, которые явно обучались на полноценную мультиязычность. Например, Aya Expanse 32B может и в какую-то логику, и в хороший перевод. Модель обучалась на 23 языках, включая русский.

Если нужно чуть меньше, то есть Gemma2 27B и, особенно, её файнтюн SimPO-37K. Они показывают результат на том же уровне, а возможно даже и лучше чем Qwen2.5 32B, особенно, что касается следования инструкциям, понимания контекста, перевода.

А вот 14B, 9B, 8B, 7B - это уже да, очень специфичное применение, где-то могут сработать, например, при суммаризации текста, но универсально нет.

Разве, что Gemma-9B не плохо может притвориться более старшей моделью.

А по поводу вариантов на "пощупать", то попробуйте https://beta.theb.ai/ - там есть бесплатные GPT3.5, Claude 3 Haiku и частично безцензурная их собственная TheB.AI

GPT3.5 и Haiku это как-то совсем не актуально, Haiku это маленькая и старая модель, а GPT-3.5 не только очень старая, но и на OpenAI была заменена на бесплатную GPT-4o.

Если нужны именно GPT и Clause без VPN, то в интернете есть список сайтов с доступом к GPT-4o и Sonnet-3.5: https://github.com/LiLittleCat/awesome-free-chatgpt/blob/main/README_en.md
И тоже самое в виде клиента gpt4free: https://habr.com/ru/news/731764/

Еще, из актуальных открытых моделей, есть DeepSeek 2.5 размером 236B MOE, локально доступна тоже. У них есть чат, с беспроблемной регистрацией и без видимых лимитов: https://chat.deepseek.com/
Там же доступно 50 запросов в день к их CoT версии DeepSeek-R1-Lite (локально пока не доступно).

Но, сегодня на Hugging Face выложили ее файн — тюны: https://huggingface.co/huihui-ai/QwQ-32B-Preview-abliterated
Их дообучили на нецензурном датасете, что позволило полностью избавиться от ограничений на разговоры о политике, матах и прочих запретных для LLM темах.

Никто модель не дообучал, abliterated - это не файнтюн, а "лоботомия". Даже по ссылке написано, что это "This is a crude, proof-of-concept implementation to remove refusals from an LLM model".

abliterated - это техника, когда в модели искусственно снижают веса которые активируются при отказе с негарантированным результатом. Проблема в том, что вместе с этим падает общее качество модели, поэтому после abliterated нужен файнтюн на восстановление "ума", а потом файнтюн для восстановления следования инструкциям, или, как в данном случае, восстанавливать функционал CoT, так как она его частично лишилась, превращаясь в обычную Qwen2.5 32B.

Онлайн-демо оригинальной QwQ 32b для сравнения: https://huggingface.co/spaces/Qwen/QwQ-32B-preview

Да и в целом QwQ 32b не подходит для домашнего использования, это просто проверка концепции, софт пока не умеет фильтровать размышления модели и вы на выходе получаете тонны лишних токенов, которые потом будут мусорить вывод следующих ответов модели. Сейчас это просто используется в режиме 1 вопрос - 1 ответ, и перезапуск диалога.
Это не считая того, что в финальном ответе вы в 80% случаев получите ответ на китайском или английском, даже если сами размышления были на русском.

Если вам нужна модель для домашнего использования

QwQ 32B сделана на основе Qwen 2.5 32B, которая, с натяжкой, если можно так сказать, является примерным конкурентом GPT-4o-mini, поэтому можно взять её.

Или список актуальных моделей:

  • Qwen 2.5

  • Gemma2

  • Mistral Large/Nemo/Small

  • Llama 3.1

  • Aya-expanse-32b

  • Command-r

Попробовать онлайн:

Как запускать локально gguf, включая AMD: https://habr.com/ru/articles/831272/

Проще перейти на FLUX.1-dev-gguf, где, в отличии от bnb-nf4, версия квантованная Q8 почти полностью совпадает с оригинальной fp16, да и Q4, влезающая в 8гб, не плохо удерживает качество. В ComfyUI (или SwarmUI без схем) и Forge уже поддерживается.

Information

Rating
1,069-th
Registered
Activity