Как стать автором
Обновить

Комментарии 18

НЛО прилетело и опубликовало эту надпись здесь

Вышел govno-piar-tg-kanala 228b способный писать пук-статьи из less than 1000 символов

Есть возможность запустить локально?
Если есть, то какие требования к железу?

Да, конечно. Видяха Nvidia с 16Гб памяти на борту. Можно ужаться в 12 так как GGUF можно частично отложить на процессор, но это уже будет заметно медленнее.
Гуглить KoboldCPP.

А у меня не завелось на 16 даже в GGUF - лезет частично в оперативку и из-за этого откликается крайне медленно.. Причем не знаю - может и поэтому часто в конце ответа рисует иероглифы, а иногда ими вторая половина ответа выводится. Плюс злят эти рассуждения перед ответом, которые хотя и отключаются, но то и дело самопроизвольно включаются обратно

Странно. Q_3_M должен бы пойти с небольшим оффлоадом. Попробуйте аргумент --flashattention --quantkv 2, это уменьшает размер контекста в видеопамяти и экономит пару ГБ.

Ещё можно использовать ollama, там будет одной команды достаточно:
ollama run huihui_ai/qwq-abliterated

Как пользоваться этой штукой ?

Вот моя статья Всё почти в силе, кроме того, что кванты Q-3 починили, и возможно есть смысл добавить аргументы --flashattention --quantkv 2

А, и эта модель любит температуру меньше 1

А есть развернутые публичные решения?

vsegpt.ru возможно появится, особенно если поддержку тюкать.

Есть добровольные бесплатные хостеры: https://aihorde.net/

Но ввиду того, что это всё добровольно-индивидуально, то доступность моделей и размеры очередей соответствующие. Ну и никаких гарантий, что по ту сторону API действительно модель работает, а не группа специально обученных индусов.

Но, сегодня на Hugging Face выложили ее файн — тюны: https://huggingface.co/huihui-ai/QwQ-32B-Preview-abliterated
Их дообучили на нецензурном датасете, что позволило полностью избавиться от ограничений на разговоры о политике, матах и прочих запретных для LLM темах.

Никто модель не дообучал, abliterated - это не файнтюн, а "лоботомия". Даже по ссылке написано, что это "This is a crude, proof-of-concept implementation to remove refusals from an LLM model".

abliterated - это техника, когда в модели искусственно снижают веса которые активируются при отказе с негарантированным результатом. Проблема в том, что вместе с этим падает общее качество модели, поэтому после abliterated нужен файнтюн на восстановление "ума", а потом файнтюн для восстановления следования инструкциям, или, как в данном случае, восстанавливать функционал CoT, так как она его частично лишилась, превращаясь в обычную Qwen2.5 32B.

Онлайн-демо оригинальной QwQ 32b для сравнения: https://huggingface.co/spaces/Qwen/QwQ-32B-preview

Да и в целом QwQ 32b не подходит для домашнего использования, это просто проверка концепции, софт пока не умеет фильтровать размышления модели и вы на выходе получаете тонны лишних токенов, которые потом будут мусорить вывод следующих ответов модели. Сейчас это просто используется в режиме 1 вопрос - 1 ответ, и перезапуск диалога.
Это не считая того, что в финальном ответе вы в 80% случаев получите ответ на китайском или английском, даже если сами размышления были на русском.

Если вам нужна модель для домашнего использования

QwQ 32B сделана на основе Qwen 2.5 32B, которая, с натяжкой, если можно так сказать, является примерным конкурентом GPT-4o-mini, поэтому можно взять её.

Или список актуальных моделей:

  • Qwen 2.5

  • Gemma2

  • Mistral Large/Nemo/Small

  • Llama 3.1

  • Aya-expanse-32b

  • Command-r

Попробовать онлайн:

Как запускать локально gguf, включая AMD: https://habr.com/ru/articles/831272/

Не знаю.. Мне вот вообще интересно по каким критериям эти графики рисуют. Я довольно долго щупал qwen2.5 14b (видеопамять больше не позволяет, а частично использовать оперативку и ждать по 20 сек реакции это такое себе..) и она по-моему близко не валяется даже к бесплатной версии ChatGPT. Т.е. практически постоянная потеря контекста, слет на иероглифы, фантазии которые вообще за любые рамки выходят, зацикливания, переводит отвратительно, код пишет так себе и даже тупо по русски плохо понимает постоянно путаясь в склонениях и вставляя английские слова и иероглифы в случайные места в ответах. Из всего вышеперечисленного по-моему более или менее адекватно можно пользоваться на 16 гигах VRAM только mistral-small и Llama 3.1, но и они довольно тупенькие по сравнению с онлайновыми вариантами. И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..

А по поводу вариантов на "пощупать", то попробуйте https://beta.theb.ai/ - там есть бесплатные GPT3.5, Claude 3 Haiku и частично безцензурная их собственная TheB.AI

Этот новый квин правильно отвечает на вопросы об которые до сих пор спотыкаются и гпт и клод - типа сколько букв р в английской клубнике и сколько братьев у сестры алисы

Я довольно долго щупал qwen2.5 14b

Всё-таки 14B и 32B - это большая разница, и в целом, и в данном случае.

она по-моему близко не валяется даже к бесплатной версии ChatGPT

Про поводу сравнения с 4o-mini. mini - это маленькая бесплатная модель, что не тоже самое, что огромная gpt-4o, которая тоже бесплатна, и говоря "бесплатная версия ChatGPT" - не ясно, что имеется ввиду.

на 16 гигах VRAM
И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..

Можете попробовать 32B IQ3_M - она влезает в 16gb, только контекст придется поставить 8к, вместо дефолтных 32к или 128к, и включить квантование kv-кэша cache_8bit.

По опыту, даже сильно квантованная старшая версия будет лучше не квантованной младшей, а чем больше B тем модель легче переносит квантование, на 123B уже можно вполне использовать IQ2.

Проблема или особенность квантования, которая может портить модели

Периодически замечал, что онлайн версии могут работать лучше, чем локальные квантованные версии, и встречал такие отзывы от других.

С квантованием есть некоторая особенность, почти все i-кванты делаются на англоязычной матрице важности, и мультиязычность может пострадать. И даже если вы берете статичные K-кванты в самом популярном месте, у bartowski, и не делаете их сами, то нужно учитывать, что он применяет свою матрицу важности, сделанную из англоязычной вики, даже для статичных квантов, для всех кроме Q8_0.
Играет это роль или нет - пока не ясно.

Еще из-за квантования модель может беспрерывно отвечать каким-то мусором, это может быть связано со сломанным квантованием каким-то конкретным квантом, и лучше его переделать вручную (что не сложно) или скачать другой квант.

Когда вышла LLaMa 3, то квантование для неё было сломано, и первые кванты были полностью не пригодны для использования, хоть модель и как бы отвечала, делая вид, что с ней всё нормально.
Еще i-кванты на Windows выдавали мусор из-за проблемы с размером юникода, работало только на Linux, это исправили где-то пол года назад и надо обновлять софт, если он сам не предлагает обновиться.

Поэтому, если доступна онлайн версия, лучше проверить сначала качество на ней, а потом убедится, что локальная версия работает не хуже.

слет на иероглифы, фантазии которые вообще за любые рамки выходят, зацикливания, переводит отвратительно

Тут помимо слабости 14B версии, это может быть и проблемы квантования, особенно зацикливания.

И вообще у меня создается впечатление несерьезности всего что ниже 32b, а лучше нужно брать 70, но где взять такую видеокарту..

Про 32B вы в целом правы, начиная с 32B уже в специализированных областях может идти конкуренциями с большими универсальными моделями. Например, в кодировании Qwen2.5 Coder 32B:

Если же у вас в приоритете перевод - то можно взять модели, которые явно обучались на полноценную мультиязычность. Например, Aya Expanse 32B может и в какую-то логику, и в хороший перевод. Модель обучалась на 23 языках, включая русский.

Если нужно чуть меньше, то есть Gemma2 27B и, особенно, её файнтюн SimPO-37K. Они показывают результат на том же уровне, а возможно даже и лучше чем Qwen2.5 32B, особенно, что касается следования инструкциям, понимания контекста, перевода.

А вот 14B, 9B, 8B, 7B - это уже да, очень специфичное применение, где-то могут сработать, например, при суммаризации текста, но универсально нет.

Разве, что Gemma-9B не плохо может притвориться более старшей моделью.

А по поводу вариантов на "пощупать", то попробуйте https://beta.theb.ai/ - там есть бесплатные GPT3.5, Claude 3 Haiku и частично безцензурная их собственная TheB.AI

GPT3.5 и Haiku это как-то совсем не актуально, Haiku это маленькая и старая модель, а GPT-3.5 не только очень старая, но и на OpenAI была заменена на бесплатную GPT-4o.

Если нужны именно GPT и Clause без VPN, то в интернете есть список сайтов с доступом к GPT-4o и Sonnet-3.5: https://github.com/LiLittleCat/awesome-free-chatgpt/blob/main/README_en.md
И тоже самое в виде клиента gpt4free: https://habr.com/ru/news/731764/

Еще, из актуальных открытых моделей, есть DeepSeek 2.5 размером 236B MOE, локально доступна тоже. У них есть чат, с беспроблемной регистрацией и без видимых лимитов: https://chat.deepseek.com/
Там же доступно 50 запросов в день к их CoT версии DeepSeek-R1-Lite (локально пока не доступно).

"80% случаев  получите ответ на китайском " - в 12 моих тестовых сообщениях я встретил китайские иероглифы только 4 раза и 3 - 4 символа, на весь огромный текст

Вы тестировали ее?

Интересно когда же появятся децентрализованные пиринговые LLM. Чтобы не обязательно было иметь топвую видяху, а просто запускаешь в фоне процесс и он там что-то немного вычисляет для других участников, а тебе за это дают право самому пользоваться всей сетью.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости