nlaik May 6 at 22:43

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Hard

9 min

14K

Artificial IntelligenceOpen source * Machine learning *

Analytics

+18

Comments 14

Mersavets yesterday at 02:11

Это изначально не имеет смысла учитывая что вышел давно qwen3. 6, который впрочем уже имеет похожие репы

jarkevithwlad yesterday at 04:45

да, 3.6 квопус есть, но пока превью

p.s. 35b не превью

p.s.s. есть так же Uncensored но от других авторов

Marwin 20 hours ago

Квопусы от Jackrong - очень достойные файнтюны... всё расписано на чём дообучено и зачем. Я перешел на квопус 27B вместо оригинальных версий в claude code - разница заметна. на 48GB VRAM отлично достаточно быстро работает.

KoIIIeY 20 hours ago

Оно кодит лучше оригинала или для каких задач?

Marwin 19 hours ago

да, кодит лучше. меньше ошибок и вообще с виду плюс минус адекватно. По крайней мере на C#.

Syzd yesterday at 05:21

Вижу в теме, что посоветуете запускать локально, какие нейро самые-самые сейчас?

jarkevithwlad 21 hours ago

зависит от железа

yelagin 17 hours ago

gemma4

stilet69 17 hours ago

Вы когда задаете такие вопросы - пишите какое у вас железо - видеокарта, ОЗУ. И обязательно в какой области собираетесь применять модель. Для кодинга? Для генерации картинок? От этого и советы по выбору модели будут зависеть.

Kopasuy yesterday at 02:20

огромным именем*

verticalacid 16 hours ago

Звучит уже не так громко, правда?

А с таким маркетингом и в синтетике от опуса сомневаться стоит. И она денег каких стоит, и в con't претрейн ее ведь надо. Если просто немножко его ответов зафайнтюнил - ну что смеяться, просто стилю поучил.

А параметры реально так тупо повысил? Это же целевую аудиторию уменьшает. Вот это интересно.

jetnet 12 hours ago

Но базовый Qwen3 идёт в размерах 0.6B, 1.7B, 4B, 8B, 14B, 32B, 235B

Если автор модели брал именно 3.5, то самая большая из маленьких 3.5 - всего 9B.

Update: стало интересно, поднапряг ИИ-друзей

Финальная честная строка — твой первый вопрос, теперь с фактической базой:

файнтюн-Qwen3.5-27B(VL,gated-DeltaNet+gated-attention,28B-параметров)-
с-выкинутыми-4-из-16-супер-блоков-до-48-слоёв-21B-
после-аблитерации-через-Heretic-
и-многоэтапного-тюна-через-Unsloth-на-художественных-данных-Deckard-
и-дистилляте-Claude-4.5-Opus-
thinking-режим-унаследован-от-базы

«Зачем вообще выкидывать слои» — на конкретно этом примере он становится острее. Удаляются не «избыточные» слои по метрикам важности, а четыре целых супер-блока подряд из регулярной структуры. Это самый грубый вид depth-pruning, и без хорошего восстановительного тюна качество должно проседать заметно. Что и пытаются компенсировать distill’ом на Claude-выводах. Но базовая Qwen3.5-27B на бенчмарках играет в одной лиге с GPT-5-mini и Claude Sonnet 4.5 на ряде задач — терять её 25% слоёв ради «характера» и скорости — спорный размен. Полученные 21B на reasoning-бенчах почти наверняка слабее исходных 27B; выигрыш — только в скорости/памяти и «расцензуренности» с творческим уклоном.

Исследовательский промпт на будущее

Расследование модели на Hugging Face. Только факты.

ОБЯЗАТЕЛЬНЫЕ ШАГИ (в этом порядке, до любых выводов):

1. web_fetch на страницу модели: huggingface.co/{author}/{model}
2. web_fetch на raw config.json: huggingface.co/{author}/{model}/raw/main/config.json
3. Если в карточке указана базовая модель — web_fetch её страницы и её config.json
4. Сравнить config'и побайтно: hidden_size, intermediate_size, num_hidden_layers,
   num_attention_heads, num_key_value_heads, head_dim, vocab_size, layer_types,
   model_type, architectures, rope_parameters, vision_config (если есть)

ЕСЛИ КАРТОЧКА ПУСТАЯ ИЛИ "coming soon":
- не выдумывать пайплайн
- использовать только: теги модели, датасеты в сайдбаре, имена связанных репо
- явно сказать, что README канонически пустой

ОТВЕТ СТРОГО ПО СХЕМЕ:

[БАЗА] — что точно, по совпадению config'ов. Если не совпадают — что не совпадает.

[АРХИТЕКТУРА] — dense/MoE, тип attention (full/linear/гибрид), число слоёв,
hidden, intermediate, GQA-ratio, контекст, vocab, мультимодальность (vision/audio
configs), MTP. Цифрами, не прозой.

[ПАРАМЕТРЫ] — реальное число (из HF "Model size" или прикидка из config'а).
Сверить с числом в названии модели. Если расходится — отметить.

[ЧТО СДЕЛАНО С БАЗОЙ] — depth-pruning / depth-upscaling / merge / SFT / DPO /
abliteration / quantization / distillation. По возможности — на сколько слоёв,
какие именно блоки.

[ДАТАСЕТЫ] — точные имена из сайдбара. Сверить с тем, что заявлено в названии.

[ИМЯ vs РЕАЛЬНОСТЬ] — таблица: каждая часть названия → подтверждено / маркетинг
/ неточно. Особенно: версии моделей (Claude 4.5 vs 4.6, Qwen3 vs 3.5),
размеры, заявленные техники.

[ЧТО НЕ ПОДТВЕРЖДЕНО] — явный список того, что я не смог проверить через config
или страницу. Без этого пункта ответ не закончен.

ПРАВИЛА:

- Никаких "скорее всего", "вероятно", "почти наверняка" без явной пометки [гипотеза].
- Цитата из карточки = в кавычках с указанием секции. Из сниппета поиска — пометить
  "из сниппета, не из канонической страницы".
- Если config.json недоступен — попробовать /raw/main/config.json напрямую,
  не сдаваться на gated-форме.
- Если число параметров в названии не сходится с реальным размером — сказать.
- Бенчмарки из карточки — приводить как есть, не комментировать "хорошо/плохо".
- Никаких рекомендаций, оценок "стоит/не стоит", прогнозов качества — если не спросил.

ССЫЛКА: {вставь URL модели}

jetnet 12 hours ago

И опять стало интересно, а зачем слои на ветер выкидывать?..

Первое — таргетинг под потребительское железо. У DavidAU на странице есть 21B, 27B и 40B версии этой модели. Это веер под разные размеры VRAM, как линейка одежды. 21B — для 16GB.

Второе — нишевание. На Hugging Face десятки тысяч файнтюнов Qwen3.5-27B. «Просто ещё один тюн 27B» теряется. «21B-версия с уникальным размером» выделяется и легче находится.

Третье — эксперимент ради эксперимента. Сообщество мерджеров (DavidAU, Undi95, TheDrummer и т.д.) любит хирургию весов как самостоятельную дисциплину. Получается ли что-то хорошее — вопрос вторичный.

Четвёртое — продолжение экспериментов. Квантизация Q3_K_S от 27B даст похожую экономию памяти при меньшей деградации, чем pruning + distill. Многие именно так и считают — что depth-pruning потребительских моделей это путь сомнительной ценности, и предпочитают агрессивные кванты.

Fizikoleg 12 hours ago

В карточке модели написано, что ужали из Qwen3.5-27B, а не depth upscaling из Qwen3-14B