Comments 14
Это изначально не имеет смысла учитывая что вышел давно qwen3. 6, который впрочем уже имеет похожие репы
да, 3.6 квопус есть, но пока превью

p.s. 35b не превью
p.s.s. есть так же Uncensored но от других авторов
Вижу в теме, что посоветуете запускать локально, какие нейро самые-самые сейчас?
огромным именем*
Звучит уже не так громко, правда?
А с таким маркетингом и в синтетике от опуса сомневаться стоит. И она денег каких стоит, и в con't претрейн ее ведь надо. Если просто немножко его ответов зафайнтюнил - ну что смеяться, просто стилю поучил.
А параметры реально так тупо повысил? Это же целевую аудиторию уменьшает. Вот это интересно.
Но базовый Qwen3 идёт в размерах 0.6B, 1.7B, 4B, 8B, 14B, 32B, 235B
Если автор модели брал именно 3.5, то самая большая из маленьких 3.5 - всего 9B.
Update: стало интересно, поднапряг ИИ-друзей
Финальная честная строка — твой первый вопрос, теперь с фактической базой:
файнтюн-Qwen3.5-27B(VL,gated-DeltaNet+gated-attention,28B-параметров)-
с-выкинутыми-4-из-16-супер-блоков-до-48-слоёв-21B-
после-аблитерации-через-Heretic-
и-многоэтапного-тюна-через-Unsloth-на-художественных-данных-Deckard-
и-дистилляте-Claude-4.5-Opus-
thinking-режим-унаследован-от-базы
«Зачем вообще выкидывать слои» — на конкретно этом примере он становится острее. Удаляются не «избыточные» слои по метрикам важности, а четыре целых супер-блока подряд из регулярной структуры. Это самый грубый вид depth-pruning, и без хорошего восстановительного тюна качество должно проседать заметно. Что и пытаются компенсировать distill’ом на Claude-выводах. Но базовая Qwen3.5-27B на бенчмарках играет в одной лиге с GPT-5-mini и Claude Sonnet 4.5 на ряде задач — терять её 25% слоёв ради «характера» и скорости — спорный размен. Полученные 21B на reasoning-бенчах почти наверняка слабее исходных 27B; выигрыш — только в скорости/памяти и «расцензуренности» с творческим уклоном.
Исследовательский промпт на будущее
Расследование модели на Hugging Face. Только факты.
ОБЯЗАТЕЛЬНЫЕ ШАГИ (в этом порядке, до любых выводов):
1. web_fetch на страницу модели: huggingface.co/{author}/{model}
2. web_fetch на raw config.json: huggingface.co/{author}/{model}/raw/main/config.json
3. Если в карточке указана базовая модель — web_fetch её страницы и её config.json
4. Сравнить config'и побайтно: hidden_size, intermediate_size, num_hidden_layers,
num_attention_heads, num_key_value_heads, head_dim, vocab_size, layer_types,
model_type, architectures, rope_parameters, vision_config (если есть)
ЕСЛИ КАРТОЧКА ПУСТАЯ ИЛИ "coming soon":
- не выдумывать пайплайн
- использовать только: теги модели, датасеты в сайдбаре, имена связанных репо
- явно сказать, что README канонически пустой
ОТВЕТ СТРОГО ПО СХЕМЕ:
[БАЗА] — что точно, по совпадению config'ов. Если не совпадают — что не совпадает.
[АРХИТЕКТУРА] — dense/MoE, тип attention (full/linear/гибрид), число слоёв,
hidden, intermediate, GQA-ratio, контекст, vocab, мультимодальность (vision/audio
configs), MTP. Цифрами, не прозой.
[ПАРАМЕТРЫ] — реальное число (из HF "Model size" или прикидка из config'а).
Сверить с числом в названии модели. Если расходится — отметить.
[ЧТО СДЕЛАНО С БАЗОЙ] — depth-pruning / depth-upscaling / merge / SFT / DPO /
abliteration / quantization / distillation. По возможности — на сколько слоёв,
какие именно блоки.
[ДАТАСЕТЫ] — точные имена из сайдбара. Сверить с тем, что заявлено в названии.
[ИМЯ vs РЕАЛЬНОСТЬ] — таблица: каждая часть названия → подтверждено / маркетинг
/ неточно. Особенно: версии моделей (Claude 4.5 vs 4.6, Qwen3 vs 3.5),
размеры, заявленные техники.
[ЧТО НЕ ПОДТВЕРЖДЕНО] — явный список того, что я не смог проверить через config
или страницу. Без этого пункта ответ не закончен.
ПРАВИЛА:
- Никаких "скорее всего", "вероятно", "почти наверняка" без явной пометки [гипотеза].
- Цитата из карточки = в кавычках с указанием секции. Из сниппета поиска — пометить
"из сниппета, не из канонической страницы".
- Если config.json недоступен — попробовать /raw/main/config.json напрямую,
не сдаваться на gated-форме.
- Если число параметров в названии не сходится с реальным размером — сказать.
- Бенчмарки из карточки — приводить как есть, не комментировать "хорошо/плохо".
- Никаких рекомендаций, оценок "стоит/не стоит", прогнозов качества — если не спросил.
ССЫЛКА: {вставь URL модели}
И опять стало интересно, а зачем слои на ветер выкидывать?..
Первое — таргетинг под потребительское железо. У DavidAU на странице есть 21B, 27B и 40B версии этой модели. Это веер под разные размеры VRAM, как линейка одежды. 21B — для 16GB.
Второе — нишевание. На Hugging Face десятки тысяч файнтюнов Qwen3.5-27B. «Просто ещё один тюн 27B» теряется. «21B-версия с уникальным размером» выделяется и легче находится.
Третье — эксперимент ради эксперимента. Сообщество мерджеров (DavidAU, Undi95, TheDrummer и т.д.) любит хирургию весов как самостоятельную дисциплину. Получается ли что-то хорошее — вопрос вторичный.
Четвёртое — продолжение экспериментов. Квантизация Q3_K_S от 27B даст похожую экономию памяти при меньшей деградации, чем pruning + distill. Многие именно так и считают — что depth-pruning потребительских моделей это путь сомнительной ценности, и предпочитают агрессивные кванты.
В карточке модели написано, что ужали из Qwen3.5-27B, а не depth upscaling из Qwen3-14B
Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем