Pull to refresh
4

Enterprise search

0,4
Rating
Send message

И опять стало интересно, а зачем слои на ветер выкидывать?..

Первое — таргетинг под потребительское железо. У DavidAU на странице есть 21B, 27B и 40B версии этой модели. Это веер под разные размеры VRAM, как линейка одежды. 21B — для 16GB.

Второе — нишевание. На Hugging Face десятки тысяч файнтюнов Qwen3.5-27B. «Просто ещё один тюн 27B» теряется. «21B-версия с уникальным размером» выделяется и легче находится.

Третье — эксперимент ради эксперимента. Сообщество мерджеров (DavidAU, Undi95, TheDrummer и т.д.) любит хирургию весов как самостоятельную дисциплину. Получается ли что-то хорошее — вопрос вторичный.

Четвёртое — продолжение экспериментов. Квантизация Q3_K_S от 27B даст похожую экономию памяти при меньшей деградации, чем pruning + distill. Многие именно так и считают — что depth-pruning потребительских моделей это путь сомнительной ценности, и предпочитают агрессивные кванты.

Но базовый Qwen3 идёт в размерах 0.6B, 1.7B, 4B, 8B, 14B, 32B, 235B

Если автор модели брал именно 3.5, то самая большая из маленьких 3.5 - всего 9B.

Update: стало интересно, поднапряг ИИ-друзей

Финальная честная строка — твой первый вопрос, теперь с фактической базой:

файнтюн-Qwen3.5-27B(VL,gated-DeltaNet+gated-attention,28B-параметров)-
с-выкинутыми-4-из-16-супер-блоков-до-48-слоёв-21B-
после-аблитерации-через-Heretic-
и-многоэтапного-тюна-через-Unsloth-на-художественных-данных-Deckard-
и-дистилляте-Claude-4.5-Opus-
thinking-режим-унаследован-от-базы

«Зачем вообще выкидывать слои» — на конкретно этом примере он становится острее. Удаляются не «избыточные» слои по метрикам важности, а четыре целых супер-блока подряд из регулярной структуры. Это самый грубый вид depth-pruning, и без хорошего восстановительного тюна качество должно проседать заметно. Что и пытаются компенсировать distill’ом на Claude-выводах. Но базовая Qwen3.5-27B на бенчмарках играет в одной лиге с GPT-5-mini и Claude Sonnet 4.5 на ряде задач — терять её 25% слоёв ради «характера» и скорости — спорный размен. Полученные 21B на reasoning-бенчах почти наверняка слабее исходных 27B; выигрыш — только в скорости/памяти и «расцензуренности» с творческим уклоном.

Исследовательский промпт на будущее
Расследование модели на Hugging Face. Только факты.

ОБЯЗАТЕЛЬНЫЕ ШАГИ (в этом порядке, до любых выводов):

1. web_fetch на страницу модели: huggingface.co/{author}/{model}
2. web_fetch на raw config.json: huggingface.co/{author}/{model}/raw/main/config.json
3. Если в карточке указана базовая модель — web_fetch её страницы и её config.json
4. Сравнить config'и побайтно: hidden_size, intermediate_size, num_hidden_layers,
   num_attention_heads, num_key_value_heads, head_dim, vocab_size, layer_types,
   model_type, architectures, rope_parameters, vision_config (если есть)

ЕСЛИ КАРТОЧКА ПУСТАЯ ИЛИ "coming soon":
- не выдумывать пайплайн
- использовать только: теги модели, датасеты в сайдбаре, имена связанных репо
- явно сказать, что README канонически пустой

ОТВЕТ СТРОГО ПО СХЕМЕ:

[БАЗА] — что точно, по совпадению config'ов. Если не совпадают — что не совпадает.

[АРХИТЕКТУРА] — dense/MoE, тип attention (full/linear/гибрид), число слоёв,
hidden, intermediate, GQA-ratio, контекст, vocab, мультимодальность (vision/audio
configs), MTP. Цифрами, не прозой.

[ПАРАМЕТРЫ] — реальное число (из HF "Model size" или прикидка из config'а).
Сверить с числом в названии модели. Если расходится — отметить.

[ЧТО СДЕЛАНО С БАЗОЙ] — depth-pruning / depth-upscaling / merge / SFT / DPO /
abliteration / quantization / distillation. По возможности — на сколько слоёв,
какие именно блоки.

[ДАТАСЕТЫ] — точные имена из сайдбара. Сверить с тем, что заявлено в названии.

[ИМЯ vs РЕАЛЬНОСТЬ] — таблица: каждая часть названия → подтверждено / маркетинг
/ неточно. Особенно: версии моделей (Claude 4.5 vs 4.6, Qwen3 vs 3.5),
размеры, заявленные техники.

[ЧТО НЕ ПОДТВЕРЖДЕНО] — явный список того, что я не смог проверить через config
или страницу. Без этого пункта ответ не закончен.

ПРАВИЛА:

- Никаких "скорее всего", "вероятно", "почти наверняка" без явной пометки [гипотеза].
- Цитата из карточки = в кавычках с указанием секции. Из сниппета поиска — пометить
  "из сниппета, не из канонической страницы".
- Если config.json недоступен — попробовать /raw/main/config.json напрямую,
  не сдаваться на gated-форме.
- Если число параметров в названии не сходится с реальным размером — сказать.
- Бенчмарки из карточки — приводить как есть, не комментировать "хорошо/плохо".
- Никаких рекомендаций, оценок "стоит/не стоит", прогнозов качества — если не спросил.

ССЫЛКА: {вставь URL модели}

никто не ответил, пришлось самому в issue идти: https://github.com/aaronsb/obsidian-mcp-plugin/issues/62

The “semantic” in the plugin name refers to the semantic MCP interface design - organizing tools by intent (vault, view, edit, graph) rather than exposing raw operations. It doesn’t (currently) imply vector embeddings.

Семантика 80 уровня.

как хорошо, что теперь можно делать за 3 минуты, на что раньше тратилось 30:

Рефератик интервью

00:44 | Смерть кожаного кодера | Карпати впал в экзистенциальный кризис: с декабря ИИ-агенты начали выплевывать безупречные куски кода. Итог — полная капитуляция перед машиной, слепое доверие к автогенерации и уход в бесконечные “vibe coding” сайд-проекты.

02:28 | Software 3.0: Поминки по классической архитектуре | Эволюция цифрового концлагеря: 1.0 — ручной код, 2.0 — обучение нейронок, 3.0 — рычаг управления сместился в контекстное окно LLM. Установка софта (OpenClaw) теперь — тупой копипаст промпта агенту вместо монструозных bash-скриптов. Классические приложения-прослойки (как его проект Menu Gen на Vercel) оказались мусором: Gemini с NanoBanana просто рендерят нужный UI прямо поверх сырой фотки меню.

07:37 | Аппаратная шизофрения будущего (2026+) | Прогноз: классические процессоры (CPU) станут жалкими сопроцессорами. Роль “хоста” заберут нейросети, пожирающие сырое видео/аудио и генерирующие одноразовые интерфейсы через диффузию прямо на лету.

09:41 | Диктатура лабораторий и машинный идиотизм | ИИ автоматизирует только то, что легко верифицировать (математика, код). Модели дрессируют через гигантские симуляции с подкреплением (RL), что рождает “зубчатый” интеллект: Opus 4.7 может рефакторить 100 000 строк кода или найти zero-day уязвимость, но на полном серьезе советует идти пешком на автомойку. GPT-4 стал круто играть в шахматы только потому, что OpenAI тупо вывалили тонну шахматных партий в датасет. Мы полностью во власти того, что эти сектанты закинули в RL-котел. таки да

13:39 | Советы выживальщикам-фаундерам | Ищите узкие ниши с четкой верификацией результатов и создавайте собственные RL-среды для файн-тюнинга. В перспективе автоматизируют вообще всё — для субъективной чепухи вроде текстов посадят “консилиум LLM-судей”.

15:46 | Agentic Engineering: Как пасти стохастических баранов | “Vibe coding” дал возможность кодить любой кухарке. “Agentic engineering” — попытка удержать планку качества и не наплодить уязвимостей, управляя стадом ИИ-интернов. Старый найм через алгоритмические задачки мертв. Новый найм: даешь кандидату поднять клон Twitter для агентов, а потом натравливаешь на него 10 моделей Codex, чтобы пробить безопасность.

19:31 | Разделение труда: Галерные рабы и эстетика | Человеку остается только системная архитектура, вкус и контроль над памятью. Агентам спихивают рутину: путаницу в API между PyTorch и NumPy, параметры тензоров и прочий синтаксический шлак. При этом модели ненавидят упрощать (кейс MicroGPT) — они плодят громоздкий, раздутый код с копипастой, если задача выпадает из их вбитых RL-шаблонов.

25:17 | Цифровой аутизм и смерть документации | Документация “для людей” — атавизм. Инфраструктуру нужно переписывать под агентов (предоставлять сенсоры и актуаторы). Деплой руками на условный Vercel — архаизм; агент должен собирать и разворачивать всё сам без интерфейсов. В итоге перейдем к миру, где агенты будут сами базарить с агентами, исключая биомассу из цепочек согласования.

27:38 | Аутсорс мозгов, но не понимания | Главная аксиома новой реальности: “Можно зааутсорсить мышление, но нельзя зааутсорсить понимание”. LLM — это статистические призраки, они не способны к осмыслению. Человек остается узким горлышком: нужно держать логику и спецификацию в своей голове, чтобы понимать, какую именно дичь сейчас пытается собрать эта кремниевая богадельня.

Написал “semantic” - пиши какая модель для эмбеддингов.

Да хоспади, с этим т.н. нерогенезом пары нейронов-тормозов гиппокампе носятся уже столько лет как с писаной торбой, всё деньги у скруджев и скуперфильдов на продление жизни выколачивают. Нормальные ребята, я поддерживаю.

Вы поймите главное: мозг состоит из полей и подполей со своими функциями. Единственное что нас отличает от высших приматов - размер ассоциативных полей.

А там даже эти “учёные” не могут нейрогенез обнаружить при всём желании :)

И если вас Телеграф не устраивает, то может к Гитхабу больше доверия будет? :)

Ему надо что-то типа mcp-proxy (например, gitlab lazy-mcp) или он сам нормально подгружает только нужные?

Ну так и подумайте надосуге. Посмотрите на ключевую ставку, на профицит / дефицит платёжного баланса с 90-х годов по данным таможенной службы. Я вот думал-думал, но только до одного додумался: это ж всё не спроста!

Оценивать ум-разум по черепной коробке - это методика “шишек гениальности” 200-й давности Франца Галля. Вот посовременнее - 90 лет всего методике, но, как говорится - медицинский факт.

А что у нас с vLLM? Она на “классическом” кванте всегда в 3 раза быстрее Олламы и в 2 - лламы.цпп

Я тоже давно читал и смотрел науч.поп про неё, но запомнил, что на защите диссера никто из комиссии по существу возразить не смог. Потом - просто игнор со стороны “научного” сообщества.

Почитайте книгу “Наша Земля”, автор Ларин. Там и про воду тоже. А про доставление субстрата: это вопрос веры (то бишь, экономия мозговой энергии).

Я вот про эту теорему раз в пятилетку слышу, но мне хватает вот такого понимания:

Теория может бить либо полной либо противоречивой.
Нормальные учёные выбирают неполную теорию.

Такое понимание достаточно для чайника? :)

Чебурашку в SVG рисует - просто огонь!

А как это в агенте оаботает, у которого своих режимов со своими промптами из коробки полно? В агенте вы тогда только один режим, например, Кодер с моделью “Авто” из LiteLLM выставляете? А как тогда Планировщик, Ревьюер и т.д. они тоже через эту Авто-модель? И бывают ли сюрпризы, например, не та модель выбирается?

Кто/что занимается классифицированием запросов?

Э… так ты слона AGI не продашь…

а для танкистов можно уточнить - как локальный Виспер текст сюда закинет?

чатик
чатик
1
23 ...

Information

Rating
2,735-th
Registered
Activity