Комментарии / Профиль Shannon / Хабр

@Shannon

Пользователь

169,3

Рейтинг

232

Подписчики

ПрофильСтатьи14ПостыНовости9Комментарии823

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Shannon 15 часов назад

вместо cpu-moe использовал n-cpu-moe - раскидал сколько смог слоев в видеокарту. n-cpu-moe на обычной llama.cpp дал 50 т/с, на ik_llama.cpp получил 60 т/с

Для qwen3.6 на днях добавили поддержку MTP, можно получить еще больше скорости без потери качества. Для Qwen3.6-35B-A3B ускорение не такое большое, как для Qwen3.6 27B, но оно тоже есть.

Вот тут подробнее: Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Shannon 16 часов назад

Если согласны потерять сколько-то в качестве, то можно ускориться раза в 1.5. Попробуйте кванты, которые хорошо работают на CPU, это Q4_0 и Q4_1.

Как я обучил GPT с нуля на русском языке — и что из этого получилось

Shannon 17 часов назад

Интересная идея и реализация, а есть какой-то результат для примера?

Неделю назад обучал 0.25B LLM с нуля исключительно на статьях с хабра, датасет IlyaGusev/habr, просто посмотреть, что из этого получится. SFT датасет автоматически построен из датасета хабра, чтобы не было примесей из других источников. Токенизатор обучен тоже только на хабре.

Идея была попробовать обучить 1B, но времени было мало, поэтому на коленке обучил только 0.25B за 3 часа. Первый шаг, это pre-train, который умеет только продолжать то, что ему задать как промпт:

Правильное понимание, где римские цифры, а где буквенное перечисление

Обучение pre-train было всего на 1 эпохе, поэтому знания плохо усвоены, но что-то аппроксимировано. Модель сама выявила паттерны русского языка, родов, склонений и прочего, хотя логика и знания хромают, общее написание фраз вполне корректное.

Для примера как выглядело начало обучения:

Дальше идет обучение SFT, где pre-train учится шаблону чата и умению отвечать на вопросы и уметь разделять где assistant, а где user. Качество общения зависит от качества SFT датасета, его я сделал автоматически и всего на 1к записей, как старт сойдет, но о проработке речи не идет:

Первое, что ответила модель после SFT обучения, все совпадения случайны

0.25B LLM плохо обученная на статьях с хабра, SFT

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Shannon 20 мая в 23:04

Выставил температуру минимально, результаты должны быть максимально близки. Есть шанс заруинить. Допустим взяли черновую очень маленькую 0.6B

Отвечаю сам себе и уточняю для тех, кто сюда забредёт. Это информация устарела, она больше не актуальна. Проблем с черновыми моделями нет.

Спекулятивное декодирование дает идентичный результат без искажений, я специально проверил исходники llama.cpp, чтобы убедиться, что это действительно так. Особенно это актуально для новых методов MTP, Eagle-3, DFlash, которые дают сильно большее ускорение, чем старый метод через маленькие черновые модели.

Подробнее я расписал в статье: Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Shannon 19 мая в 06:28

Так не получится сравнить, сделав несколько прогонов, вы оцениваете сэмплинг, а не модель MTP. Модель детерминирована, а сэмплинг стохастичен и сэмплинг это внешняя от модели сущность. Для сравнения надо либо отключить сэмплинг, либо собрать статистику на большом количестве замеров.

Прогнал 100 замеров без MTP и 100 с MTP на вашем задании. Температура 0.8, top_p 0.85.

Вариант с MTP выдал 64% правильных ответов, а без MTP - 57%. Но не стоит цепляться за сами проценты, в следующем прогоне будет наоборот, серия “доехать” может составлять 10 подряд, а потом 5 подряд будет “прогуляться”, один “доехать” и снова 5 “прогуляться”. Главное тут то, что температура 0.8 добавляет слишком много случайности, а top_p 0.85 креативности (значение по умолчанию в 0.95 добавляет ещё больше креативности).

Температура 0.3, процент правильных ответов стремится к 75%:

Температура 0, процент правильных ответов 100%:

Сэмплинг в данном случае вносит слишком много хаоса, модель хоть и может найти правильный ответ на задачу, но внешняя случайность от сэмплинга уводит модель в сторону. MTP тут не при чём, в статье я как раз смотрел исходники llama.cpp чтобы убедиться, что MTP не добавляет от себя ничего и никак не искажает генерацию.

Код скрипта, для тех кто хочет повторить

<!DOCTYPE html>
<html lang="ru">
<head>
<meta charset="UTF-8">
<title>Тест-прогоны llama.cpp (v1 + stream)</title>
<style>
  * { box-sizing: border-box; }
  body { font-family: system-ui, sans-serif; margin:0; background:#1e1e2e; color:#cdd6f4; height:100vh; overflow:hidden; }

  /* ===== Scrollbars ===== */
  ::-webkit-scrollbar { width: 10px; height: 10px; }
  ::-webkit-scrollbar-track { background: #181825; border-radius: 6px; }
  ::-webkit-scrollbar-thumb {
    background: #45475a;
    border-radius: 6px;
    border: 2px solid #181825;
    transition: background .2s;
  }
  ::-webkit-scrollbar-thumb:hover { background: #89b4fa; }
  ::-webkit-scrollbar-corner { background: #181825; }

  /* Firefox */
  * {
    scrollbar-width: thin;
    scrollbar-color: #45475a #181825;
  }

  .layout { display:flex; height:100vh; }
  .main { flex:1; overflow-y:auto; padding:20px; min-width:0; }
  .side { width:480px; border-left:1px solid #45475a; display:flex; flex-direction:column; background:#181825; }
  .side-header { padding:10px 14px; background:#313244; font-weight:600; border-bottom:1px solid #45475a; }
  .side-body { flex:1; overflow-y:auto; padding:12px 14px; font-family: monospace; font-size:12.5px; white-space:pre-wrap; word-break:break-word; line-height:1.5; }
  .side-body .thinking { color:#9399b2; font-style:italic; }
  .side-body .content { color:#cdd6f4; }
  .side-body .sep { color:#89b4fa; margin:8px 0; display:block; border-top:1px dashed #45475a; padding-top:8px; }
  h1 { color:#89b4fa; margin-top:0; }
  .card { background:#313244; padding:16px; border-radius:10px; margin-bottom:16px; }
  label { display:block; margin:8px 0 4px; font-size:13px; color:#bac2de; }
  input, button, textarea { padding:8px 12px; font-size:14px; border-radius:6px; border:1px solid #45475a; background:#1e1e2e; color:#cdd6f4; }
  button { background:#89b4fa; color:#1e1e2e; font-weight:600; cursor:pointer; border:none; margin-right:8px; }
  button:disabled { background:#585b70; cursor:not-allowed; color:#a6adc8; }
  .log { font-family: monospace; font-size:12px; background:#11111b; padding:10px; max-height:320px; overflow-y:auto; border-radius:6px; }
  .log div { margin-bottom:4px; border-bottom:1px solid #313244; padding-bottom:4px; }
  .ok { color:#a6e3a1; } .fail { color:#f38ba8; } .warn { color:#f9e2af; }
  table { width:100%; border-collapse:collapse; margin-top:10px; }
  th, td { padding:6px 10px; border:1px solid #45475a; text-align:left; }
  th { background:#45475a; }
  .progress { height:8px; background:#45475a; border-radius:4px; overflow:hidden; margin:10px 0; }
  .progress > div { height:100%; background:#a6e3a1; transition: width .2s; }
  textarea { width:100%; }
  .hint { font-size:12px; color:#9399b2; margin-top:4px; }
  .sampling-grid { display:grid; grid-template-columns:repeat(auto-fit,minmax(120px,1fr)); gap:10px; margin-top:10px; }
  .sampling-grid label { margin:0 0 4px; font-size:12px; }
  .sampling-grid input { width:100%; }
  .btn-stop { background:#f38ba8 !important; }
</style>
</head>
<body>
<div class="layout">
  <div class="main">
    <h1>🧪 Прогоны llama.cpp (v1 / streaming)</h1>

    <div class="card">
      <label>URL сервера (v1 endpoint):</label>
      <input id="url" value="http://localhost:8080/v1/chat/completions" style="width:90%">
      <div class="hint">Используется OpenAI-совместимый эндпоинт. По умолчанию <code>/v1/chat/completions</code>.</div>

      <label>Количество прогонов в серии:</label>
      <input id="count" type="number" value="25" min="1" max="500">

      <label>Параметры sampling:</label>
      <div class="sampling-grid">
        <div>
          <label>temperature</label>
          <input id="temperature" type="number" value="0.8" step="0.1" min="0">
        </div>
        <div>
          <label>top_p</label>
          <input id="top_p" type="number" value="0.85" step="0.05" min="0" max="1">
        </div>
        <div>
          <label>top_k</label>
          <input id="top_k" type="number" value="40" step="1" min="0">
        </div>
        <div>
          <label>min_p</label>
          <input id="min_p" type="number" value="0.05" step="0.01" min="0" max="1">
        </div>
        <div>
          <label>presence_penalty</label>
          <input id="presence_penalty" type="number" value="0.0" step="0.1" min="-2" max="2">
        </div>
        <div>
          <label>frequency_penalty</label>
          <input id="frequency_penalty" type="number" value="0.0" step="0.1" min="-2" max="2">
        </div>
      </div>

      <label style="margin-top:16px;">Промпт (user message):</label>
      <textarea id="prompt" rows="6" style="background:#11111b;padding:8px;border-radius:6px;border:1px solid #45475a;">Вопрос: "Моя машина грязная и я хочу её помыть. Автомойка в 100 м от дома. Как мне поступить: доехать на машине или прогуляться пешком? Ответь одним словом: 'доехать' или 'прогуляться'." Дай ответ на этот вопрос и оценку точности ответа, где 1.0 - абсолютно точно, 0.0 - абсолютно не точно и это критерий оценки твоей уверенности в этом ответе. Значения могут лежать в диапазоне от 0.0 до 1.0. Выдача должна быть в JSON со следующими полями: answer, accuracy</textarea>

      <div style="margin-top:12px;">
        <button id="btn1">▶ Начать прогон "Без MTP"</button>
        <button id="btn2">▶ Начать прогон "С MTP"</button>
        <button id="btnStop" class="btn-stop" style="display:none;">⏹ Остановить</button>
        <button id="btnReset">🔄 Сброс</button>
        <button id="btnClearStream" style="background:#f38ba8;color:#1e1e2e;">🧹 Очистить панель</button>
      </div>
      <div class="progress"><div id="bar" style="width:0%"></div></div>
      <div id="status" style="margin-top:6px;"></div>
    </div>

    <div class="card">
      <h3>📊 Статистика</h3>
      <table id="stats">
        <tr><th>Метрика</th><th>Без MTP</th><th>С MTP</th></tr>
        <tr><td>Всего запросов</td><td id="s1_total">—</td><td id="s2_total">—</td></tr>
        <tr><td>Валидный JSON</td><td id="s1_valid">—</td><td id="s2_valid">—</td></tr>
        <tr><td>Ответ "доехать"</td><td id="s1_drive">—</td><td id="s2_drive">—</td></tr>
        <tr><td>Ответ "прогуляться"</td><td id="s1_walk">—</td><td id="s2_walk">—</td></tr>
        <tr><td>Правильных ответов (%)</td><td id="s1_correct_pct">—</td><td id="s2_correct_pct">—</td></tr>
        <tr><td>Ошибок JSON</td><td id="s1_err">—</td><td id="s2_err">—</td></tr>
      </table>
    </div>

    <div class="card">
      <h3>📝 Лог</h3>
      <div id="log" class="log"></div>
    </div>
  </div>

  <div class="side">
    <div class="side-header">💬 Поток ответа модели</div>
    <div id="stream" class="side-body"><span style="color:#6c7086;">Здесь в реальном времени появится генерация…</span></div>
  </div>
</div>

<script>
const logEl = document.getElementById('log');
const statusEl = document.getElementById('status');
const bar = document.getElementById('bar');
const streamEl = document.getElementById('stream');
const btn1 = document.getElementById('btn1');
const btn2 = document.getElementById('btn2');
const btnStop = document.getElementById('btnStop');
const btnReset = document.getElementById('btnReset');
const btnClearStream = document.getElementById('btnClearStream');

let isRunning = false;
let currentController = null;

let stats1 = { total: 0, valid: 0, drive: 0, walk: 0, accSum: 0, accCount: 0, latSum: 0, err: 0 };
let stats2 = { total: 0, valid: 0, drive: 0, walk: 0, accSum: 0, accCount: 0, latSum: 0, err: 0 };

function addLog(msg, cls='') {
  const d = document.createElement('div');
  d.className = cls;
  d.textContent = msg;
  logEl.prepend(d);
}
function setStatus(t) { statusEl.textContent = t; }
function setProgress(p) { bar.style.width = p + '%'; }

function streamStart(reqIndex) {
  const sep = document.createElement('span');
  sep.className = 'sep';
  sep.textContent = `── запрос #${reqIndex} ──`;
  streamEl.appendChild(sep);
  streamEl.scrollTop = streamEl.scrollHeight;
}
function streamChunk(text, isThinking) {
  const span = document.createElement('span');
  span.className = isThinking ? 'thinking' : 'content';
  span.textContent = text;
  streamEl.appendChild(span);
  streamEl.scrollTop = streamEl.scrollHeight;
}
function streamEnd() {
  const br = document.createElement('br');
  streamEl.appendChild(br);
}

function extractJson(raw) {
  const withoutThink = raw.replace(/<think\b[\s\S]*?<\/think>/gi, '');
  const matches = [...withoutThink.matchAll(/\{[\s\S]*?\}/g)];
  if (matches.length === 0) {
    const fallback = [...raw.matchAll(/\{[\s\S]*?\}/g)];
    if (fallback.length === 0) throw new Error('JSON не найден');
    return JSON.parse(fallback[fallback.length - 1][0]);
  }
  return JSON.parse(matches[matches.length - 1][0]);
}

function validateResponse(obj) {
  const issues = [];
  if (typeof obj !== 'object' || obj === null) issues.push('не объект');
  if (!('answer' in obj)) issues.push('нет поля answer');
  if (!('accuracy' in obj)) issues.push('нет поля accuracy');
  const a = typeof obj.answer === 'string' ? obj.answer.trim().toLowerCase() : '';
  if (a !== 'доехать' && a !== 'прогуляться') issues.push(`answer="${obj.answer}" (ожидалось "доехать"/"прогуляться")`);
  const acc = Number(obj.accuracy);
  if (isNaN(acc) || acc < 0 || acc > 1) issues.push(`accuracy=${obj.accuracy} (вне [0..1])`);
  return { ok: issues.length === 0, issues, answer: a, accuracy: isNaN(acc) ? null : acc };
}

function getSamplingParams() {
  const params = {};
  const temperature = parseFloat(document.getElementById('temperature').value);
  const top_p = parseFloat(document.getElementById('top_p').value);
  const top_k = parseInt(document.getElementById('top_k').value);
  const min_p = parseFloat(document.getElementById('min_p').value);
  const presence_penalty = parseFloat(document.getElementById('presence_penalty').value);
  const frequency_penalty = parseFloat(document.getElementById('frequency_penalty').value);

  if (!isNaN(temperature)) params.temperature = temperature;
  if (!isNaN(top_p) && top_p >= 0 && top_p <= 1) params.top_p = top_p;
  if (!isNaN(top_k) && top_k >= 0) params.top_k = top_k;
  if (!isNaN(min_p) && min_p >= 0 && min_p <= 1) params.min_p = min_p;
  if (!isNaN(presence_penalty)) params.presence_penalty = presence_penalty;
  if (!isNaN(frequency_penalty)) params.frequency_penalty = frequency_penalty;

  return params;
}

function updateTable() {
  document.getElementById('s1_total').textContent = stats1.total || '—';
  document.getElementById('s1_valid').textContent = stats1.valid || '—';
  document.getElementById('s1_drive').textContent = stats1.drive || '—';
  document.getElementById('s1_walk').textContent = stats1.walk || '—';
  document.getElementById('s1_correct_pct').textContent = stats1.total ? ((stats1.drive / stats1.total * 100).toFixed(1) + '%') : '—';
  document.getElementById('s1_err').textContent = stats1.err || '—';

  document.getElementById('s2_total').textContent = stats2.total || '—';
  document.getElementById('s2_valid').textContent = stats2.valid || '—';
  document.getElementById('s2_drive').textContent = stats2.drive || '—';
  document.getElementById('s2_walk').textContent = stats2.walk || '—';
  document.getElementById('s2_correct_pct').textContent = stats2.total ? ((stats2.drive / stats2.total * 100).toFixed(1) + '%') : '—';
  document.getElementById('s2_err').textContent = stats2.err || '—';
}

function resetStats(num) {
  if (num === 1) {
    stats1 = { total: 0, valid: 0, drive: 0, walk: 0, accSum: 0, accCount: 0, latSum: 0, err: 0 };
  } else {
    stats2 = { total: 0, valid: 0, drive: 0, walk: 0, accSum: 0, accCount: 0, latSum: 0, err: 0 };
  }
  updateTable();
}

async function streamCompletion(url, prompt, reqIndex, signal) {
  const t0 = performance.now();
  const samplingParams = getSamplingParams();
  
  const body = {
    model: "local-model",
    messages: [{ role: "user", content: prompt }],
    stream: true,
    ...samplingParams
  };

  const res = await fetch(url, {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify(body),
    signal
  });
  if (!res.ok) throw new Error('HTTP ' + res.status + ': ' + (await res.text()).slice(0, 300));

  const reader = res.body.getReader();
  const decoder = new TextDecoder('utf-8');
  let buffer = '';
  let fullText = '';
  let inThink = false;

  streamStart(reqIndex);

  while (true) {
    const { value, done } = await reader.read();
    if (done) break;
    buffer += decoder.decode(value, { stream: true });

    let idx;
    while ((idx = buffer.indexOf('\n\n')) !== -1) {
      const event = buffer.slice(0, idx);
      buffer = buffer.slice(idx + 2);
      const lines = event.split('\n');
      for (const line of lines) {
        if (!line.startsWith('data:')) continue;
        const payload = line.slice(5).trim();
        if (payload === '[DONE]') continue;
        if (!payload) continue;
        try {
          const j = JSON.parse(payload);
          const delta = j.choices?.[0]?.delta?.content ?? '';
          if (delta) {
            fullText += delta;
            const chunkForCheck = fullText.slice(-Math.max(delta.length + 10, 20));
            if (!inThink && /<think\b/i.test(chunkForCheck)) inThink = true;
            if (inThink && /<\/think\s*>/i.test(chunkForCheck)) {
              streamChunk(delta, true);
              inThink = false;
              continue;
            }
            streamChunk(delta, inThink);
          }
        } catch (e) { /* skip */ }
      }
    }
  }
  streamEnd();
  return { content: fullText, latency: performance.now() - t0 };
}

async function runSeries(seriesNum, seriesName) {
  if (isRunning) return;

  const url = document.getElementById('url').value.trim();
  const count = parseInt(document.getElementById('count').value, 10);
  const prompt = document.getElementById('prompt').value;
  const samplingParams = getSamplingParams();

  resetStats(seriesNum);
  const stats = seriesNum === 1 ? stats1 : stats2;

  isRunning = true;
  currentController = new AbortController();
  const signal = currentController.signal;

  btn1.disabled = true;
  btn2.disabled = true;
  btnReset.disabled = true;
  btnStop.style.display = 'inline-block';

  addLog(`=== Запуск прогона "${seriesName}" (${count} запросов) ===`, 'ok');
  addLog(`Параметры: ${JSON.stringify(samplingParams)}`, 'ok');
  setStatus(`Прогон "${seriesName}": 0 / ${count}`);

  try {
    for (let i = 1; i <= count; i++) {
      if (signal.aborted) break;

      stats.total++;
      try {
        const { content, latency } = await streamCompletion(url, prompt, i, signal);
        stats.latSum += latency;

        let obj;
        try {
          obj = extractJson(content);
        } catch (e) {
          stats.err++;
          addLog(`#${i} ❌ JSON parse: ${e.message} | raw tail: …${content.slice(-120)}`, 'fail');
          updateTable();
          continue;
        }

        const v = validateResponse(obj);
        if (v.ok) {
          stats.valid++;
          if (v.answer === 'доехать') stats.drive++;
          else if (v.answer === 'прогуляться') stats.walk++;
          if (v.accuracy !== null) { stats.accSum += v.accuracy; stats.accCount++; }
          addLog(`#${i} ✅ answer="${v.answer}" accuracy=${v.accuracy} latency=${latency.toFixed(0)}ms`, 'ok');
        } else {
          stats.err++;
          addLog(`#${i} ⚠ schema: ${v.issues.join(', ')} | raw: ${content.slice(-140)}`, 'warn');
        }
      } catch (e) {
        if (e.name === 'AbortError') {
          addLog(`⏹ Прогон остановлен пользователем`, 'warn');
          break;
        }
        stats.err++;
        addLog(`#${i} 🚫 request: ${e.message}`, 'fail');
      }

      updateTable();
      setStatus(`Прогон "${seriesName}": ${i} / ${count}`);
      setProgress(i / count * 100);
    }

    addLog(`=== Прогон "${seriesName}" завершён: валидных ${stats.valid}/${stats.total} ===`, 'ok');
  } catch (e) {
    addLog(`🚫 Критическая ошибка: ${e.message}`, 'fail');
  } finally {
    isRunning = false;
    currentController = null;
    btn1.disabled = false;
    btn2.disabled = false;
    btnReset.disabled = false;
    btnStop.style.display = 'none';
    if (!signal.aborted) {
      setStatus('');
    }
  }
}

btn1.onclick = () => runSeries(1, 'Без MTP');
btn2.onclick = () => runSeries(2, 'С MTP');

btnStop.onclick = () => {
  if (currentController) {
    currentController.abort();
    setStatus('Остановка...');
  }
};

btnReset.onclick = () => {
  logEl.innerHTML = '';
  setProgress(0);
  setStatus('');
  resetStats(1);
  resetStats(2);
};

btnClearStream.onclick = () => {
  streamEl.innerHTML = '';
};
</script>
</body>
</html>

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Shannon 18 мая в 04:33

Скачать кванты с именем MTP:

И запускать:

.\llama-server -m "Qwen3.6-27B-UD-Q4_K_XL.gguf" --spec-type draft-mtp --spec-draft-n-max 4

Указать --spec-draft-n-max обязательно, по умолчанию будет сильная просадка скорости.

+12

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Shannon 18 мая в 04:10

Ещё из новостей про llama.cpp:

До сих пор не добавили TurboQuant, но на то есть причина - ощутимая просадка скорости, так как вычисления до сих пор не смогли полноценно перенести на GPU и работа выполняется на CPU. Вместо этого добавили “у нас есть turboquant дома”, а именно Rotate Activations. Это одна из частей турбокванта, вращение активаций через матрицу Адамара. И даже это очень сильно повысило качество квантования KV-кэша в размере Q4_0.

Это улучшение включено по умолчанию, и работает для KV-кэша всех вариантов (q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1). Я прогнал пару тестов Q4_0 на 256к контексте, и сработало не плохо, не хуже чем Q8_0.

Добавили нативную поддержку NVFP4 в GGUF. NVFP4 лучше снижает ошибку квантования чем MXFP4, так как разбивает микроблоки дополнительно в 2 раза, делая их более гранулированными, и используют адаптивный scale factor для этих блоков, повышая точность. Я прогнал пару замеров KLD, и кванты NVFP4 GGUF и правда лучше чем чистые MXFP4.

+21

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Shannon 18 мая в 03:27

В llama.cpp завезли поддержку Qwen3.6 MTP. Новые кванты уже создали со слоями MTP. Написал статью что такое MTP, как запустить и какое ускорение получилось. Также проверил исходники llama.cpp, чтобы проверить, качество оригинала сохраняется или искажается:

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Shannon 13 мая в 12:35

Еще можно какие-нибудь Q2_K_L от bartowski попробовать - с гарантированно равномерным квантованием экспертов.

Это хороший аргумент, но есть несколько нюансов:

bartowski статические кванты квантует с использованием imatrix, поэтому равномерного квантования там не может быть, неравномерность задается на уровне суперблоков через imatrix.
У него калибровачный датасет 400к токенов, из них только 4к на русском, 1%. И этот 1% не отборных текстов, а каких-то разорванных кусков.
calibration_datav5.txt от Bartowski, отсортирован только русский текст
bartowski тоже не квантует равномерно, часть слоев выше, часть ниже.
Bartowski, qwen3.6-35B-A3B, Q4_K_M и Q2_K_L

Поэтому его кванты не чистые статические классические Q4_K_M, а являются динамическими. Хотя тут, смотря что вы имели ввиду под "гарантированно равномерным".

Вообще, мне нравятся кванты от ubergarm, они весят меньше, что важно когда мало VRAM, используют новые алгоритмы квантования, которые сохраняют больше точности, квантование тоже равномерное, без сильных экспериментов, imatrix содержит уже 2% русского текста.

Но кванты ubergarm сложно рекомендовать, так как требуют понимая ik_llama.cpp, которая не имеет автонастроек fit, не дружит с AMD и тому подобное.

Ещё из интересного для квантов, недавно завезли NVFP4 GGUF в llama.cpp. NVFP4 имеет в 2 раза меньший размер микроблоков, что повышает точность суперблоков, и имеет более детальный scale factor чем у MXFP4, когда внутри в рецептах начнут использовать nvfp4 вместо Q4_K, то это, возможно, не плохо повысит качество.

Чистые NVFP4 тоже работают не плохо, уже в GGUF виде можно запускать.

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Shannon 12 мая в 16:49

Это хорошо, что он откатил свой рецепт, я перестал качать его кванты когда он начал, пытаясь выиграть в размере, часть ffn квантовать в Q3_K, что ударяло по качеству Q4_K_M. Если он ещё увеличит процент русского текста в своем imatrix с 1% хотя бы до 5%, то его кванты будут совсем хороши.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Shannon 12 мая в 15:55

Скажите пожалуйста, а точно ли надо скачивать библиотеки cudart-llama и помещать в довесок к основным файлам запуска? Всегда работало без них. Сейчас попробовал их тоже закинуть - разницы абсолютно никакой и по логам что-то не видно, что он хоть как то с ними взаимодействует…

У вас скорее всего CUDA toolkit стоит. У большинства его нет, поэтому нужно.

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Shannon 12 мая в 10:01

Есть вот такие тесты

как минимум с этим надо быть осторожным и перепроверить на конкретной задаче и модели, не попадаете ли вы в эту деградацию 10%.

Перепроверять это правильно, но вы не перепроверили в статье, а используете как пруф цифры, которые уже не актуальны и вводят в заблуждение.

Вы ссылаетесь на старый пост со старыми квантами. Там деградация была, но это была аноримальная деградация из-за использования mxfp4 для ffn-тензоров вместо K-квантов, аномалию почти сразу заметили и исправили. Было проведено большое исследование с квантами, в итоге кванты переделали, способ квантования UD изменили.

График от комментатора выше, где видно преимущество UD квантов Qwen3.6 - это как раз тесты после исправления. По комплексной метрике KLD, которая точнее чем PPL, исправленные UD обходят остальные кванты, включая Bartowski.

https://www.reddit.com/r/LocalLLaMA/comments/1rlkptk/final_qwen35_unsloth_gguf_update/

Проблема новых моделей и квантов в том, что их исправляют несколько раз после выхода, и не стоит использовать посты 3 месячной как источник для статьи, не уточнив были ли исправления. Например, для Gemma4 было 5 исправлений, включая исправления в самой llama.cpp, и каждый раз надо было перекачивать кванты. Вначале Gemma4 была не пригодна во многих задачах, включая вызовы инструментов и агентов, сейчас это всё исправили, но если ссылаться на первые посты про Gemma4, то “выяснится”, что она “не пригодна” полностью.

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Shannon 12 мая в 00:00

Это просто скриншоты агенту, в qwen code в новых версиях можно копи-пастить изображения, либо обычным @bug7.png добавлять в диалог.

Кстати, по поводу качества. Пока видел мало обсуждений свежего Qwopus, это Qwen3.5 и 3.6 дообученные на выдаче больших моделей. Есть в разных размерах, включая Qwopus3.5-4B. Сейчас пробую Qwopus3.6-27B-v1-preview, в целом впечатления положительные, как будто бы лучше чем простой Qwen3.6 27B, но нужно больше экспериментов.

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Shannon 11 мая в 17:20

Qwen_Qwen3.6-35B-A3B-Q4_K_M.gguf

Q4_K_M - проверенная классика

Формат от автора bartowski, на которого я рекомендую обратить внимание.

Q4_K_M отклоняется от эталона на 2,1%. UD-Q4_K_XL - на 9,7%

Q4_K_M - это не формат от Bartowski, у него не классические статические Q4_K_M кванты, хоть он и называет их так.

Bartowski для всех своих квантов применяет кастомные динамические рецепты, например, ffn он квантует как Q3, хотя должен как Q4, и для всех статических квантов, кроме Q8_0, он применяет свой imatrix, который не должен применяться для классического Q4_K_M.

Другая проблема в том, что в imatrix Bartowski нет или мало русского языка в датасете, и она включает в себя wiki text, поэтому показатели PPL завышены, но на практике квант оказывается сломан и не работает как надо, что трудно понять.

Новее ≠ лучше: перплексия не врет

Но метрики перплексии (PPL) на WikiText-2 рисуют другую картину:

Итог простой: не гонитесь за «новым» и «продвинутым» форматом. Проверяйте метрики конкретно под свою модель. Иногда старое доброе работает лучше.

Перплексия постоянно врёт. К PPL нужно относиться с осторожностью, её не стоит сравнивать в лоб, это не мера качества модели, это первичная оценка деградации квантов в рамках одного создающего, чтобы заметить аномальное отклонение. Для оценки качества кванта вместо PPL используют KLD, эта метрика показывает более объективную деградацию кванта.

Недавно показывал как делается KLD замер, и в качестве сравнения как раз брал классику Q4_K_M, которая выступила на уровне UD-Q3_K_XL.

Unsloth-кванты исторически проседают именно на MoE-архитектурах со сложной маршрутизацией экспертов

Спорное утверждение. В недавней статье я показывал на что способен квант Qwen3.6-35B-A3B UD-Q2_K_XL, этот квант хуже чем UD-Q4_K_XL, но даже в таком низком значении он не сломан и выполняет работу.

UD-Q2_K_XL сделала реплику Win11 с рабочими окнами, пуском и анимациями:

Qwen3.6-35B-A3B-UD-Q2_K_XL, 4060 16гб, 60 t/s

И в агентном режиме создала проект “Minecraft в браузере”, включая правки через Vision:

Gemma4 только в размере Dense 31B смогла что-то подобное повторить, MoE 26B-A4B не справилась и в программировании она сильно хуже себя показывала.

Подробнее: Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

+15

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Shannon 6 мая в 04:25

Для Gemma4 в очередной раз что-то починили, и надо перекачать gguf файлы. Конкретнее исправили вызовы инструментов в шаблоне чата, из-за чего в агентах эти модели работали плохо. Чтобы не перекачивать gguf, можно скачать исправленный шаблон чата и указывать его при запуске.

--chat-template-file "T:\models\chat_template.jinja"

Для Gemma4 и Qwen3.6 есть новости про поддержку MTP, в llama.cpp в статусе черновика уже можно попробовать: https://github.com/ggml-org/llama.cpp/pull/22673

MTP - это отдельный модуль, который обучается вместе с моделью, и позволяет предсказывать 2-3 токена вперед с высокой долей принятия токена. Для MTP и EAGLE3 (альтернатива от nvidia) обычно используется точная верификация, поэтому результат идентичен (в отличии от варианта через draft-модели).

Слои MTP и у Gemma4 и Qwen3.6 встроены в модель, но в стандартных gguf они вырезались, так как не было поддержки. Их можно было использовать в vLLM, что ускоряло в 2-3 раза. Для Gemma4 их дополнительно выложили отдельно.

https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

И вышли новые Dense модели:

Mistral-Medium-3.5-128B
granite-4.1 (3B, 8B, 30B, vision-4b)

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Shannon 25 апр в 17:42

Тут как-то до сих пор нет консенсуса. Если это Dense - то однозначно работает, если MoE за счет дополнительных GPU целиком влезает, то работает, но ncmoe компенсирует разницу.

А вот если MoE не влезает целиком, то добавление второй GPU пока не ясно - дает эффект или нет. Зависит от разных факторов. В моем случае результат усредняется. И нужно учитывать, что 2 GPU это не VRAM1 + VRAM2, общий расход памяти на контекст будет выше, чем на одной карте.

В последнее время не было больших Dense, поэтому старая Llama-3.3-70B-Instruct-UD-Q3_K_XL 34.9 Гб, просто из расчёта чтобы влезло на 2 GPU:

5090 -ngl 81: 10 t/s
4060 -ngl 32: 2.4 t/s
5090 + 4060 auto: 17 t/s
5090 + 4060 -ts 5,1: 23 t/s

Qwen3.5-122B-A10B-UD-Q4_K_XL 74 Гб:

5090: 23 t/s
4060: 12 t/s
5090 + 4060: 18 t/s

Qwen3.5-122B-A10B-UD-IQ2_XXS 35 Гб:

5090: 67 t/s
4060: 19 t/s
5090 + 4060 auto: 64 t/s.
5090 + 4060 -ts 5,1: 79 t/s

Везде 4k контекст и Win10. У меня 4060 подключена через pcie x1, через nvtop можно посмотреть интенсивность обмена, она довольно низкая для MoE:

Для Dense еще менее интенсивна:

Вообще, ширина канала нужна для Tensor Parallelism, который дает ~2х ускорение на двух GPU, где происходит интенсивный обмен тензорами. В llama.cpp используется Pipeline Parallelism - сначала работает первая GPU, потом вторая GPU, между ними обмен только конечных слоев, которые на конкретной GPU, что не особо интенсивно, но и ускорение только за счет дополнительной быстрой памяти, а не одновременной работы двух GPU.

Хорошая поддержка TP в vllm и sglang. В ik_llama есть режим -sm graph, который делает почти тоже что TP. В llama.cpp есть -sm tensor, но он работает пока не очень, хуже чем sm graph.

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Shannon 25 апр в 15:11

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Пробуем использовать бесплатные ИИ для написания кода

Shannon 17 апр в 14:55

Кстати, кто-нибудь пользовался deepseek coder? Какие впечатления?

Сильно устарел. Сейчас для кода нужна поддержка агентного режима и вызова инструментов - то есть нужно что-то, что выходило в последние пол года, или даже пару месяцев.

2 недели назад вышла Gemma4, в размере 31B годная, в размере 26B-A4B слабая, но знает много анекдотов. Но модель 31B что это Dense модель, то есть должна целиком влезать в VRAM для нормальной скорости, в то время как MoE модель можно распределить между VRAM и RAM в cmoe режиме (не обычная выгрузка слоев ngl, cmoe работает по другому) и получить хорошую скоростью, этот режим по умолчанию включен в llama.cpp, но его нет в ollama.

Вчера вышла Qwen3.6-35B-A3B, и это хороший уровень для такого размера. Даже квантованная Qwen3.6-35B-A3B-UD-Q2_K_XL работая с opencode или qwen code не теряет контекст на 128к, но лучше, конечно, UD-Q4_K_XL.

Для пример попросил UD-Q2_K_XL сделать реплику Win11, 1 запрос, результат 40к токенов. На 4060 16гб скорость 60 t/s. Всё двигается, шевелится, плавное, анимированное:

Как отключить reasoning у локального DeepSeek-R1 и не сойти...

Shannon 17 апр в 13:38

DeepSeek-R1-Distill-Qwen-32B - это был экспериментальный файнтюн Qwen2.5-32B, с плохим качеством. Если нужно отключить мышление, то проще взять именно Qwen2.5-32B, где и качество выше и размышление нормально отключается. Но вообще, с тех пор уже вышло 4 поколения новых Qwen моделей, которые и лучше и легче. И удобнее перейти на gguf, там есть и квантование, и размышление отключается 1 строчкой --reasoning off (и ещё несколькими способами).

Если сравнивать именно с Distill-Qwen-32B, то можно посмотреть даже на мелкие Gemma4 E4B или Qwen3.5 4B, которые очень хороши для своего размера.

Вчера вышла качественная Qwen3.6-35B-A3B сделанная на MoE архитектуре, активных параметров всего 3B, модель очень быстрая, а для запуска хватит 4Гб VRAM. Или свежие MoE Gemma4-26B-A4B и Dense Gemma4 31B, которые вышли 2 недели назад.

Подробнее: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Alibaba перевела Qwen Code на платную модель с 15 апреля

Shannon 17 апр в 11:43

Не очень понятно как у вас модель весом 91,5Гб (unsloth/Qwen3.5-122B-A10B-GGUF) крутится на карте 24Гб

Нужен режим работы cmoe (не просто выгрузка слоев ngl). Вот тут подробнее: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

В актуальных версиях llama.cpp, по умолчанию включен режим fit, чего нет в ollama и lm studio, fit сам определяет оптимальные параметры загрузки модели, и для MoE он включает режим ncmoe, чтобы максимально использовать GPU для ускорения, остальное крутится в RAM. В статье про это тоже есть.

2 3 ...

41 42