Комментарии / Профиль SlavikF / Хабр

Славик Фурсов@SlavikF

Developer

0,2

Рейтинг

Подписчики

ПрофильСтатьи10ПостыНовостиКомментарии619

Доступ к DeepSeek и GLM могут ограничить: по слухам, Пекин обсуждает экспортные ограничения на ИИ

SlavikF 8 часов назад

Сомнительно как-то. Кто мне тут в Канаде может запретить DeepSeek?

Придут ко мне сканировать мои диски: А если найду?

Как оптимизировать LLM-инференс в 2026 году

SlavikF 23 июн в 03:08

Поэтому я уже не гонюсь за последними фишками, а только успеваю следить: а что там добавили сейчас в llama.cpp?

Если кто-то где-то начал рассказывать новую модель, новую технологию, ... то скорее всего нет необходимости разбираться с новыми незнакомыми проектами, а можно подождать пару недель - и это появится в llama.cpp.

Да, каких-то фишек в llama.cpp нет долгое время (например i-quants), но это не так уж и критично.

Открытая GLM-5.2 обошла Fable 5 в дизайне — в Design Arena раскрыли секрет успеха

SlavikF 20 июн в 22:04

"двухпроцессорная система" плохо работает для инференца. Однопроцессорная система для инференца работает в разы быстрее двухпроцессорной.

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

SlavikF 16 июн в 23:53

Можно и дешевле.

У меня есть 72GB VRAM и я запускал Qwen 3.5-397B, с квантизацией UD-IQ4_NL.

Большая часть модели работала из RAM, скорость получалась 14 t / s. Для кодинга - может и медленно, а для чата - нормально.

И всё это удовольствие мне стоили менее $10k

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

SlavikF 16 июн в 21:26

Я попробовал через OpenRouter API.

Пол личным ощущениям, сейчас лучшая открытая модель для кодинга - это Kimi 2.7 (1 триллион параметров, 32 миллиарда активных).

GLM 5.2 (753 миллиарда параметров, 40 миллиардов активных) - тоже неплохо, но Kimi показалось умней. А ещё Kimi может принимать изображения, а GLM 5.2 - только текст, но держит контекст на миллион токенов.

Kimi 2.7 вроде бы можно запустить локально на компьютере с 512GB и вроде народ пишет что вполне можно пользоваться:

https://huggingface.co/unsloth/Kimi-K2.7-Code-GGUF

Я ещё не видел квантов для GLM-5.2. Думаю, что тоже будет возможно.

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

SlavikF 16 июн в 21:20

Открытость модели означает, что никакой важный шишка не сможет сказать "Стоп, никому больше не использовать эту модель!"

Как я стал Scala-разработчиком в Иннополисе

SlavikF 11 июн в 15:17

Работаю в большой корпорации, есть проекты на Scala и Java.

Создалось впечатление, что в последние пару лет интерес к Scala снижается, для новых проектов Scala уже не выбирают...

Как я установил в свой игровой ПК серверный GPU за £200

SlavikF 5 июн в 21:39

Про DGX Spark, народ пишет что для Qwen 3.6 27B Dense, с квантизацией FP8

скорость генерации токенов - 8 t/s

MTP помогает разогнаться до 15 t/s

Слабенько как-то.

https://forums.developer.nvidia.com/t/whats-the-best-speed-we-can-get-with-qwen-3-6-27b-without-quantizing/367561

Я у себя на RTX 4090 получаю 48 t/s (это с MTP):

https://huggingface.co/Qwen/Qwen3.6-27B-FP8/discussions/11

И карточки тоже можно запускать параллельно.

Как я установил в свой игровой ПК серверный GPU за £200

SlavikF 5 июн в 21:30

Скорость памяти (bandwidth) у всех карточек в моём сообщении выше: от 900 до 1700 GB/s

DGX Spark: 273 GB/s - как-то не очень. По скорости генерации токенов получается в 3 раза медленнее V100. Хотя за счёт MTP может и не всё так плохо.

Как я установил в свой игровой ПК серверный GPU за £200

SlavikF 5 июн в 19:25

Тут один чел поддерживает форк vLLM специально для V100:

https://github.com/1CatAI/1Cat-vLLM

Понятно, что это не pytorch, но для определённых проектов эти карты - очень хорошее решение.

Я вот так смотрел на это дело: сколько $ стоит один GB VRAM?

96GB / RTX 6000 PRO - $111 / GB
32GB / RTX 5090 - $116 / GB
48GB / RTX 4090 - $81 / GB
24GB / RTX 3090 - $42 / GB
32GB / V100 - $18 / GB

Понятно, что память на всех этих устройствах разная по скорости. И производительность вычислений отличается очень сильно. Но для кэйсов, где упирается в размер памяти (а это в основном инференц) - V100 очень хороший вариант.

По моим исследованиям:

скорость генерации токенов на V100 приблизительно такая же как и на RTX 4090. Хотя тут есть ньюанс в котором надо разобраться - это с FlashAttention.
скорость обработка промпта (prompt processing) - на V100 в 3 раза медленнее чем на RTX 4090.

+10

Как я установил в свой игровой ПК серверный GPU за £200

SlavikF 5 июн в 15:29

V100 - старая карта (2018), но скорость памяти - весьма достойная: 900 ГБ/с.

Я заказал на Alibaba две карточки, каждая с 32 ГБ, каждая по $550.

Nemotron 3 Ultra стала самой мощной открытой моделью из США

SlavikF 2 июн в 15:31

У модели Neumotron 30 есть одна крутая особенность - она из коробки поддерживает контекст на миллион токенов. Другие открытые модели могут поддерживать миллион, но там надо прикручивать YARN...

Я это использую для работы с большими логами.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

SlavikF 23 мая в 14:20

compose:

services:
  llama-router:
    image: ghcr.io/ggml-org/llama.cpp:server-cuda12-b9294
    container_name: router
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: [gpu]
    ports:
      - "8080:8080"
    volumes:
      - /home/slavik/.cache/huggingface/hub:/root/.cache/huggingface/hub:ro
      - ./models.ini:/app/models.ini:ro
    entrypoint: ["./llama-server"]
    command: >
      --models-max 1
      --models-preset ./models.ini
      --host 0.0.0.0  --port 8080

models.ini:

version = 1

[unsloth/gemma-4-31B-it-GGUF:Q6_K_XL]
; https://huggingface.co/unsloth/gemma-4-31B-it-GGUF
; 27 GB
top-p=0.95
top-k=64
temp=1
ctx-size=196608
fit-target=2048

[ai-sage/GigaChat3.1-10B-A1.8B-GGUF:Q6_K]
; 8 GB
ctx-size=262144

[unsloth/Nemotron-3-Nano-30B-A3B-GGUF:Q4_K_XL]
; du 22GB
ctx-size=1048576
temp=1.0
top-p=1.0

[unsloth/Qwen3.6-27B-MTP-GGUF:Q6_K_XL]
; du 26 GB
; VRAM: 46.8 GB
; 60 t/s
ctx-size=262144
temp=0.6
top-p=0.95
top-k=20
min-p=0.00
alias=local-vl-qwen27B
spec-type=draft-mtp

Это конфиг для моей карточки с 48GB VRAM.

В любой момент времени висит только одна запущенная модель.

Через WebUI можно переключаться между моделями, и при выборе новой - сначала автоматически выгружается предыдущая.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

SlavikF 23 мая в 14:11

Ну, модель должна уметь пользоваться тулзами.

А насчёт огромного опыта: это на самом деле общеизвестный факт, что любые модели сами по себе плохо справляются с математическими вычислениями. Нужны tools.

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

SlavikF 22 мая в 20:26

Или делаем тоже самое, но позволяем модели вызывать tools:

Это OpenWebUI.

Модель: Qwen3.6-27B

Квант: Q6

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

SlavikF 22 мая в 20:01

параметр "--models-max 1", и ничего в памяти не висит, - только одна модель, которая используется в данный момент времени.

Как вытащить ИТ из кризиса перегрузки, если найм запрещён

SlavikF 22 мая в 18:20

На западе у стартапов популярен девиз Fail Fast:

https://en.wikipedia.org/wiki/Fail_fast_(business)

И в общем-то он логичен для бизнеса: когда работаем над какой-то задачей, а она "не идёт" (fails) - то не надо долго мучиться (тратить время, инвестиции), а надо побыстрее (fast) решить, что мы занимается не тем, и переключиться на что-то продуктивное.

По отношению к работникам принцип обычно: выжимаем всё что можно. А работники обычно и не против выкладываться.

А нужно не париться, и для себя, как для работника взять такой же принцип: fail fast. Менеджер нагрузил на вас 20 задач и все срочные? Не нужно выпрыгивать из штанов, а нужно завалить половину и нужно чтобы менеджер понял это побыстрей. От этого всем только лучше: работник не пашет до изнеможения, менеджер может планировать эффективней.

Но обычно работает принцип: кто тянет - на того и грузят.

JumpCloud vs Okta: A Practical Guide to Choosing the Right IAM Platform

SlavikF 22 мая в 16:20