Комментарии / Профиль WinPooh32 / Хабр

Пользователь

Claude Code и Великая паника производительности 2026 года

Теперь, по словам Уирика, компания отслеживает «количество взаимодействий» инженеров с агентами по написанию кода в день.
Предполагается, что чем выше этот показатель, тем продуктивнее работает команда. Кроме того, компания отслеживает эффективность этих взаимодействий.

Звучит аналогично утверждению как "давайте считать сколько строк разработчик пишет в день" :)

У меня лично вообще обратное предположение, что чем меньше с агентами взаимодействуешь, и при этом выше общее качество, то вот это есть признак эффективности, а не то, сколько раз пришлось его уговаривать сделать что-то адекватное.

AMD hipThreads: теперь C++-потоки можно запускать прямо на видеокарте, ускоряя код до 6×

WinPooh32 22 фев в 09:57

Для обоих вариантов флаги --ctx-size 32000 --fit-ctx 32000, только вот в случае с rocm вполне успешно 200к контекст грузит, ~~а на вулкане при загрузке модели падает из-за нехватки памяти.~~

upd: перепроверил еще раз: для vk не было включено квантование кеша и модель все-таки смогла загрузиться, в остальном все осталось так же.

AMD hipThreads: теперь C++-потоки можно запускать прямо на видеокарте, ускоряя код до 6×

WinPooh32 22 фев в 03:55

Провел сравнение вулкана и rocm на своей 7900xtx. Запускал модель Qwen3-Coder-30B-A3B-Instruct-Q4_K_M, получилось на вулкане 200 t/s, а на rocm 100 t/s. Но есть жирное НО: на вулкане контекст пришлось со 100к до 32к урезать чтобы влезло в память, настройки были абсолютно те же: квантование кеша до 8 бит, flash attention. Скорее всего что-то для вулкана не работает, но в логах не увидел предупреждений. Запускал через llama.cpp (b8123)

У Qwen3-Coder-Next-UD-Q6_K_XL вулкан выдал 21 t/s, на rocm 18 t/s, но пришлось сжать контекст с 200к до 32к чтобы на вулкане запустилось.

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

WinPooh32 21 фев в 03:58

Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.

Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

WinPooh32 21 фев в 03:24

Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.

upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:

Ответ:
Пиццу ест плотник.
Крокодила держит программист.

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

WinPooh32 20 фев в 04:45

А вот ответ от обычной (не кодерской) версии модели:

✅ Ответ:
Пиццу ест плотник. Крокодила держит программист.
Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s

Конфиг:

  "qwen3-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 100000 --fit-ctx 100000
      --fit-target 1536
      -ctk q8_0 -ctv q8_0
      -ub 4096 -b 4096
      -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

WinPooh32 20 фев в 04:34

Ответ, конечно, неправильный, но для статистики выложу:
Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:

Я думаю, правильный ответ:
✅ Плотник ест пиццу.
✅ Плотник держит крокодила.
Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.
Ответ: плотник ест пиццу и держит крокодила.
Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s

По софту: llama-swap + llama.cpp (версия b8100).
Просто на CPU выдавливает 5 t/s.

Мой конфиг для llama-swap:

healthCheckTimeout: 300
logRequests: true
metricsMaxInMemory: 1000

macros:
  llama-server: >
      "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server"
      --parallel 1
      --port ${PORT}
      --offline
      --flash-attn on
      --jinja
      --timeout 1200
      --ctx-checkpoints 8
      --cache-ram 4096
      --kv-unified
  models: "/run/host/run/media/system/Data/aivibe/models"

models:
  "qwen3-coder-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 200000 --fit-ctx 200000
      --fit-target 2048
      -ub 4096 -b 4096
      --temp 0.55
      --top-p 0.95
      --top-k 40
      --min-p 0.01
      --repeat-penalty 1.0
      -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"

Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)

Массивы и слайсы в Golang

WinPooh32 29 янв в 14:51

По-моему база всегда раскрывалась в Go Tour и тему со слайсами там как раз в сендвич-меню можно найти.

Claude Code получил нативную поддержку LSP

WinPooh32 23 дек 2025 в 03:30

Как раз смысл LSP интерфейса в том, чтобы сервер был реализован третьей стороной (довольно часто разработчиками языка), а не разработчиком IDE.

Костыли вида ls+grep работают еще и из-за того, что модели сами стремятся их использовать, даже если рядом есть более релевантные инструменты...

Rust, mmap и 10 миллионов пикселей: делаем производительный Log Viewer для VS Code

WinPooh32 15 дек 2025 в 10:16

Использую klogg - десятки гб на стром ноуте в легкую переваривает, включая поиск.

Как я установил Ollama на Ubuntu 24.04 и начал обучать локальную LLM под свои задачи

WinPooh32 24 ноя 2025 в 10:21

Если вообще никакого опыта нет, то можно посмотреть на lmstudio.
А для более продвинутых можно уже и на llama.cpp, llama-swap, Ollama.

Устанавливается все просто по доке, если железо поддерживается. В случае rdna2 амд карт для запуска на ROCm может потребоваться компиляция с определенными параметрами, на vulkan без бубна даже на древних картах а-ля amd rx 550 запускается (лично проверял).

Но это все только для инференса, с обучением там все гораздо сложнее. Есть вариант файнтюна для бедных - LoRa, а для еще более бедных QLoRa.

Как я установил Ollama на Ubuntu 24.04 и начал обучать локальную LLM под свои задачи

WinPooh32 24 ноя 2025 в 03:03

Статья - нейросетевой булшит. С помощью Ollama нельзя файнтюнить модели, она только для инференса. Нет там такого флага: --train.

+37

Ollama предоставила бесплатный API для веб-поиска

WinPooh32 27 сен 2025 в 05:02

Есть неплохая локальная альтернатива - searxng (API)

Пользуемся Docker, не выходя из Go

WinPooh32 25 сен 2024 в 04:42

Еще есть https://github.com/ory/dockertest для тех же целей.

Классы в Golang. Еще один способ реализовать интерфейс

WinPooh32 4 апр 2023 в 07:07

type Duck interface {
  Fly() error
  Swim() error
  Quack(string) error
}

Не самый лучший пример использования интерфейсов в Go. Делайте интерфейсы максимально узкими по назначению.

Как можно переделать интерфейс из статьи

type Flyer interface {
	Fly() error
}

type Swimmer interface {
	Swim() error
}

type Quacker interface {
	Quack(string) error
}

type Duck interface {
	Flyer
	Swimmer
	Quacker
}

type Pinguin interface {
	Swimmer
	Quacker
}

Как это используется в реальной жизни

Сравнительный анализ эффективности работы Cython и Python

WinPooh32 13 июл 2022 в 07:58

В качестве альтернативы можно посмотреть на транслятор обычного Питона (а не новый язык как в случае Cython) в Си: github.com/Nuitka/Nuitka
Без каких-то особых проблем на нем даже смог скомпилировать такой крупный проект как youtube-dl !

Российские аналоги зарубежных сервисов — выпускники акселератора Спринт

WinPooh32 17 мар 2022 в 05:39

Если как self-hosted сервис, то есть Gitea. К сожалению, там нет встроенных CI/CD фич, но можно использовать для этого внешние совместимые сервисы.
Для CI из этого списка мне приглянулся Woodpecker.

Интерфейсы в Go — как красиво выстрелить себе в ногу

WinPooh32 24 дек 2021 в 13:53

Го типизированный язык, данными структур и других атомарных типов компилятор может дирижировать как ему угодно, что позволяет не хранить в рантайме для них информацию о типе. Эта информация вкладывается в контейнер интерфейса при присваивании значения только во время компиляции.

Для слайсов, мап, каналов, интерфейсов оператор '==' работает над контейнером, а не над данными внутри.
Нетипизированный nil присваивается в контейнер, а типизированный в данные контейнера.
Чтобы узнать что в данных значение nil нужно преобразовать интерфейс сначала в этот тип, затем проверить на nil, либо через рефлексию получить сырой указатель и уже работать с ним.
Пример: https://go.dev/play/p/LHO6WsI9hY_R

Job — шаблон проектирования для новичков и опытных Go программистов

WinPooh32 16 янв 2021 в 09:40

Выполнение задач зависит друг от друга, если одна задача прерывает свое выполнение из-за ошибки — все остальные задачи останавливаются тоже…

Для этого уже есть errgroup. Решает те же задачи, но в более идиоматичном для Go виде.

Информация

Специализация