Давай немного потроттлим / Хабр

В 2026 году ваш ноут — не просто гаджет, а рискованная инвестиция, которая может буквально расплавиться из-за одной нейросети. Пока вы апскейлите видео, ваше железо пашет на износ. А заводские системы охлаждения часто «слепнут»: они просто не видят, как видеопамять (VRAM) раскаляется до критических 105°C, пока графическое ядро, вроде как, холодное. И всё это на фоне того, что TSMC опять задрала цены, а чипы памяти взлетели из-за AI-бума. Любая ошибка — финансовая катастрофа. Дефицит запчастей превращает ремонт в квест, а замена впаянного GPU сегодня стоит как крыло самолёта.

Скажу сразу. Эта статья не для игроков. Она для тех, кто гоняет на лэптопе локальные LLM, Stable Diffusion или тяжелые пакеты Topaz, как я. Эти задачи нагружают видеопамять специфически: интенсивно, непрерывно, часами. Ноутбук превращается в бесшумную, но весьма горячую печь. Вы привыкли доверять автоматике? Я вас «обрадую»: в мире нейросетей тишина вентиляторов — плохой знак. Это значит, что контроллер смотрит на холодное ядро, пока память за соседней теплотрубкой медленно деградирует, «высушивая» термопрокладки.

Перепаять радиатор в закрытом корпусе мы, увы, не можем. А вот изменить логику его работы — можем. Здесь я поделюсь опытом создания утилиты VRAM Guard на Python, которая работает по методу «импульсного троттлинга». Разберемся, почему классический мониторинг бессилен перед нейросетями и как короткие принудительные паузы в работе GPU могут подарить вашему «золотому» железу несколько лишних лет жизни.

«В чём твоя проблема?»

Нейросети нагружают видеокарту не так, как игры. AI-апскейлеры «долбят» видеопамять (VRAM) на 100%, а само ядро (GPU Core) может быть загружено лишь наполовину.

*Скриншот 1: Типичная картина при апскейле: ядру «прохладно», память в огне.*

В большинстве ноутбуков (привет, MSI) система охлаждения общая. И тут возникает ловушка:

Ядро GPU относительно холодное (60–70°C).
Вентиляторы смотрят на него и лениво крутятся на 30–40%.
Видеопамять в это время жарится при 100–105°C**. Для GDDR6 предел троттлинга обычно как раз 105-110°C, поэтому 100°C — это уже «красная зона», хоть карта еще и не выключается.

Я называю это «тихий перегрев». Турбины не воют, корпус не обжигает руки, но чипы памяти медленно, но верно деградируют. А термопрокладки начинают «течь», превращаясь в бесполезную кашу.

Кстати, а какие есть решения на рынке?

Сначала я честно пытался обойтись готовым софтом:

*Скриншот 2: Работает, но громче, чем мой робот-пылесос.*

MSI Center / Dragon Center: красивый интерфейс, даже получил какую-то медаль. Позволяет выкрутить вентиляторы на максимум. Помогает, но слушать этот вой 24/7, пока обрабатывается пачка фото, — то ещё удовольствие. И автоматика всё равно следит только за ядром. В топку, короче.
MSI Afterburner: отлично показывает температуру, но не умеет троттлить по датчику памяти. Вывод: мимо.
ThrottleStop: Бог для процессора, но для видеопамяти бесполезен. Вердикт: не наш случай.
Заводской троттлинг NVIDIA: срабатывает, когда уже поздно, и так резко режет частоты, что софт порой просто падает с ошибкой. Итог: спасибо, не надо.

Хочешь сделать..., сделай сам

Мне нужно было решение, которое бьет в три цели:

Видит температуру именно памяти. Штатная утилита nvidia-smi на большинстве ноутбуков этот датчик просто игнорит. Мне же нужно было достучаться до реальных показателей GDDR6/X, где и прячутся те самые 100+ градусов.
Работает в фоне, без ручного вмешательства. Я не хотел каждый раз врубать «режим пылесоса» через Fn+Up (люблю засидеться допоздна, да) или переключать профили. Решение должно было работать по принципу «настроил и забыл»: тихо сидеть в трее и само реагировать на перегрев.
Охлаждает эффективно, не убивая процесс. Классический троттлинг слишком груб — он рубит частоты, что может обрушить CUDA-инстансы. Мне нужен был метод, который дает радиатору «продышаться», но сохраняет общую задачу живой.

Итак, погнали.

Это так не работает!

Идея №1: Придушить процесс по CPU.

Первая мысль была простой: ограничить апскейлеру доступ к процессору через nice и cpu_affinity. Логика такая: если программа медленнее «кормит» видеокарту данными, та будет остывать.

Результат: полный провал. AI-фреймворки используют CPU как диспетчера: он готовит пачку данных и отправляет её в GPU одной тяжелой задачей. Как только команда ушла, видеокарта молотит на полную, ей плевать, насколько «задушен» процессор. Я оставил программе одно ядро на минимальном приоритете — VRAM всё равно жарилась на 98°C. Стало ясно: влиять нужно не на поставщика задач, а на исполнителя.

Идея №2: Мониторить через nvidia-smi.

Следующий шаг — «швейцарский нож» от NVIDIA. Я думал, что простого запроса хватит, чтобы получить все метрики.

Результат: опять мимо. Оказалось, в мобильных драйверах NVIDIA намеренно режет вывод. На десктопах nvidia-smi показывает всё, а на ноутах — только температуру ядра, игнорируя VRAM. Датчик есть, GPU-Z его видит, но из скрипта до него не дотянуться. Автоматизация без данных — гадание на кофейной гуще, не так ли?

Ура, получилось: метод «импульсного троттлинга» (Pulse Throttling)

Когда мягкие методы провалились, я решил играть жёстко. Тактика Stop-and-Go. Если мы не можем заставить видеокарту работать вполсилы, мы заставим её работать на полную, но с передышками. Как в интервальном беге: короткий спринт, потом отдых.

Как работает VRAM Guard:

Скрипт подключается к веб-серверу LibreHardwareMonitor (он умеет читать самые глубокие датчики). Важно: в LHM должен быть включен Remote Web Server на порту 8085, впрочем, это есть в Readme.
Как только VRAM достигает порога (например, 92°C), скрипт находит все процессы, которые грузят GPU.

def control_apps(action):
    # Получаем список всех PID, использующих GPU в данный момент через nvidia-smi
    pids = get_gpu_pids()
    
    for pid in pids:
        try:
            proc = psutil.Process(pid)
            if proc.name().lower() in PROCESS_EXCLUSIONS: continue
            
            if action == 'suspend':
                proc.suspend()  # Полная остановка процесса
            else:
                proc.resume()   # Возобновление работы
        except: continue

Применяется команда suspend (заморозка процесса). В этот момент GPU перестает получать задачи, его потребление падает с 80 Вт до 10–15 Вт. Это дает системе охлаждения драгоценные секунды, чтобы выдуть жар.
Затем — команда resume. Программа продолжает работу.
Цикл повторяется, пока температура не стабилизируется.

if self.current_temp > self.T1:
    self.throttling = True
    # Цикл пульсации: остываем 3 секунды, работаем 2 секунды
    self.control_apps('suspend')
    time.sleep(3.0) 
    
    self.control_apps('resume')
    time.sleep(2.0)

Это создает «пилообразный» график нагрузки. Средняя температура падает на 10–15 градусов, при этом программа (yesss!) не вылетает.

*Скриншот 3: «Пила» в действии: те самые моменты, когда память успевает сбросить жар.*

В финальном алгоритме я настроил циклы так: при 92°C скрипт морозит процесс на 3 секунды и дает поработать 2 секунды. Из-за тепловой инерции радиатора VRAM не успевает мгновенно взлететь обратно. Средняя температура стабилизируется в районе безопасных 89°C.

Да, общее время обработки растет. И знаете что? Оно того стоит. Лично я согласен 5 минут подождать. Но зато мы получаем полный контроль над температурой и не даем железу работать на износ. Как тебе такое, мистер Хуанг?

Подводные кремниевые камни

Куда же без них.

Эффект «Программа не отвечает»: Жесткая заморозка процесса (suspend) вешает его основной поток. Для Винды это выглядит как фатальное зависание: окно белеет, в заголовке — «Не отвечает». Это чисто визуальный эффект, он пропадает после resume, но поначалу немного пугает. (Повторюсь: программа не виснет!)
Битва за датчики при старте: Самый сложный баг. Если запускать мониторинг вместе с Windows, возникает «гонка». Фирменный софт (MSI Center) и мой скрипт одновременно лезут к контроллеру. В итоге мой монитор вылетает с ошибкой .NET, оставляя в трее табун мертвых иконок. Решилось 30-секундной задержкой на «прогрев» и отдельным потоком-сторожем (Watchdog), который перезапускает монитор, если тот упал ~~в обморок~~.
Права доступа: Работа с железом и чужими процессами требует прав администратора. Обычный ярлык в автозагрузке не сработает, сразу говорю. Пришлось настраивать запуск через Планировщик заданий с флагом «Выполнить с наивысшими правами».
Зомби-иконки в трее: После каждого падения монитора в трее оставался значок-призрак. Чтобы не захламлять его, я добавил в батник-загрузчик агрессивную очистку: перед каждым стартом скрипт убивает все старые инстансы себя и монитора.

Это хорошо, и вот почему

В итоге мы выбираем не «меньшее из зол», а просто другой режим работы.

С одной стороны — стабильные 100°C. Это режим «теплового пропитывания», когда греется не только чип, но и вся плата вокруг. Гарантированная деградация термопрокладок и медленная смерть кристаллов памяти. Для рабочей станции это путь к «отвалу» через год-полтора.

С другой — наша «пила» (82°C – 94°C). Да, температура колеблется, но в узком рабочем диапазоне. Для электроники это штатная ситуация, примерно как в играх. Зато средняя температура падает на 10–12 градусов, а пики больше не заходят в «красную зону». Мы просто перехватываем управление там, где заводская автоматика бессильна.

Что-то вроде заключения

В результате получилась утилита VRAM Guard — маленькая, но эффективная «педаль тормоза» для ноутбука, который решил стать доменной печью. Настройте порог один раз — и можно спокойно оставлять тяжелые задачи на ночь, не боясь утром найти «кирпич» вместо компьютера.

Если вы тоже гоняете на лэптопе нейросети, апскейл или тяжелый рендер — загляните в датчики памяти. Возможно, ваше железо уже давно молит о пощаде.

Проект открыт, исходники и инструкция на GitHub. Буду рад вашим звездам, пул-реквестам и историям, сколько градусов удалось «срезать» вам.

Скачать можно здесь: GitHub: Yp-pro/VRAM-Guard

Оставайтесь холодными в самых горячих задачах!