Дисклеймер: все события основаны на реальном кейсе борьбы за гарантийный ремонт топового железа в СЦ DNS. Диалоги воспроизведены по памяти, максимально близко к оригиналу, технический абсурд передан без приукрашиваний. Авторское настроение: «мне не смешно».
Отдельно хочу подчеркнуть: к сотрудникам магазина в ТЦ «Мир» (Проспект Октября, 4/1) у меня нет никаких претензий. Там все три заявления приняли спокойно, внимательно проверили формулировки, уточнили нюансы там, где действительно было что уточнить — в общем, отработали именно так, как должен работать нормальный приём документов. Вся эта история — исключительно к сервисному центру на Бакалинской и к конкретному мастеру, который эти два часа звонил, троттлил и сбрасывал трубку.
Представьте ситуацию: вы покупаете бескомпромиссную рабочую станцию. Вся система в сборе приобретается в DNS, там же заказывается сборка. Всё официально и находится на гарантии, кроме одной детали — процессора. Он шёл как OEM, и его годовая гарантия уже благополучно истекла, в то время как на остальные ключевые компоненты (включая дорогущую RTX 4090) гарантия продолжает действовать. Запомните этот факт — вокруг него СЦ построит свою главную защитную стратегию.
В один прекрасный день ваша ультимативная машина превращается в генератор бесконечных аппаратных ошибок шины данных, а мастера из сервисного центра выдвигают техническую гипотезу, достойную Шнобелевской премии по физике. Они заявляют, что пробой PCIe произошёл из‑за троттлинга процессора, который таким образом «убивает» видеокарту. Такое невозможно придумать самому без использования тяжёлых веществ (которые автор статьи категорически осуждает).
В этой статье разберём, почему «волосатый бублик» бессилен против стека ИИ, как контроллер памяти GPU тихо умирает под CUDA‑нагрузкой, и как разворачивался этот комедийный баттл с СЦ DNS.
Заказ-наряд


Рис 1. Заказ‑наряд DNS
Железо и эволюция задач: От Докера к Flux
Системный блок собирался силами специалистов самого магазина DNS из следующих комплектующих:
Материнская плата: MSI MAG Z690 TOMAHAWK WIFI
Процессор: Intel Core i9-12900K OEM (гарантия 1 год, которая уже кончилась)
Кулер для процессора: DEEPCOOL AK620 ZERO DARK [R‑AK620-BKNNMT‑G-1] чёрный
Видеокарта: GIGABYTE GeForce RTX 4090 GAMING OC [GV‑N4090GAMING OC-24GD]
Оперативная память: ADATA XPG Lancer [AX5U5600C3632G‑DCLABK] 64 ГБ
Накопитель: 2000 ГБ M.2 NVMe ADATA LEGEND 960 MAX [ALEG-960M-2TCS]
Блок питания: Thermaltake Toughpower GF3 1200W [PS‑TPD-1200FNFAGE-4] чёрный
Корпус: ARDOR GAMING Rare M1 чёрный
Для чего всё это покупалось? Изначально компьютер брался для игр и комфортной работы по принципу «открыл всё что нужно и никогда не закрываешь». Долгое время компьютер жил в щадящем для видеокарты режиме — в основном нагрузка шла на процессор: среды разработки (IDE), процессы компиляции, Docker и активная виртуализация.
Но примерно 2–3 месяца назад я плотно сел за локальные нейросети. Вот тут‑то и начался настоящий хардкор:
ComfyUI: генерации картинок и видео на тяжёлых весах — Flux1.Dev, Flux2.Dev / Flux2.Klein9B, Wan2.2, LTX (director) и Qwen2512/2511.
Ollama: ИИ‑инференс ассистентов прямо в VS Code через плагины KiloCode и OpenCode (модели Qwen3.6 4Q_K_M и Gemma4 4Q_K_M).
Тензорные ядра и видеопамять (VRAM) начали работать на полную мощность. И тут железо сказало: «Я устало».
Симптомы: «Толстеющая» нейросеть и каскадный сбой
Проблема подкралась незаметно. Система не зависала намертво — сама Windows продолжала дышать, мышка двигалась, браузер открывался. Зависали именно вычисления при генерациях. Запускаешь создание изображения или видео — и процесс уходит в вечное, намертво застывшее вычисление, которое можно было просто отменить кнопкой Cancel в интерфейсе.
Любой профильный специалист скажет, что это — классический маркер самого начала деградации GPU, его ранняя стадия. Ядра CUDA или Tensor спотыкаются о битый сектор памяти, теряют логику адресации и зацикливают исполнение скрипта.
Но дальше начались технические аномалии. При последовательных запусках одна и та же нейросетевая модель начинала занимать разное количество видеопамяти (VRAM) без каких‑либо изменений в параметрах генерации.
В первый запуск модель берёт 10 ГБ VRAM. На второй круг — уже 16 ГБ. На третий — 20 ГБ! Она буквально «кушает», пока я не вижу, и становится толще с каждой итерацией.
Это чистый признак каскадного сбоя банок VRAM и сбоя контроллера памяти внутри самого кристалла GPU, который нарушает деаллокацию (освобождение) памяти.
В системных журналах Windows в этот момент разворачивался сущий ад из логов WHEA‑Logger (критическая аппаратная ошибка шины данных), падений видеодрайвера nvlddmkm и системных ошибок шины PCIe видеокарты: «Uncorrectable Error: 1». В Диспетчере устройств встроенный корневой порт PCIe процессора (Intel PCIe Root Port, VEN_8086&DEV_464F) периодически терял инициализацию или сбоил по питанию.
Картина ясна: видеокарта под нагрузкой начинает слать по шине PCIe мусор, из‑за чего корневой порт процессора (DEV_464F) сходит с ума.
Что на самом деле означает пробой по PCIe от видеокарты
Разложим по фактам, а не по фантазиям сервисного центра. Ошибка WHEA Uncorrectable Error, зафиксированная со стороны видеокарты, — это не разовый глюк и не следствие перегрева процессора. Это сигнал о том, что через линии PCIe уже проходят паразитные токи — утечки на уровне самого кристалла GPU, которые бьют по соседним дорожкам шины и постепенно продавливают их электрическую прочность. Именно это, а не «троттлящий процессор из соседнего сокета», объясняет и плавающую нестабильность инициализации корневого порта PCIe.
Отдельно — история с VRAM, которая «толстеет» от запуска к запуску без единого изменения параметров. Это не мистика и не совпадение: это классический признак сбоя в контроллере деаллокации памяти самого GPU, когда чип перестаёт корректно освобождать банки VRAM после вычислений. Каждый следующий прогон нейросети наслаивается на «мусор», оставшийся от предыдущего — и карта либо занимает всё больше памяти, либо в какой‑то момент просто зависает намертво.
Вместе эти два симптома — не «случайное совпадение двух разных проблем», как удобно думать сервисному центру. Это одна и та же история: латентная деградация полупроводников уже идёт, и идёт она каскадно — сбой на уровне памяти тянет за собой электрическую нестабильность шины, а нестабильность шины ускоряет дальнейшую деградацию кристалла. Это ровно тот случай, когда объективно необходима отдельная углублённая проверка GPU специализированными средствами — а не десять минут в разобранном виде с FurMark, который такие процессы просто не видит в принципе.
Троттлинг процессора к этой картине не имеет никакого отношения — максимум, на что он способен, это уронить частоты и немного снизить производительность. Устроить пробой шины данных троттлинг не может физически, как бы ни хотелось в это верить мастеру сервисного центра.
Дисклеймер: автор — не сертифицированный инженер по полупроводникам, а IT‑специалист с техническим бэкграундом, разбирающий проблему по логам и открытой документации. Но даже дилетантский разбор оказывается точнее версии профессионального сервисного центра — и это уже само по себе диагноз.
Оборона по учебнику: Бумажная цитадель
Зная, как работают стандартные СЦ («включилось — значит работает»), я решил подготовить юридическую почву заранее. Вместе с официальным заявлением о неисправности я зарегистрировал ещё три бумаги с отметками и печатями магазина:
Заявление о предоставлении подменного фонда на время ремонта.
Заявление о моём праве присутствовать при диагностике устройства (согласно п. 5 ст. 18 ЗоЗПП РФ, с требованием уведомить меня за 2 рабочих дня до тестов).
Заявление о проведении контрольной открытой проверки работоспособности при выдаче товара.
Заявление о предоставлении подменного оборудования от 17.06.2026

Заявление о присутствии на диагностике от 17.06.2026

Заявление о проверке работоспособности от 17.06.2026

На накопителе SSD я умышленно оставил нетронутыми настроенные среды ComfyUI, Ollama и веса моделей. Мастерам оставалось просто нажать одну кнопку. Но у СЦ DNS был свой взгляд на законы физики.
Акт I: Алло, это стендап‑клуб?
Спустя две недели тишины раздаётся первый звонок — 11:04. Мастер сразу заходит с козырей, даже не дожидаясь вопросов.
Мастер: У вас процессор троттлил, грелся — и всё из‑за него. Из‑за этого и система ломается, и видеокарта не работает. И корпус у вас плохой, не даёт охлаждаться. Из‑за троттлинга процессора идёт пробой шины PCIe, он так убивает видеокарту!
Я: Стоп. В логах фиксируется совсем другая логика проблемы. Это деградация GPU с каскадным сбоем VRAM — одна и та же нейросеть при повторных запусках занимает разный объём памяти, хотя параметры не менялись. Такого в принципе быть не должно. И пробой идёт по PCIe со стороны видеокарты через материнскую плату в процессор, а не наоборот. При чём здесь троттлинг?
Мастер: …
Я: Я просил о присутствии при диагностике. Где уведомление за два рабочих дня?
Мастер: Я про ваше заявление о присутствии вообще не слышал…
Я: Хорошо. Я хочу присутствовать прямо сейчас.
Мастер: Сейчас не получится, мы вот как раз щас будем проверять =)
По его голосу стало ясно: человек был абсолютно не готов к тому, что клиент понимает, как устроено железо, и не собирается послушно кивать. Трубку он вешает первым.
Тестировали компьютер, как позже выяснится, на одной‑единственной псевдо‑общей программе — то есть по сути не тестировали ничего.
После этого звонка я пытаюсь перезвонить напрямую, но ответа нет, и я перезваниваю уже сам, напрямую в сервисный центр — там меня переключают на поддержку, и через поддержку я оставляю заявку на обратный звонок. По‑хорошему, мастер мог её и проигнорировать. Не проигнорировал. Но это было только начало.
Акт II: Квантовая лингвистика
12:51. Второй звонок. Мастер возвращается к своей технической линии, но заходит с другого фланга — теперь диагностику предлагается провести вообще без моего участия.
Мастер: Проверка будет после нашей диагностики, я вам перезвоню, и вы сможете приехать.
Я: Это не присутствие при диагностике — это присутствие при постдиагностике, когда мне уже показывают, что вы там посмотрели. Это не одно и то же.
Мастер: У вас троттлит процессор, и PCIe показывает ошибки из‑за этого, и ошибки во всех логах тоже из‑за него, особенно Windows, потому что Windows работает от процессоре! Процессор вообще всё вычисляет в системе — так что проблема в нем!
Я: Ступор на пару секунд и понимание, что не стоит разбирать всё, что он говорил Обработкой чего именно занимается процессор при использовании генеративных моделей?
Мастер: Всего, всё вычисляет процессор на компьютере. А что, по‑вашему, считает всё на компьютере?
Я: CPU и GPU — в зависимости от задачи.
Мастер: По‑вашему процессор не участвует? Вы ошибаетесь!
Я: Не надо трактовать мои слова как вздумается. Я сказал — всю информацию обрабатывают и CPU, и GPU. А в логах проблема по PCIe идёт от видеокарты.
Пауза. Мастер явно теряет опору под ногами.
Мастер: Так, сейчас посмотрим, потом перезвоним, и вы сможете приехать на диагностику.
Я: Это будет не присутствие на открытой диагностике, а присутствие на постдиагностике. Я не понимаю, почему вы не можете дать мне присутствовать при самой проверке.
Мастер: А что вы вообще от нас хотите?
Я: Нормальной проверки. Тест видеокарты на OCCT, отдельно тест тензорных ядер, и тест на LLM и генеративных моделях.
Мастер: Мы сами посмотрим и решим, какие тесты проводить. Перезвоню позже.
Я: Я всё ещё не понимаю, почему мне нельзя присутствовать на диагностике. Это постдиагностика, и я прошу это зафиксировать…
Гудки.
Дальше — тишина на 22 минуты. Где‑то там, судя по всему, мастер в буквальном смысле троттлил: то ли совещался с коллегами, то ли восстанавливал частоты после разговора.
Акт III: «Прервалось»
13:13. Третий звонок открывается универсальной отмазкой.
Мастер: Извините, прервалось.
Прервалось у него ровно на 22 минуты — рекордный аптайм для эникейщика, у которого «PCIe пробило от процессора».
Мастер: Проблем с видеокартой не обнаружили. Процессор троттлит, он и виноват. Можете приезжать, забирать — дефект не найден.
Я: Вы шутите? Там проблема по PCIe со стороны видеокарты.
Мастер: Мы этого не видим.
Разговор снова заходит на круг вокруг слова «постдиагностика», которое мастер, судя по реакции, слышит второй раз в жизни как что‑то принципиально новое — хотя это тот же самый вопрос, что и 22 минуты назад.
Мастер: Проявления проблемы не видим. Если хотите — приезжайте и покажите сами.
Я: Открытая диагностика — это не когда я показываю, что не так, а когда диагностику проводите вы, а я говорю, что использовать для теста.
Мастер: Ну приезжайте, показывайте. Только мы сейчас LLM качаем заново, это долго, можете в понедельник.
Тут наконец всплывает то, что упоминалось между делом ещё в начале разговора: с SSD пропали все модели, поэтому их «качают заново» — ведь их там просто нет.
Заодно уточняется адрес — и мастер называет его неверно: Бакалинская 29 вместо 27. Мимо дома, но не мимо кассы.
Я: Хорошо, я тогда выезжаю прямо сейчас.
Гудки. Третий слив за неполные два часа — и на этот раз ровно в тот момент, когда разговор перестал быть гипотетическим.
Тайминг звонков СЦ

На этом моменте стендап‑клуб закрылся. Три звонка, два сброса, 22 минуты тишины и один неверно названный адрес — занавес, актёры не выходят на поклон.
Дальше начинается не смешная часть. Скучная, бюрократическая, единственная, которая на самом деле работает.
Почему я не поехал бить кулаком по столу
Соблазн был, чего уж скрывать. Сесть на маршрутку, приехать в СЦ и лично высказать всё, что думаю о теории «троттлинг убивает PCIe» — вариант заманчивый, но абсолютно проигрышный.
Дело в том, что устная перепалка на месте — это ровно то, чего СЦ и добивается. Пока разговор идёт в переговорке без диктофона и без протокола, любые обещания мастера испаряются в момент, когда за мной закрывается дверь. «Приезжайте, покажем результаты» — это не процессуальное действие, это дружеская беседа, которая нигде не фиксируется и ни к чему не обязывает. А следом — тот самый пункт из их же плана: «сами и потестировали, сами и виноваты, если что отвалится».
Поэтому вместо эмоций я выбрал бюрократию — самое скучное, но и самое надёжное оружие против сервисного центра. Каждое требование — отдельным заявлением, с входящим номером, с печатью, под подпись сотрудника, принявшего документ. Каждый отказ — тоже фиксируется письменно, а не остаётся «ну он же по телефону сказал». Право присутствовать при диагностике, право на уведомление за два рабочих дня, право на контрольную проверку при выдаче — это не пожелания, а прямые нормы ЗоЗПП, и нарушение каждой из них должно быть на бумаге, а не в моей памяти о телефонном разговоре.
Троттлящий процессор в трубке — это им смешно. Комплект официальных заявлений с отметками о вручении — им уже не смешно, и именно поэтому работает.
Манипуляции СЦ DNS: Разбор полётов
Если разложить действия сервисного центра по полочкам, мы увидим стандартную схему закрытия неудобного и дорогого гарантийного случая. Расчёт идёт на то, что потребитель устанет, испугается заумных слов или просто послушно заберёт устройство с подписью «дефект не обнаружен».
Давайте зафиксируем их главные манипуляции:
Технический абсурд. Утверждение, что троттлинг процессора роняет PCIe‑шину и генерирует аппаратные ошибки WHEA Uncorrectable Error. Троттлинг — это штатная термозащита (процессор просто уныло сбрасывает частоты, чтобы не сгореть), а не поломка линий данных. Процессор в момент генерации ИИ‑картинок курит в сторонке, пока работают тензорные ядра 4090.
Саботаж улик. В процессе их «обслуживания» с накопителя SSD волшебным образом исчезли именно пользовательские данные: нейросетевые модели, папки ComfyUI и Ollama. То есть они умышленно или по глупости уничтожили готовый тестовый стенд, который я оставил им для воспроизведения проблемы.
Перекладывание обязанностей. Мне прямым текстом предложили приехать и самому проводить тесты на устройстве, которое сейчас находится под их юридической ответственностью. Отличный план: если в процессе теста карта окончательно сгорит, они скажут — «ну вы же сами тесты запускали, мы тут ни при чём».
Тактика измора. Три звонка за неполные два часа, два сброса трубки в момент, когда разговор доходит до конкретики, и 22 минуты тишины ровно между тем моментом, когда я попросил зафиксировать нарушение, и следующим звонком с готовым вердиктом «дефект не обнаружен». Расчёт простой: чем больше кругов на тему «постдиагностика — не диагностика», тем выше шанс, что клиент устанет и махнёт рукой. Не в этот раз — каждый сброс и каждая пауза лягут отдельным пунктом в заявление о нарушении сроков и порядка проведения проверки качества.
Что дальше?
Они провели диагностику втихую, без уведомления меня за 2 рабочих дня, нарушив официальное заявление с печатью. Они отказали в присутствии, стёрли данные и трижды прерывали звонок, дважды — в момент фиксации нарушений.
Дальше — новая пачка заявлений, составленная жёстким юридическим языком:
Требование провести повторную диагностику с симуляцией ИИ‑нагрузки через специализированные вычислительные бенчмарки (ONNX Runtime, Blender CUDA/OptiX или TensorRT), которые не требуют восстановления стёртого ими окружения.
Требование выдать развёрнутый письменный акт с указанием всех вольтажей, версий BIOS и результатов тестов каждого компонента в разобранном виде.
Требование дать письменное объяснение, на каком основании с SSD пропали тестовые файлы.
Борьба с DNS за мою систему переходит в официальную бумажную фазу — туда, где не помогает ни троттлинг, ни постдиагностика, ни сброшенная трубка. Заявления с входящими номерами не сбрасывают звонок и не «прерываются» на 22 минуты.
Как только появится продолжение — я его выпущу. Вне зависимости от того, каким оно окажется: весёлым, грустным, абсурдным или неожиданно адекватным. Если DNS решит удивить меня здравым смыслом — честно расскажу и об этом. Но пока ставки принимаются на троттлинг.
Я думал, такие абсурдные истории придумывают и такого не бывает… Как выяснилось, бывает, и зря я в это не верил. Но вне зависимости от того, верите вы, что так бывает, или не верите (как я до 03.07.2026) — никогда не позволяйте вешать себе лапшу на уши.
