Обновить
512K+

Серверное администрирование *

Установка, настройка, обслуживание

143,6
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

От кликов в личном кабинете до terraform apply: что меняется в работе с инфраструктурой

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.3K

Привет, Хабр! На связи Алексей Тюняев, директор по облачным продуктам Рег.облака.

Когда инфраструктура небольшая, личного кабинета обычно хватает: зашел, создал сервер, настроил — готово. Но как только серверов становится больше, появляются повторяющиеся операции, командная работа и необходимость воспроизводить окружения, ЛК начинает ограничивать. Именно здесь в игру входит Terraform. В этой статье разберу, что такое Terraform, как он работает и когда его действительно стоит использовать.

Читать далее

Новости

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

Поэтому всё чаще возникает идея: а что если запускать агентов на своём сервере — локально или на VPS?

Разберёмся, как это сделать, какое железо для этого нужно и почему такие сценарии могут быть выгодны не только пользователям, но и самим хостерам.

Читать далее

DGX Spark: мониторинг unified memory, когда NVML и dcgm‑exporter молчат

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9.4K

Свежепоставленный мониторинг на DGX Spark. Открываю NVIDIA‑дашборд в Grafana — половина memory‑панелей пустые, прямые линии по нулю. Сначала кажется, что что‑то не настроил. Через полчаса доходит: это не у меня сломалось, это NVML на GB10 так работает.

Это та область, где на GB10 половина стандартного observability‑стека просто не работает: NVML отдаёт [N/A] на memory.used и memory.total, dcgm‑exporter не ставится, nvtop в memory‑колонке показывает пустоту. В Grafana NVIDIA‑дашборды по умолчанию выглядят так, будто GPU вообще нет — и это не очевидно, потому что Grafana при отсутствии данных не кричит, а молча рисует ровную линию по нулю.

Статья — про то, как я это место обошёл и что в итоге увидел в Grafana. Трёхуровневая схема: textfile collector для базовых метрик, per‑container attribution через docker top + nvidia-smi, и CLI‑фоллбэк на /proc/meminfo, который оказался полезен не только на Spark, но и на других Linux‑системах с единой памятью (unified memory) — AMD Strix Halo и подобные.

Читать далее

Минпромторг исключил бренды компьютерной электроники из перечня параллельного импорта, разбираем аналоги и влияние

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели17K

В начале мая Минпромторг решил убрать из параллельного импорта целую "пачку" брендов компьютерной электроники: Intel, Samsung, Kingston, Acer, Asus, HP и другие знакомые названия. То есть всё то, из чего сегодня в реальности собираются домашние ПК, офисные машины, серверы, ноутбуки и часть корпоративной инфраструктуры. Формально это не полный запрет на ввоз, но для рынка разница значительная: отсутствие легальных массовых поставок, серый импорт и скачок стоимости.

Самое интересное началось дальше. Минпромторг заявил, что рынок не пострадает, потому что отечественные производители якобы поставляют аналоги в полном объёме. И вот на этом месте мне стало уже не просто интересно, а даже почувствовал запах. Потому что «аналог» - очень удобное слово, если не смотреть на производительность, цену, доступность, архитектуру, драйверы, объёмы производства и реальную применимость.

В этой статье я разбираю, что у нас действительно есть: Baikal, Эльбрус, российские SSD, память, ноутбуки, серверы, роутеры и легендарную «отечественную» GT 1030. Смотрю не по пресс-релизам, а по характеристикам, ценам и здравому смыслу. А чтобы совсем не утонуть в грусти, добавил мемы.

Читать далее

10 лучших инструментов для бэкапа VDS

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели14K

Разбор упавших файловых систем, потерянных баз данных и умирающих дисков съедает время, особенно когда всё это приходится восстанавливать консольными утилитами или самописными скриптами. Однако настройку бэкапов можно упростить с помощью утилит — под катом я собрал топ-10 опенсорс-инструментов и рассказал, на основе чего выбирать. 

Читать

kubectl describe pod: как читать вывод, в котором Kubernetes уже написал причину

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели9.9K

Статья о том, как читать kubectl describe pod не как длинный вывод, а как историю жизни Pod«а: кто его создал, куда его пытались поставить, скачался ли image, стартовали ли init containers, что случилось с probes, volumes, restarts и Events.»

Постарался сделать материал дружелюбным для джунов и мидлов, но без упрощения до «введите команду и посмотрите статус». Тут много реальной эксплуатации: Pending, CrashLoopBackOff, ImagePullBackOff, OOMKilled, FailedMount, CreateContainerConfigError, Evicted и любимое «Pod Running, но сервис не работает».

Если вам нужна не вся теория, а быстрая шпаргалка для инцидента — в конце статьи есть компактная схема: что смотреть в kubectl describe pod при Pending, CrashLoopBackOff, ImagePullBackOff, OOMKilled, FailedMount и других типовых состояниях. Можно сразу перейти к ней, сохранить и использовать как чек‑лист. А если хочется понять не только «куда смотреть», но и почему Kubernetes ведёт себя именно так — дальше разберём describe вместе по шагам.

Читать далее

Почему NVMe не всегда ускоряет сайт: смотрим на latency, p95/p99 и профиль нагрузки

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.2K

У дисковой подсистемы слишком хорошая репутация в тарифных таблицах и не самая однозначная в инженерных обсуждениях. В первом случае нам продают гигабайты в секунду, во втором часто говорят, что для веба диск почти не важен.

Я работаю контент-маркетологом в Scalehost и по работе регулярно разбираю темы, связанные с производительностью веб-проектов. Вопрос “нужен ли сайту NVMe или это просто маркетинговая галочка” возникает так часто, что мне захотелось собрать его в один технически внятный разбор.

Читать далее

Скованные одним цефом: как тестируем Ceph в MWS Cloud Platform

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.6K

Смело предположу, что каждый инженер, на регулярной основе работающий с SDS Сeph, не единожды находился в состоянии фрустрации от сложности и неоднозначности этой технологии. Я хотел бы попробовать помочь и поделиться своим опытом решения проблем с производительностью. В этой статье я кратко расскажу про некоторые инструментальные подходы к решению возникающих задач.

Всем привет! Меня зовут Александр Пивкин, я ведущий SRE‑инженер в MWS Cloud Platform. Сейчас Ceph — основная технология хранения данных в MWS Cloud Platform, и поэтому она должна работать хорошо. 

Сегодня сфокусируемся на инструментах диагностики и устранения проблем производительности в Ceph‑кластерах.

Читать далее

Аудит Zabbix: на что нужно обратить внимание

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.4K

Привет! Меня зовут Антон Касимов, я руководитель Gals Software, а еще сертифицированный тренер и эксперт по Zabbix. В общем, могу сказать, что знаю эту систему чуть больше уровня «видел пару раз интерфейс». Zabbix — одна из самых популярных в мире систем мониторинга. Наверное, не существует компаний с собственной инфраструктурой, у которых не было бы Zabbix. Не так давно мы запустили услугу аудита Zabbix и обнаружили некоторые закономерности, на которые я хотел бы обратить внимание в этой статье. В нашем телеграм-канале Zabbix Recipes мы регулрно делимся нашими находками и публикуем анонсы вебинаров (скоро и по этой теме тоже будет), поэтому приглашаю присоединиться. Я построю повествование так, чтобы вы могли пройтись по статье как по чек-листу и проверить свою инсталляцию на предмет возможных улучшений. Погнали!

Читать далее

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели14K

У меня на столе стоит небольшая золотистая коробочка размером чуть больше Mac mini. Внутри — приватный AI-сервер: чат с локальной 26B-моделью, поисковая индексация моих документов с GPU-парсингом, конструктор агентов в Dify, RAGFlow для тяжёлого парсинга PDF, мониторинг, бэкапы, опциональный кластер из двух машин по QSFP 200G. Тридцать контейнеров, пять минут на установку через sudo bash install.sh, ноль обращений к внешним API.

Я делал это не как pet-project, а под себя — мне нужна была машина для работы с корпоративными документами, договорами и регламентами, которые ни при каких условиях нельзя отдавать в облачные ассистенты. Сборка получилась самостоятельным дистрибутивом — назвал его AGmind, выложил на GitHub под Apache 2.0.

В статье разберу:

— из чего собран стек и зачем там каждый компонент; — почему RAGFlow пришлось пересобрать с нуля и что я туда добавил; — как устроен кластер из двух Spark'ов; — пять конкретных грабель GB10, которые я ловил вечерами; — почему Claude Code за месяц превратил один из этих компонентов в работающий продукт, но при этом не заменил собственно программиста.

Читать далее

Proxmox Backup Server 4.2: бэкапы для Proxmox стали взрослее и умнее

Время на прочтение14 мин
Охват и читатели12K

Несколько дней назад, 29 апреля 2026 года, вышел Proxmox Backup Server 4.2. Формально это промежуточный релиз: обновили базовую систему до Debian 13.4 Trixie, поставили Linux 7.0 как новый стабильный вариант ядра, добавили ZFS 2.4.1, поправили ошибки и доработали интерфейс. Но по смыслу релиз заметнее, чем кажется: S3-совместимые объектные хранилища стали официально поддерживаемыми, синхронизация между серверами научилась работать параллельно, появились шифрование и расшифровка на стороне сервера для задач синхронизации, а группы резервных копий и пространства имён теперь можно перемещать внутри хранилища.

То есть Proxmox Backup Server постепенно уходит от образа «удобной бэкапницы рядом с Proxmox VE». Он становится отдельным сервером резервного копирования: с дедупликацией, политиками хранения, проверкой целостности, удалённой синхронизацией, S3-хранилищами, лентами и внятной эксплуатационной моделью. Нет, не универсальной заменой всем системам резервного копирования на свете, но очень естественным инструментом для тех, у кого инфраструктура уже построена вокруг Proxmox.

да-да, он такой!

AgentOps: следующий слой после Infrastructure as Code

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели10K

Infrastructure as Code научила нас важной дисциплине: инфраструктура не должна жить только в голове. Ресурсы, настройки и изменения надо описывать, хранить в Git, применять повторяемо и обсуждать как код.

Это все еще правильная мысль. Terraform хорошо описывает ресурсы. Ansible хорошо описывает действия. CI/CD хорошо описывает путь изменения от репозитория до рабочей среды. Мониторинг хорошо ловит симптомы.

Но когда в эксплуатацию входит ИИ-агент, появляется новый вопрос: что агент должен понимать перед действием?

Не какую команду выполнить. Не какой ресурс создать. Не какой playbook применить. А именно понимать: куда он попал, что здесь считается правдой, что уже проверено, что только предполагается, какие решения нельзя повторять, какие секреты нельзя читать, что обязательно записать после изменения.

Я называю этот слой AgentOps.

Это не замена всем старым практикам. Это слой над ними. Если инфраструктура теперь обслуживается агентом, ей нужна не только автоматизация, но и контекст, рассчитанный на агента.

Читать далее

Мой опыт установки Sentry self-hosted

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели9K

Привет! Меня зовут Даниил Ткаченко, я веб‑разработчик в ИТ‑компании «Активика». В статье я поделюсь опытом развёртывания Sentry self‑hosted для высоконагруженного проекта. Несмотря на обилие материалов по SaaS‑версии, актуальных гайдов по self‑hosted‑установке почти нет — особенно с учётом современных требований к производительности и отказоустойчивости.

Мы столкнулись с рядом проблем: нестабильностью на базовом хостинге, отсутствием перехвата HTTP‑ошибок и быстрым заполнением диска. Под катом разберу каждую проблему, покажу код решений и дам рекомендации для тех, кто планирует развернуть Sentry самостоятельно.

Статья будет полезна разработчикам и DevOps‑инженерам без опыта работы с self‑hosted Sentry.

Читать далее

Ближайшие события

Установка Zabbix Agent 2 на Cloud Director Appliance (Photon OS 4)

Время на прочтение7 мин
Охват и читатели7K

Рано или поздно админ VMware упирается в один и тот же вопрос: как навесить мониторинг на vCenter или Cloud Director, не сломав поддержку аплайнса. Официально — никак. Неофициально — Zabbix Agent 2, разложенный поверх Photon OS 4 так, что система остаётся нетронутой. Разбираем подход, который переживает рестарты, FIPS и обновления.

Читать далее

Самое подробное руководство по использованию утилиты ktpass в среде Active Directory

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели7.8K

Давайте разберем как с помощью утилиты ktpass.exe создавать гарантированно рабочие файлы keytab. Подробно и с примерами рассмотрим каждый параметр утилитыktpass.exe. А самое интересное - вы узнаете неочевидные факты о принципах использования salt при генерации ключей Kerberos, из-за которой получаются нерабочие ключи AES. В этом поможет инспекция базы ntds.dit командлетами DSInternals.

Читать далее

Русская рулетка дедиков: Собираем RAID 1 + LVM на живой системе без Rescue-режима

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.9K

Ситуация до боли знакома каждому, кто регулярно арендует выделенные серверы: вы оплачиваете счет, заходите по SSH и видите, что ОС установлена на /dev/sda, а второй диск просто болтается пустым. Никакого RAID, никакой отказоустойчивости. Умрет первый диск — ваши данные исчезнут. Мы в SoftStore идем по пути полного контроля над процессом. В этой статье разбираем пошаговый протокол: как собрать программный RAID 1 и LVM прямо на живой, работающей операционной системе без использования Rescue-режима и переустановки. В качестве бонуса — практика по управлению квотами, снапшотами и замене дисков в Production.

Читать далее

Как читать логи, когда их слишком много

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели20K

Эпоха монолитов прошла, и сейчас логи больше путают, чем помогают. Несколько сервисов, несколько журналов и противоречащие друг другу строки — ни одной очевидной причины в этом монотонном расследовании. Но поиск можно сузить, а ответ почти всегда находится в цепочке событий. Команды, лайфхаки и список утилит — под катом.

Предупрежу, в статье МНОГО БУКВ, поэтому можно сразу перейти к Linux, Windows или к инструментам (они в самом конце).

Читать

Инсайдер в системе: как аппаратная блокировка перезаписи защищает данные от собственных сотрудников

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.1K

Самая опасная угроза — внутри

В массовом представлении угроз информационной безопасности главным врагом остаётся внешний хакер. Однако многолетняя практика эксплуатации корпоративных ИТ‑систем показывает более неприятную реальность.

Читать далее

Как понять, что мониторинг в ЦОДе шумит

Время на прочтение8 мин
Охват и читатели7.4K

Днём на работе вокруг всегда коллеги, созвоны, обсуждения в чатах. Если что-то непонятно, можно быстро спросить совета у более опытных инженеров. Ночью всё по-другому. Дежурный остаётся один на один с системой оповещений, и разбираться приходится самостоятельно. Наверное, поэтому одна из самых странных вещей в мониторинге проявляется именно ночью.

На одном из дежурств мне за несколько часов пришло больше десятка уведомлений. То температура в стойке подскочила на пару градусов. То CPU неожиданно преодолел порог. То один из дисков выдал предупреждение SMART. Конечно, я проверял каждый сигнал, смотрел графики, открывал логи и переключался между дашбордами. Но метрики и без этого возвращались к исходным значениям, и всё продолжало работать как обычно.

К утру инфраструктура так и не полыхнула синим пламенем, зато система оповещений просто разрывалась. Так я впервые узнал об «усталости от алертов» и начал искать способ справиться с этой проблемой.

Читать далее

Как мы написали свой forward-proxy на Go и отказались от VPN для доступа к админкам

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели15K

Если коротко: После дефейса сайта нашего знакомого из-за утекшего пароля от админки мы поняли, что управлять доступами нетехнической команды (редакторы, SEO, подрядчики) через VPN или статические IP - это боль. Существующие proxy требовали рестартов и рулились конфигами. В итоге мы написали свой forward-proxy на Go, где доступ выдается токеном через расширение браузера, а правила (TTL, лимиты трафика, доступные домены) применяются на лету без разрыва соединений.

Читать далее
1
23 ...