Обновить
389.45

Системное администрирование *

Лишь бы юзер был доволен

Сначала показывать
Порог рейтинга
Уровень сложности

Без паники: как работает комплексный мониторинг

Время на прочтение10 мин
Количество просмотров870

Привет! Меня зовут Денис Мухин. Я руковожу управлением мониторинга в РТК-ЦОД. Расскажу о том, как должен работать грамотный мониторинг и зачем он вообще нужен.

Читать далее

Новости

Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Время на прочтение8 мин
Количество просмотров280

Без мониторинга инфраструктуры и сервисов любая проблема с приложением становится сюрпризом, причём обычно неприятным, который случается в самый неподходящий момент. С помощью настроенного мониторинга мы можем обнаружить проблемы до того, как пользователи придут и начнут жаловаться. 

Меня зовут Юлия Рубцова, я ведущий менеджер продукта Yandex Monitoring. В этой серии статей я и мой коллега Владимир Гордийчук @gordiychuk рассказываем про реальные сценарии использования мониторинга облачных решений. Что вас ждёт: мы покажем, как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце соберём лучшие практики для настройки мониторинга. 

Начнём с базы: что такое мониторинг, для чего он нужен, что такое золотые сигналы, как использовать гистограммы и перцентили. А уже затем рассмотрим сценарии мониторинга асинхронных задач.

Читать далее

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров281

Uptrace v2.0 использует новый JSON-тип ClickHouse для хранения observability-данных. Результат: запросы по трейсам ускорились в 10 раз.

Делюсь практическим опытом внедрения: установка за 5 минут через Docker, настройка data transformations для обработки данных на лету, гибкие retention policies для экономии на хранении.

В статье:

Пошаговая инструкция от установки до production

Примеры кода на Node.js с OpenTelemetry

Кейсы настройки: снижение cardinality URL, парсинг данных, удаление PII

Чеклист для продакшена

Подходит для микросервисных архитектур на 5+ сервисов, где нужна скорость поиска по атрибутам трейсов.

Читать про 10x ускорение

Terraform Actions: Глубокое погружение

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров1.4K

Terraform Actions — это новая концепция, представленная в Terraform 1.14, которая позволяет выполнять операции вне стандартного рабочего процесса CRUD (Create-Read-Update-Delete). Это расширяет возможности Terraform, позволяя взаимодействовать с ресурсами способами, для которых раньше требовались другие инструменты, например Ansible.

Читать далее

Свой прокси DNS сервер для обхода санкций зарубежных сайтов(с использованием VPS)

Время на прочтение4 мин
Количество просмотров35K

Безусловно, тема обхода ограничений изнутри страны сейчас актуальна. Но что делать, если нужно открыть сайты, которые заблокировали пул IP-адресов из РФ? Например, было интересно создать аналог DNS‑сервера вроде comss, который открывает доступ к заблокированным AI, игровым серверам и тому подобному, с чем не смогут помочь обходы DPI (Возможно, эксперты напишут замечания в комментариях).

Один из возможных способов, который получилось реализовать у меня, представлен ниже.

Нам понадобится VPS в локации, через которую мы хотим быть видимы для нужных нам сервисов.

Для примера можно вспомнить Twitch, который заблокировал доступ к просмотру стримов в качестве 1080p и 1440p для пользователей из РФ.

Идём на страницу справки по бета‑тестированию качества 2k на Twitch и смотрим регионы, в которых оно доступно.

Читать далее

Сравнение Grafana и Dimension-UI на задаче мониторинга истории активных сессий

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.8K

Недавно рассказывал про мониторинг истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server с использованием desktop-приложения Dimension-UI (link). В комментариях @KPSB92 задал вопрос о преимуществах/отличиях связки exporter Prometheus/Grafana и Dimension-UI, решил оформить ответ в эту небольшую статью.

Итак, возьмем для примера просмотр данных активных сессий в базе данных PostgreSQL и сравним визуализацию в Grafana и Dimension-UI. Посмотрим работу с интерфейсами обоих систем в динамике с помощью скринкастов.

Читать далее (трафик 21 Мб)

Умный родительский контроль на MikroTik: Как разрешать доступ в интернет с вашего телефона

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.7K

Стандартные методы родительского контроля часто бывают неудобными: либо вы блокируете всё, кроме пары сайтов, либо тратите кучу времени на ручное ведение "белых списков". Этот метод предлагает элегантное и гибкое решение.

Идея проста: по умолчанию интернет на устройстве ребенка полностью заблокирован. Но как только вы заходите на какой-либо сайт или используете приложение на своем "контрольном" телефоне, его адрес автоматически добавляется в "белый список", и ребенок тут же получает к нему доступ. Вы управляете доступом, просто пользуясь своим телефоном.

Читать далее

Kubernetes 1.29.15 и GPU: как починить пропавшие видеокарты и настроить Time-Slicing

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров368

В Ситидрайве Kubernetes обновляют регулярно — инфраструктура большая, и актуальность версий критически важна. После апгрейда до версии 1.29.15 один из GPU-узлов внезапно «забыл» о своей видеокарте, и нам пришлось срочно искать решение. В этой статье я расскажу, в чём была причина бага и как Time-Slicing помог повысить утилизацию GPU. Статья будет полезна всем, кто работает с GPU в Kubernetes и хочет избежать подобных сюрпризов в продакшене.

Читать далее

Pixel Streaming — от эксперимента до продукта

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров692

Привет! Меня зовут Макс, я web-инженер и предприниматель. В этой статье расскажу о кейсе, где мы с командой работали над непростой интеграцией Pixel Streaming - и как из эксперимента это почти стало продуктом.

С клиентом, который поставил такую задачу, я успел поработать в разных форматах - и в найме, и в статусе подрядчика. Проект, который начался как легаси, содержал множество камней под ногами: нестабильная инфраструктура, высокая стоимость масштабирования и довольно расплывчатая зона ответственности между командами. Тем не менее, нам удалось довести его до состояния, близкого к production-ready - хотя и не запустить в прод по итогу.

Читать далее

Система персональных шпаргалок прямо в терминале

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.5K

Привет, Хабр! Часто ли Вы сталкиваетесь с необходимостью искать в закладках/заметках "ту самую" важную, но редко необходимую команду? git log, который Вы не использовали полгода или спасительный docker compose с десятком флагов. Нередко подобный поиск превращается в пятиминутный квест.

В статье напишем функцию cheat, которая дополнит терминал личной "базой знаний" с Вашим личным перечнем команд. Вводим cheat docker - получаем проверенный список команд мгновенно, без поиска в браузере и чтения мануалов.

Читать далее

Sysadmin, DevOps и SRE: как понимать эти роли, чтобы они не вредили карьере и бизнесу

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.5K

С подключением, хабровчане! Меня зовут Роман Волков, я Senior DevOps в MТС Web Services. Кроме своей основной деятельности в роли инженера, я провожу собеседования и всегда задаю вопросы кандидатам о том, как они видят пользу, которую их роль приносит бизнесу, как могут оценить свою деятельность, какой у них метод ведения работы. Как многие, я читаю профильные чаты, тематические ресурсы. И... кажется, в ИТ‑сообществе до сих пор бытует мнение, что DevOps и SRE — это следующие этапы развития системного администратора.

Это наблюдение подтверждают и открытые вакансии: практически каждая дает список используемых технологий и бонусов для будущего кандидата, но не раскрывает специфику работы. Если бизнес не транслирует пользу от вакансии — сотрудники подбираются исходя из используемой технологии. А ведь есть разница в том, чтобы, например, администрировать Kubernetes, разворачивать полезную нагрузку в Kubernetes или обеспечивать высокую доступность приложению, развернутому в Kubernetes.

Ситуацию можно сравнить с подбором стоматолога по навыку работы специалиста с бормашиной. В такой клинике у вас высокий шанс попасть как к ювелиру, так и к мастеру маникюра.

Попробую внести ясность!

Какой была бы Всемирная паутина, если бы вместо WWW был Gopher

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров30K

В начале 90-х Всемирная паутина (World Wide Web) вовсе не была единоличным хозяином сети. У неё был серьезный конкурент — протокол Gopher. Как изменилась бы наша цифровая реальность, если бы в конечном счёте он не утратил популярность? В статье расскажу, что такое Gopher, почему он уступил WWW, и каким мог бы стать современный интернет, если бы он развивался на базе этого протокола.

Читать

Windows, которую мы помним: от 1.0 до 11 — история ОС, ставшей частью нашей жизни

Время на прочтение9 мин
Количество просмотров3.9K

14 октября 2025 года завершается поддержка Windows 10 — ОС, на которой работали сотни миллионов людей по всему миру. И сегодня, в день прощания с Windows 10, мы решили вспомнить, как всё было, — от пасьянса и «Сапера», маркетинговых феерий и антимонопольных битв до ИИ-ускоренных платформ.

Читать далее

Ближайшие события

Использование gMSA в Linux-контейнерах

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров677

Зачем вообще использовать gMSA в контейнерах?

Group Managed Service Accounts (gMSA) решает проблему хранения и обновления сервисных паролей: пароль хранится только в AD и регулярно обновляется автоматически. Использование gMSA позволяет не менять уже настроенные ACL и роли на файловых шарах и SQL-серверах - приложения продолжают работать с прежними правами через корпоративные Kerberos/SPN-механизмы. Такая интеграция обеспечивает прозрачный и контролируемый переход классических приложений в контейнерную инфраструктуру Kubernetes.

Посмотрим как это работает на примере простого кроссплатформенного dotnet-приложения.

Читать далее

Плюсы, минусы и конкуренты NGFW UserGate в 2025 году

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.1K

Привет, Хабр! Я Александр из OXYGEN Data Centers and Clouds. В статье ниже рассказываю про NGFW (Next-Generation Firewall) UserGate: как и почему это решение стало практически единственным на российском рынке NGFW и как живется нам с UserGate в 2025 году. 

Поговорим отдельно про плюсы и минусы: что удалось пофиксить, а с чем приходится мириться до сих пор. А еще расскажу про то, как обстоят дела на рынке NGFW сейчас, какие новые решения уже готовятся потеснить UserGate и за счет чего. Будет интересно!

Читать далее

Когда повторы убивают: метастабильные отказы в распределённых системах

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров765

Бывают сбои, которые не исчезают после устранения причины: система залипает, полезная пропускная способность почти нулевая, а петли обратной связи удерживают отказ. В статье формализуем это как метастабильные отказы, разберем цикл «стабильное → уязвимое → метастабильное», характерные метрики и «скрытую ёмкость». Обсудим практики сохранения полезной пропускной способности под перегрузкой: бюджет повторов, приоритеты и отбрасывание запросов, обслуживание «последних первыми», грамотное управление очередями и автомат защиты.

Читать про метастабильность

Ubuntu 25.10 «Questing Quokka»: от бета-версии к финалу — что изменилось

Время на прочтение4 мин
Количество просмотров5.4K

Привет, Хабр! Пару недель назад мы разбирали бета-версию Ubuntu 25.10, которую Canonical назвала "Questing Quokka". Тогда система была на этапе заморозки пакетов, с акцентом на переход к Wayland и поддержку RISC-V. Теперь релиз вышел, и он стал стабильнее, доработаннее, с новыми возможностями, которые не просто дополняют бету, а делают ОС готовой для ежедневной работы. В статье посмотрим, что появилось в финальной версии, как доработали ключевые компоненты и сделаем общую оценку.

Читать далее

Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

Время на прочтение17 мин
Количество просмотров3K

Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀

Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0, новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

Читать далее

7 способов создать беспроводную сеть в отдельном здании от powerline и репитеров до mesh и контроллеров

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров8.7K

Привет Хабр! Меня зовут Алексей и я занимаюсь беспроводными технологиями. В прошлой статье WiFi-mesh или ретранслятор: разбираемся в технологиях покрытия беспроводных сетей @roofcatпопросил написать продолжение про easymesh и wired backhaul, а @krilovи @Astroscopeчуть больше внимание уделить беспроводным способам подключения. Чтож с удовольствием выполняю их просьбы. И постараюсь рассмотреть 7 разных способов организации беспроводной сети в отдельно стоящем здании. Постараюсь все написать максимально простым языком понятным для широкой публики. И прошу извинения у настощих профи для вас все может быть слишком примитивно.

Читать далее

Искал медь, а нашёл оптику — экономика апгрейда до 1,6 Тбит/с

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров11K

Привет, постоянные и не очень читатели!

Были времена, когда админы дурели от этой прикормки 10 Гбит/c канала, а теперь такая пропускная способность — норма для роутера в прихожей (не у всех, но всё же).

В ЦОДах же и 100 Гбит/c уже давно никого не удивят — у гиперскейлеров (Amazon, Microsoft, Google, Alibaba, экстремистская и запрещённая в России Meta) это дефолт, в энтерпрайзе и бизнесе разных размеров — активно внедряют.

Компании уровня cloud-scale (те, что строят сервисы облачного уровня: Netflix, Spotify, Salesforce, Zoom) и гиперскейлеры уже переходят на 200 Гбит/c и тестируют 400/800 Гбит/c, ну а поскольку 200 мало чем отличается по стоимости инфраструктуры от 400, то некоторые сразу перескакивают, ведь легаси кабельное хозяйство (LC, MPO-12) всё равно не потянет эти апгрейды, надо всё перелопачивать на MPO-16, MPO-32 или новые форматы (QSFP-DD, OSFP).

В общем, накопилось у меня пару идей, как собрать всё это в едином материале: обсудить, где шайба будет через время; подумать, а надо ли оно (апгрейд) вообще — и в довесок затронуть денежные вопросы: всякие CAPEX, TCO/ROI, ₽/(Гбит/c), ($/Gbps) и прочее экономическое непотребство.

Присаживаемся, ложимся или в какой там позе вы читаете — и начинаем.

Дропдаун
1
23 ...

Вклад авторов