Без паники: как работает комплексный мониторинг

Привет! Меня зовут Денис Мухин. Я руковожу управлением мониторинга в РТК-ЦОД. Расскажу о том, как должен работать грамотный мониторинг и зачем он вообще нужен.

Привет! Меня зовут Денис Мухин. Я руковожу управлением мониторинга в РТК-ЦОД. Расскажу о том, как должен работать грамотный мониторинг и зачем он вообще нужен.

Наш ЦОД «Медведково», о котором мы уже рассказывали, в 2024 году стал кластером, так как рядом был построен еще один дата-центр — «Медведково-2». В этой статье мы покажем, как устроен новый ЦОД.
Здание «Медведково-2» возвели за год, параллельно проводили интеграцию инженерных систем. К 2024 году ЦОД полностью подготовили для проведения аудита и сертификации. Дата-центр успешно прошел испытания Uptime Facility и получил сертификат Tier III.

Выкатили новый проект. База — на PostgreSQL. Все работает. DBA в штате нет, база крутится на виртуалке, обновления никто не трогал, мониторинга нет. И вот ночь, все падает. Начинается экстренный чат, поиск багов, попытки восстановиться из бэкапа… если он вообще был.
Так случается, когда инфраструктура и сопровождение баз данных остаются на совести команды разработки. Чтобы избежать этого, все чаще используются управляемые СУБД в облаке — сервисы, где ключевые задачи закрываются автоматически или силами провайдера.
На связи продуктовая команда РТК-ЦОД, и в этой статье мы расскажем, как устроены облачные базы и зачем они бизнесу.

Недавно мы обновили BareMetal 2.0 в составе нашего «Публичного облака». Теперь в инфраструктуре есть выделенные физические серверы с высокопроизводительными GPU-картами. Они позволяют работать с задачами, где критична скорость вычислений.
Расскажем, что именно изменилось и какие задачи можно теперь решать быстрее.

Привет, Хабр! Я Роман Лысенко, начальник отдела систем резервного копирования в РТК-ЦОД. Четыре года назад я пришел в РТК-ЦОД специалистом 1-й линии ТП. Через два года я стал работать уже в отделе СРК, но с теплом вспоминаю период в техподдержке.
Такое начало карьеры — один из самых естественных и эффективных способов роста в IT. Многие молодые айтишники могут сомневаться в этом, задаваясь вопросом: «Зачем начинать с техподдержки, если можно сразу выбрать более интересные и высокооплачиваемые роли?» Для того чтобы разрушить основные мифы и стереотипы о работе в техподдержке и рассказать подробнее о профессии, я решил написать эту статью.
Привет! Меня зовут Олег Рябов, я главный эксперт Управления исследований и разработок новых решений компании «Ростелеком-ЦОД» и автор программы и методики испытаний (ПМИ) серверов.
В этой статье расскажу, как мы проводим тестирование серверов и какие утилиты и методы используем.

Привет, меня зовут Александр, я руковожу Управлением исследований и разработки новых решений в «Ростелеком-ЦОД», если коротко — лабораторией R&D.
Сейчас лаборатория хорошо прокачана и продуктивна, но так было не всегда. В этой статье я расскажу, как мы ее создавали, к чему пришли и как тестируем оборудование, ПАК и ПО.

Меня зовут Андрей, я работаю в группе резервного копирования в компании «Ростелеком-ЦОД». Мы отвечаем за хранение и целостность резервных копий наших клиентов и поддержку инфраструктуры РК в оптимальном состоянии. В этой статье я хочу рассказать о том, как мы смогли значительно упростить мониторинг статуса заданий в системе резервного копирования Veeam, создав мощный инструмент на основе Grafana. Этот инструмент позволяет нам получать ценные метрики и статистику о производительности и состоянии нашей инфраструктуры резервного копирования.

Мы открыли новый дата-центр «Ростелеком-ЦОД» в Медведково. Строительство началось в июле 2022 года на базе складского комплекса класса А+, первый этап был реализован за 9 месяцев.
Сегодня в эксплуатацию принято 4 машинных зала из шестнадцати. Каждый из них может вместить до 312 стандартных серверных шкафов, т. е. всего 1248 стойко-мест. Общая электрическая мощность четырех машинных залов и поддерживающей инженерной инфраструктуры составляет 9 МВт.

В этой статье я расскажу, как искать иголку в стоге сена причину проблем с производительностью ВМ на ESXi. Главным способом будет то, что так не любят многие администраторы: планомерная проверка всех ресурсов на утилизацию, сатурацию и ошибки. Я приведу ключевые метрики, на которые следует обратить внимание, их краткое описание и значения, на которые можно ориентироваться, как на норму.
Кроме своих наработок, я также использовал материалы из разных англоязычных источников. По некоторым вопросам описания тянули на отдельные статьи, поэтому на них я дал ссылки.

Иногда возникают ситуации, когда требуется работать с базой данных VMware Cloud Director не только с поддержкой инженеров вендора, но и самостоятельно: могут залипнуть объекты, невозможно переконфигурировать ВМ, не получается удалить или создать какие-либо объекты, необходимо перенастроить БД, восстановить работу PostgreSQL HA Cluster и т. д.
Хочу поделиться опытом настройки и работы со встроенной БД на примере версии Cloud Director 10.х.
Главное примечание: все действия с БД вы выполняете на свой страх и риск, поэтому не забывайте про необходимость резервного копирования.

Наши ЦОДы обеспечивают бесперебойную работу облачных сервисов, поэтому казалось, что карантины влияют на нас мало. Дежурные смены и смежные специалисты оставались на местах – такова уж специфика нашей инженерной работы. Но немало инженеров DataLine перешли на частичную или полную удаленку, а многие работают так до сих пор и обеспечивают непрерывность процессов из дома.
Сегодня мы заглянем в гости к нашим техническим специалистам и посмотрим, как они обустроили свои домашние рабочие места. Спойлер: котики присутствуют!

Миграция базы данных 1С с MS SQL на PostgreSQL – по-прежнему насущная тема, особенно в контексте импортозамещения. На наших вебинарах и в беседах с клиентами мы получаем много вопросов по нюансам миграции. Решили собрать основные рекомендации в одну статью.

Нашему ЦОДу в Новосибирске исполнилось полтора года. За это время в дата-центре выросла зона доступности облака DataLine для заказчиков из Сибири и Дальнего Востока, а также появились новые услуги. Сейчас в новосибирском облаке размещаются почтовые сервисы, облачные диски клиентов, объектные хранилища, сервисы DBaaS, Kubernetes, сервисы ИБ, DR-площадки и резервные копии.
В фоторепортаже из Новосибирска посмотрим, как работает дата-центр сегодня.

В одной из прошлых статей мы искали выход из ситуации с уходом вендоров NGFW из России и предлагали схемы безболезненного перехода на UserGate. Ситуация за это время особо не изменилась. Стало больше клиентов с задачей заменить зарубежный фаервол или протестировать отечественный, на этом фоне появились интересные кейсы стыковки с UG.
В профильных чатах то и дело спрашивают про настройки IPsec между UserGate и FortiGate, между UserGate и CheckPoint. Приготовили для вас горячие пирожки — полноценные инструкции настройки VPN-туннелей между UserGate и CheckPoint, FortiGate, NSX Edge, MikroTik и Cisco. Граблей мы пособирали достаточно и теперь готовы поделиться опытом с теми, кто только начинает разбираться в возможностях настройки IPsec.

Привет! Меня зовут Михаил, работаю в компании DataLine сетевым инженером. По специальности я радиофизик, но со школьной скамьи интересуюсь криптографией.
В этом году научная работа в университете помогла совместить два этих интереса. Я посвятил свое исследование применению теории хаоса и задался вопросом: как физические хаотические системы могут помочь в решении задач классической криптографии и спроектировать сильный шифровальный алгоритм.
За основу взял систему дифференциальных уравнений Лоренца и написал новый алгоритм шифрования на njs – на практике это можно применить, например, для шифрования данных на веб-сервере. В посте расскажу, почему Лоренц, почему njs, какие есть варианты реализации и ограничения у выбранного решения.

Привет, меня зовут Юрий, и я фулстек-разработчик в DataLine. В компании занимаюсь созданием и развитием внутренних и внешних ИТ-сервисов: Сервисдеска, мастер-справочников, учета оборудования.
Но, как говорится, каждый разработчик в жизни должен сделать 3 вещи: развернуть дерево, распарсить DOM и вырастить своего чат-бота. О последнем и поговорим: расскажу, как делал своего первого чат-бота для нашего Сервисдеска, какие задачи и как решал, с какими трудностями и способами преодоления столкнулся.

Привет, Хабр! Все любят читать обзоры железа и софта, из которых можно понять, у какого продукта длиннее лучше получается решать поставленные задачи. Для этих целей часто используются синтетические тесты. В этот раз мы решили пройтись таким тестом по нашему сервису защиты веб-ресурсов: в него входит анти-DDoS, WAF (Web Application Firewall) и мониторинг событий ИБ.
Сервис отражает атаки, направленные на наших заказчиков. Критические ситуации в работе сервиса уже случались, но нам удавалось решить их в короткие сроки. Новый эксперимент стартовали в начале года, чтобы выяснить возможности защиты веба под нагрузкой и оценить риск прекращения работы клиентских сайтов. Спойлер: реальная жизнь оказалась интереснее.

Система мониторинга инженерной инфраструктуры – это нервная система дата-центра. С ее помощью инженеры вовремя видят неприятные симптомы на графиках и предотвращают проблемы в работе кондиционеров, бесперебойников, сетевых устройств и других элементов инженерных систем.
Наша система мониторинга на базе Nagios развивается вместе с сетью дата-центров, и мы уже много рассказывали о ее работе (например, в этом цикле). Но нет предела совершенству, и чем дальше, тем больше хочется улучшить что-то еще: добавить новый “разрез” анализа, взглянуть на оборудование под другим углом.
В этой статье расскажем, как и для каких задач наши инженеры создают кастомные дашборды с помощью графического плагина FlowCharting для Grafana.

Я работаю в центре киберзащиты DataLine и в числе прочего занимаюсь межсетевыми экранами нового поколения (NGFW): тестирую новые решения, внедряю, настраиваю, слежу за работоспособностью.
В прошлый раз коллеги уже рассказывали про аналог западных NGFW на случай санкций и показывали схемы подключения виртуального шлюза безопасности в облаке. Но что если компания имеет на балансе аппаратный межсетевой экран и хочет продолжать использовать именно его, а не облачное решение? Например, если нужна частная инсталляция, а покупать новый аппаратный шлюз пока нет возможности.
С этой мыслью мы запустили тесты производительности отечественного UTM UserGate в интересном контексте: мы подняли версию UserGate на программно-аппаратном комплексе от зарубежного вендора NGFW. В статье поделюсь сценариями тестирования и покажу результаты на одном популярном устройстве. При желании такие же тесты можно прогнать на любом другом оборудовании.