Обновить

Администрирование

Сначала показывать
Порог рейтинга
Уровень сложности

Мониторинг, который кричал «Волк»! Что мы придумали для корректного сбора метрик

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.2K

Привет, Хабр! Меня зовут Станислав Савостин, в СберТехе я занимаюсь системой мониторинга «Маяк». Это наш внутренний сервис, который основан на Prometheus, но включает много доработок и «тюнинга» под наши условия и стандарты работы.

Основная задача мониторинга — быстро выявить проблему (до того, как что‑то упало) и отреагировать, чтобы пользователи не заметили. Из‑за высокого темпа уведомлений и реакций часто возникает риск пойти по неправильному сценарию. Например, перезагрузка брокера Kafka или Artemis занимает около 30 секунд, поэтому упустить такую ситуацию легко, хотя для нас это критически важная метрика. Ложная тревога или задержка передачи метрик — максимально неприятные события, так что мы постоянно дорабатываем систему и уже научились отслеживать перезагрузки сервисов.

Я расскажу, как мы дорабатывали мониторинг, как реагируем на действительно опасные ситуации и что помогает нам ловить дзен, когда все кричат: «Волк!»

Читать далее

Grafana Stack: закрываем все современные потребности Observability

Время на прочтение6 мин
Количество просмотров8.9K

Ни одна система не может функционировать без сбоев, всегда могут возникнуть ситуации, когда в работе софта возникают проблемы. И здесь важное значение имеет observability — понятие, включающее в себя мониторинг и наблюдаемость. С помощью мониторинга мы можем определить, когда возникла проблема, а наблюдаемость позволяет нам понять, почему она возникла.

В этой статье мы поговорим о том, как можно реализовать observability с помощью сервисов стека Grafana.

Читать далее

Как дать разработчикам свободу при деплое приложений и ускорить процессы в команде

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров3.4K

Привет! Меня зовут Игорь Латкин, я управляющий партнер и системный архитектор в KTS. Сегодня расскажу, как мы в компании выстраивали процессы деплоя приложений так, чтобы разработчики могли делать это самостоятельно. 

Поделюсь, как мы формируем регламенты в KTS и на каких «трёх китах» стоит инфраструктура глазами разработчика. Статья написана по мотивам моего доклада на kuberconf.io.

Читать далее

Выбираю Open Source БД для себя

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.1K

Задача такая: искал Open Source БД для своего пет-проекта. Решил посмотреть в интернете новые решения в рамках БД. После чтения статей и отбора из 6-7 БД остались три (3), которые понравились лично мне. Больше ничего путного не нашел. 

Почему именно эти? Во-первых, они Open Source, а во-вторых, у них есть ответы на два главных моих вопроса «Для чего это нужно?» и «Работает ли из коробки?».

Давайте покажу на примерах.

Читать далее

Разбираемся с мандатным управлением доступом в Астра Линукс

Время на прочтение6 мин
Количество просмотров20K

Мандатная модель управления доступом не получила столь широкого распространения в пользовательских операционных системах из‑за своей сложности, а также из‑за того, что в ней нет большой необходимости при решении задач, не связанных с высоким уровнем конфиденциальности. В этой статье мы попробуем разобраться с тем, что из себя представляет эта модель и как ей пользоваться. 

Читать далее

PostgreSQL — особенности работы с памятью для 1С-систем. Часть 1

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров15K

Этой статьей мы начинаем цикл, посвященный различным настройкам по оперативной памяти в PostgreSQL. Тема непростая, даже сложная. Понятной информации по ней крайне мало (по состоянию на октябрь 2024). Поэтому будем разбираться, шаг за шагом, вдумчиво и, как принято у нас в блоге, подкреплять все выводы исследованиями и картиной из программы мониторинга PERFEXPERT (версия для PG).

Читать далее

Прозрачное туннелирование трафика с маршрутизацией на основе геолокации IP-адресов

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3.9K

В этой статье я попробую рассказать, как в домашней сети создать ещё один шлюз по умолчанию и настроить на нём выборочную маршрутизацию на основе списка подсетей. Используя в качестве такого списка базу данных геолокации IP-адресов, можно перенаправлять трафик в зависимости от страны назначения.

Читать далее

Два года Angie

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров12K

Всего пару дней назад, 26 октября 2024 года, мы отметили 2 года с момента первого релиза опенсорс версии веб-сервера Angie. Кажется, что именно сейчас наиболее уместно поговорить с вами о том, почему идея заработать на опенсорсе в России оказалась «так себе идеей». И почему мы, тем не менее, от развития опенсорс версии Angie не отказались. И не откажемся.

Читать далее

Кратко о сетях. Продолжение

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров5.8K

Доброго времени суток, Хабр! Вторая часть, прочитать первую часть из серии обучающих статей можно по ссылке.

Читать далее

Корректное завершение работы подов в Kubernetes

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров12K

Перевели статью и наглядную инфографику управляющего директора Learnk8s Daniele Polencic о корректном завершении работы подов в Kubernetes. В тексте много примеров и иллюстраций, которые помогут начинающим разобраться, как предотвратить разрыв соединений при запуске или остановке пода. В том числе для долгоживущих соединений и задач.

Читать далее

Автоматизация процесса запроса, создания и раздачи доступа к сетевой папке сотрудника через IDM Midpoint

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров1.6K

Типовая задача: сотруднику нужна сетевая папка на Windows сервере. Чтобы её создать нужен Админ, чтобы раздать к ней права нужен Админ - убираем Админа из этой задачи при помощи IDM Midpoint.

Упрощённая схема, чтобы понять что происходит

Читать далее

Home Lab мечты в Kubernetes

Уровень сложностиСложный
Время на прочтение34 мин
Количество просмотров18K

Когда я только начал осваивать Linux, я почти сразу загорелся идеей держать собственный сервер для экспериментов и повседневного использования. Такой сервер называют домашней лабораторией и способов ее построения достаточно много. Это интересное занятие очень популярно среди Linux‑энтузиастов.

В этой статье я расскажу про свой путь в построении такой лаборатории с помощью Kubernetes и облачных технологий. Здесь вас ждут полностью воспроизводимые k8s‑кластеры, бекапы с авто‑восстановлением, хитрые VPN‑ретрансляторы, хорошо защищенные приватные и публичные приложения, а также много‑много автоматизации и красивых инженерных решений.

Читать далее

Особенности практического применения архитектуры Spine&Leaf в реалях современного высоконагруженного CDN

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.4K

Как строить Spine & Leaf архитектуру в датацентре оптимальнее и дешевле и при этом не уткнуться в «бутылочное горлышко» с большим трафиком.

Читать далее

Ближайшие события

Как устроен KaaS (Kubernetes as a Service) в Облаке Рег.ру

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.2K

Всем привет, меня зовут Игорь Шишкин, я руководитель команды R&D облачных сервисов Runity. Сегодня я хочу устроить вам небольшую экскурсию по тому, что из себя представляет наш сервис KaaS и как он устроен, ведь все мы знаем и любим Kubernetes.

Читать далее

ЦОД: топологии и архитектуры

Время на прочтение5 мин
Количество просмотров7.3K

Центры Обработки Данных, как правило представляют собой здания с помещениями достаточно большого размера, в которых размещаются бесконечные шкафы с серверами, коммуникационным оборудованием, системами хранения и прочими инфраструктурными элементами. И порой крайне сложно разобраться, как взаимодействует между собой все это техническое многообразие. В этой статье мы поговорим о топологии и архитектуре сетей ЦОД.

Сетевая архитектура центра обработки данных должна обеспечивать баланс между надежностью, производительностью, гибкостью, масштабируемостью и стоимостью. При этом, она также должна поддерживать как текущие, так и будущие приложения и иметь запас мощности, который может потребоваться для развертывания новых приложений.

Для начала поговорим о том, какие топологии могут использоваться в сетях ЦОД.

Читать далее

Vector.dev: как упростить подсчет метрик по логам

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.3K

Меня зовут Дима Синявский, я SRE-инженер в Vi.Tech — это IT-дочка ВсеИнструменты.ру. В этой статье я расскажу вам о нашем опыте работы с vector.dev, как мы сначала превращали логи в метрики и как это автоматизировали до такой степени, что теперь с этим справиться один yaml-developer.

Наш сайт создает более 100 тысяч заказов каждый день, и чтобы все это успешно работало у нас много сервисов, которые пишут много логов по ним часто нужно считать метрики. А SRE часто нужны метрики и порой это надо сделать прямо сейчас, а не ждать доработки приложения. Потому метрики по логам спасают.

Если у вас в эксплуатации уже есть коммерческие функциональностью подсчета логов по метрикам, то, думаю, ваши потребности им уже закрыты. Однако, тем кто строит свои системы с применением открытого ПО - это может быть полезно.

TLDR. Да мы смогли улучшить этот процесс, упростить и автоматизировать при помощи шаблонизации конфигов, да посмотреть код можно, есть в опенсорс есть на github.

Пойдем-ка посчитаем...

Оптимизируем системные ресурсы при развёртывании за счёт перехода на динамику

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.9K

Всем привет! Если в компании растёт количество продуктов, а для их развёртывания используются виртуальные машины, то рано или поздно возникает задача оптимизации ресурсов. Скажем, вы используете для оркестрации Jenkins. Количество агентов на ВМ при этом статично, а количество развёртываний в разное время разное. В этом случае при массовых установках агенты периодически упираются в установленный лимит исполнителей (executor), а в свободные часы ВМ простаивают, занимая ресурсы.

Мы, команда Run4Change в СберТехе, сопровождаем тестовые среды. В наши задачи входит в том числе развёртывание продуктов облачной платформы Platform V на стендах для последующего тестирования. Расскажем, как мы решили проблему использования системных ресурсов и отказались от виртуальных машин в пользу cloud‑native‑решения. Статья может быть полезна тем, кто планирует начать использование динамических агентов Jenkins, и может использоваться как первоначальное руководство.

Читать далее

Заставляем IDM Midpoint работать с внешними заявками

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров2.6K

IDM от Evolveum Midpoint обещает много, делает только то, что считает нужным. Крайне редкое и малоописанное решение, но в России его любят. СберТех построил на Midpoint свой Platform V IDM и не скрывает этого, по некоторым данным даже обновляет его до последней версии, но demo нет, так что не проверить. По слухам есть ещё две российские IDM, которые тоже выстроены на Midpoint, но на старых версиях, и они это не афишируют. Evolvеum в своих презенташках упирает на то, что Midpoint всё может, а что не может во-первых не нужно, а во-вторых это в старых IDM так было, а мы новые - мы лучше! Так, например, отлично проработана выдача ролей, а вот их отъём в принципе нет, официальный ответ «Не думайте о том как отобрать роль, думайте как её не выдать». Midpoint работает с состояниями, забирает их в себя, хочет быть посредником (это прям в его названии), какие-то команды получать не хочет, хотя есть REST API и можно управлять ими командами, но для этого надо писать внешний сервис для внешних заявок - посредника для посредника!

Но всё равно работу в самом Midpoint c внешними заявками можно реализовать имеющимися инструментами.

Читать далее

Господин сенатор, шаттл подан: как мы переносим тысячи секретов в StarVault за секунды

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Казалось бы, простая задача: перенести секреты между хранилищами Vault. Но на практике возникают сложности. И их столько, что мы в Orion soft разработали свою утилиту для миграции – StarVault Shuttle.

В этой статье я расскажу, почему мы остановились на таком решении и как работает наша утилита. Также поговорим про подводные камни миграции через бэкапы и обсудим другие задачи «переезда» на новый Vault, например, необходимость «уборки» в хранилище.

Читать далее

Как базовой инфраструктуре удобно жить на железе в 2к24. Доклад Яндекса

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров5K

Привет, меня зовут Борис Литвиненко, я занимаюсь SRE и DevOps в Yandex Infrastructure. Такие задачи я решаю уже очень давно, последние 10 лет — в Яндексе.

Естественно, в инфраструктурных подразделениях мы не гнушаемся и разработкой: все описанные в этом материале события происходят в группе разработки сетевой инфраструктуры и мониторинга, где мы делаем всё, что касается сети и какой‑то автоматизации. А как вы понимаете, сетевая инфраструктура большей своей частью не может зависеть от остальных сервисов.

Сегодня я расскажу о нашей специфике обслуживания базовой части инфраструктуры и причинах, которые привели к необходимости всё стандартизировать, а также выбрать облачный подход и запуститься в k8s. Но давайте всё по порядку.

Читать далее