Обновить

Администрирование

Сначала показывать
Порог рейтинга
Уровень сложности

Сбой AWS 19­–20 октября: во всём виноват DNS. Постмортем

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров5K

19–20 октября 2025 года в регионе us-east-1 произошёл каскадный сбой, повлиявший на доступность глобальных сервисов. Компания AWS опубликовала детальный разбор, в котором раскрыла первопричину — дефект в автоматизированной системе управления DNS для сервиса DynamoDB. В статье приводятся полная хронология событий, описание воздействия на смежные сервисы (EC2, NLB, Lambda) и список запланированных улучшений для предотвращения подобных инцидентов в будущем.

Читать далее

Как ошибка конфигурации уронила 1.1.1.1 на 62 минуты: разбор инцидента Cloudflare

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров12K

62 минуты без 1.1.1.1 — редкий случай, когда глобальный сбой рождается не из хаоса интернета, а из аккуратной конфигурации. Cloudflare наглядно показала, как одна «дремлющая» ошибка в легаси-топологии может превратиться в мировой инцидент и почему поэтапные раскатки — не просто инженерный перфекционизм, а средство выживания распределённых систем.

Разбираем, как изменение в сервисных топологиях привело к отзыву anycast-маршрутов, почему DoH почти не пострадал и какие архитектурные выводы сделали инженеры Cloudflare.

Читать разбор сбоя

Какую ОС поставить на VPS — Linux или Windows Server?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров9.2K

На VPS нет проблем с выбором любой ОС. Самые популярные варианты устанавливаются вместе с сервером. Как только сделан заказ, сразу выделяется виртуальный ресурс и начинается инсталляция, а через несколько минут всё готово к работе. И Linux (на нашем хостинге это Debian), и Windows Server ставятся автоматически.

Вопрос только в том, что выбрать? Или можно спросить иначе: зачем вообще нужен Windows Server, если весь серверный софт работает под Linux, казалось бы?

К сожалению, не весь.

Читать далее

Как работает DNS в Linux. Часть 4: DNS в контейнерах

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров9.5K

Каждая контейнерная платформа — Docker, Podman, Kubernetes — реализует собственную DNS-архитектуру со специфическими особенностями, преимуществами и подводными камнями. Понимание этих различий критически важно для построения надежных и производительных контейнерных инфраструктур. С чем мы и попробуем разобраться в этой статье.

Читать далее

В AWS утро начинается не с кофе. Пал US-EAST-1

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров19K

Мрачным утром 20 октября 2025 года мониторинг AWS был краснее некуда, его залило кровью сервисов. Пал крупнейший и по совместительству старейший регион, обрабатывающий 35–40% всего глобального трафика AWS — US-EAST-1. На его воскрешение чернокнижники из AWS потратили 13 часов.

В этой статье я хочу разобрать, что именно произошло, почему восстановление заняло так много времени, и самое главное — что мы можем сделать, чтобы наши системы пережили подобное в будущем. Ведь US-EAST-1 падает уже не первый раз, и явно не последний.

Читать далее

Как мы строим сеть RUTUBE

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров20K

Когда мы говорим о большом сервисе с десятками миллионов пользователей по всей стране, надёжно и эффективно должен работать каждый уровень: и приложения, и инфраструктура, и сеть. Если в уравнение добавляются петабайты видеоконтента, сеть становится ещё более критичным элементом. 

В этой статье на примере эволюции сети RUTUBE разберём: с чего начинать ревизию legacy-сети; какие оптимизации помогут пережить резкий рост нагрузки и выиграть время для масштабного обновления; и наконец, что учесть при проектировании новой современной сети, подходящей для актуальных архитектурных подходов и стека технологий. 

Читать далее

Как мы учились смотреть на проблемы продукта «сверху»

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.4K

Меня зовут Александр Ковалёв, и я занимаюсь разработкой инженерных продуктов Platform V Works. В этой статье поговорим про observability, а именно про конкретную область — мониторинг в продуктах. Обсудим, как вообще появляется сама идея мониторинга, какие есть варианты реализации. Расскажу, по какому пути пошли мы, какие ресурсы и материалы использовали.

Статья может быть полезна тем, кто впервые сталкивается с такими инструментами, как Prometheus и Grafana, а также всем, кто хочет изучить чужие примеры и прокачать компетенции в данной области.

Читать далее

Миграции Postgres с использованием логической репликации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.9K

Миграция PostgreSQL — редкий проект, где «быстро и безболезненно» почти никогда не совпадают. Дамп/восстановление годится для сотен гигабайт, потоковая репликация по WAL — для тех, у кого есть к ней доступ. Но когда простоя не хочется, а WAL недоступен, остаётся третий путь — логическая репликация.

В этом материале — практический сценарий: как заранее перенести схему, обеспечить уникальную идентификацию строк (PK/уникальный индекс/REPLICA IDENTITY FULL), настроить публикации и подписки, следить за первичной загрузкой через pg_stat_subscription, корректно остановить запись на источнике и синхронизировать последовательности.

Старт миграции

Что такое SLA, и сколько стоит девятка в аптайме

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров6.5K

Простой или не простой, вот в чём вопрос… Звучит философски, но в жизни сисадмина философии мало — куда важнее чёткие показатели. Например, сколько минут (или секунд) сервис может быть недоступен, прежде чем начнутся убытки и паника. Ответ на этот вопрос обычно можно найти в SLA, в котором все хотят увидеть побольше заветных «девяток» аптайма. Но что именно стоит «99,99%», откуда вообще берутся эти «девятки» и зачем SLA нужно ИТ-отделу? Давайте разбираться.

Читать

Терминальное противостояние: Bash, Zsh и Fish — что выбрать сисадмину

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров16K

Для системного администратора оболочка (shell) — это не утилита, а среда, в которой проходит большая часть рабочего дня. Часто работа идёт на удалённых серверах, например на виртуальных машинах UltraVDS, где удобная оболочка экономит часы настройки и отладки. Здесь настраиваются сервисы, правятся конфиги, запускаются скрипты и отлавливаются ошибки, и от того, как она себя ведёт, напрямую зависит скорость работы.

Пока задачи простые, хватает и того, что стоит по умолчанию. Но со временем начинаешь замечать мелочи: неудобное автодополнение, непредсказуемая история, странное поведение алиасов. Один раз промахнулся с rm, другой раз команда не сохранилась — и вот ты уже ищешь альтернативу.

Сегодня чаще всего выбор стоит между Bash, Zsh и Fish. Все они решают одну и ту же задачу — запуск команд — но делают это с разной философией. Разберёмся, как они устроены, где их сильные и слабые стороны, и какую оболочку стоит выбрать под конкретные задачи.

Читать далее

Запускаем сервер в Minecraft: исследование конкурентов

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров11K

Несколько месяцев назад мы запустили свой небольшой бездонатный сервер для игры Minecraft. В статье с разбором технических подробностей я акцентировал внимание на том, что развитие сервера эволюционное: улучшения внедряются на основе обратной связи от игроков.

Теперь, набив собственных шишек, я готов заглянуть к «соседям». Чем они завлекают свою аудиторию? Есть ли уникальные игровые механики? Какие плагины используются и какие ограничения в игровом мире? Paper или Spigot? Velocity или BungeeCord?  

Этот текст подходит даже тем, кто никогда не занимался администрированием и не планировал — в процессе исследования я нашел множество потех.

Читать далее

Внутри контейнеров — bootc

Время на прочтение7 мин
Количество просмотров2.2K

Хабр, привет!

С мая 2025 года стала доступна новая версия Red Hat Enterprise Linux — RHEL 10. Одним из её главных новинок стала поддержка bootc-контейнеров — загружаемых контейнеров, которые можно запускать не только в привычном виде qcow, vmdk и raw-образов виртуальных машин, но и прямо на любимом Bare Metal.

Некоторые аналитики считают технологию крайне перспективной. В нашей практике мы с ней не сталкивались, но это только пока.  Для нас это отличный повод посмотреть на нее поближе.

Спойлер: bootc чем-то напоминает CoreOS и то, как Machine Config из OpenShift взаимодействует с ним. Но bootc применяется уже в отрыве от «родительского» окружения в «реальном мире». 

Читать далее

Варианты реализации GitOps при помощи Argo CD

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.9K

В «Экспресс 42» — подразделении «Фланта», которое консультирует компании по DevOps-практикам, — решили проверить, как можно реализовать GitOps по модели BSA (Base, Service, Application) с помощью Argo CD. Чистый эксперимент на тестовом репозитории.

Мы попробовали четыре подхода — от отдельного ApplicationSet на каждое окружение до матричного генератора — и оценили их по изоляции окружений, соблюдению принципа DRY, поддержке временных стендов, масштабируемости и другим критериям. В статье — кратко о самой модели и каждом варианте с их плюсами и минусами.

Читать далее

Ближайшие события

Postgres 18 async IO – шаг к «взрослым» нагрузкам?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.5K

Давайте честно – пока что Postgres редко используется для действительно больших и нагруженных баз. Этому множество причин, но главная формулируется просто: «не тянет».

У каждого есть своя граница, где Postgres ещё применим, а дальше —уже нет. Обычно это где-то между одним и пятью терабайтами, дальше жить с этим «больно».

База просто не может обработать большой объем данных с той скоростью, которую способны выдать диски.

И вот — Postgres 18, впервые за долгое время, предлагает не косметическую, а фундаментальную новинку. То, что в Oracle есть уже 20+ лет — асинхронный ввод-вывод (аsync IO).

Попробуем посмотреть async IO и ответить на вопрос - стал ли Postgres ближе к «взрослым» нагрузкам?

Читать далее

Балансировка и проксирование L4-трафика в Angie

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.1K

Возможности Angie в качестве веб‑сервера и обратного прокси довольно известны. Но кроме работы на уровне L7 (HTTP), мы можем применять его на L4 (TCP и UDP) в качестве балансировщика и прокси‑сервера. Именно об этой функциональности мы и поговорим в сегодняшней статье.

Читать далее

Рекомендации по обеспечению безопасности системного окружения веб-приложения

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.5K

Всем привет! Опыт защиты высоконагруженных сервисов, в том числе на базе 
1С-Битрикс показывает, насколько критичным с точки зрения обеспечения безопасности веб-приложения является настройка его системного окружения. Защита такого приложения - это не только включение подсистем защиты и своевременные обновления, а комплексный подход, охватывающий все слои ИТ-инфраструктуры. Недостаток в любой ее точке может свести на нет все усилия разработчиков по написанию безопасного кода и привести к серьезным последствиям: от утечки конфиденциальных данных до деградации связанных бизнес-процессов с финансовыми и репутационными потерями.

Данный чек-лист будет полезен при формировании внутренних правил безопасного конфигурирования компонентов системного окружения классических веб-приложений, включая продукты 1С-Битрикс. Очевидно, что все предлагаемые рекомендации, реализованные в конкретных настройках, должны быть гармонизированы с эксплуатационной документацией вендоров и протестированы в вашем ИТ-ландшафте.

Читать далее

Многодисковый NAS/микросервер AOOSTAR WTR MAX

Время на прочтение9 мин
Количество просмотров8K

Когда несколько лет назад (в 21 году) я собирал новый домашний сервер вместо Microserver Gen8, я считал, что он мне прослужит лет десять. Но в этом году концепция поменялась, потому затеял замену.

Читать далее

Сокращаем расходы на Kubernetes: практические подходы для pet-проектов и продакшена

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров6.4K

Привет! Я — Дима, менеджер продукта Managed Kubernetes в Selectel. Каждый день я вижу, как компании разных масштабов — от небольших стартапов до крупных enterprise — переносят свои сервисы в Kubernetes. Это логично: Kubernetes стал стандартом де-факто для оркестрации контейнеров, и с ним проще масштабировать и управлять приложениями.

Но как только кластер растет, почти всегда возникает вопрос: как оптимизировать расходы? Ведь большая часть стоимости — это воркер-ноды, на которых крутятся поды. Значит, первое, на что стоит обратить внимание, — выбор подходящих типов виртуальных машин или серверов. Под катом разберем варианты для разных сценариев: от pet-проектов до продакшен-сервисов.

Под кат →

Мой первый pet-проект: процесс-менеджер synd3

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.4K

Всем привет!

Пишу этот пост, чтобы поделиться своим опытом и получить критику или советы от людей с большим опытом.

Мне 22 года, я из Латвии. По образованию я судовой механик, но уже около 4 лет увлекаюсь программированием. Долгое время это оставалось хобби: пробовал сайты, простые игры — но они не приносили настоящего удовольствия. Я считал, что в программировании нужно было разбираться ещё со школы, и долго не верил, что могу найти себя в этой сфере.

Переломный момент наступил, когда я заинтересовался системным программированием. Каждый раз, когда узнаю, как работает низкоуровневая часть ОС, у меня будто открывается новый мир. Особенно зацепила тема процессорного планирования: все говорят «железо, CPU, видеокарта», но на практике даже реализация планировщика процессов может заметно влиять на производительность.

Читать далее

Основы работы с Terraform в Selectel на примере Managed Kubernetes

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров2.6K

Привет! На связи Андрей Иванов, старший системный администратор по облачным продуктам. Очень часто к нам обращаются клиенты по вопросам автоматизации работы с инфраструктурой. Лучший подход для подобных задач — IaC (Infrastructure as Code), когда весь комплекс элементов и их взаимодействие описывается с помощью кода, вместо настройки вручную. 

Самый известный инструмент для этого — Terraform от компании HashiCorp, который стал отраслевым стандартом для воплощения IaC в жизнь. Сегодня рассмотрим принципы работы с ним, а в качестве примера создадим кластер Managed Kubernetes версии 1.33.5.

Читать далее