Обновить
1024K+

Системное администрирование *

Лишь бы юзер был доволен

795,36
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

С самого начала у нас был четкий план восстановления, и мы его придерживались: как рассчитать честные RTO и RPO

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.1K

Классическая ловушка при проектировании отказоустойчивости — разрыв между ожиданиями бизнеса и возможностями инфраструктуры. На бумаге в SLA может быть зафиксировано RTO в 4 часа, но если терабайтный бэкап PostgreSQL физически разворачивается 8 часов из-за лимитов дисковой подсистемы, такой SLA не выдержит первого серьезного инцидента.

На практике планы Disaster Recovery (DR) часто пишутся «для галочки» и в полном отрыве от реальной архитектуры. Под катом — техническая изнанка проектирования отказоустойчивости: как приземлить RTO и RPO на реальную инфраструктуру, связать их со стоимостью простоя и взять эти метрики под контроль с помощью правильных инженерных подходов. Также в статью включены практические инструменты: пошаговый чек-лист для безопасного проведения DR-учений и перечень ключевых параметров, которые необходимо непрерывно мониторить для контроля рисков.

Кат

Новости

DNS‑петля: как сервер смотрит сам в себя и не находит выхода

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели7K

Доменные имена не резолвятся, страницы висят, а по IP всё доступно. В логах DNS‑сервера при этом чисто, BIND запущен, конфигурация на первый взгляд выглядит рабочей.

Разбираемся, как одна ошибка в forwarders может отправить DNS‑запросы по кругу и превратить обычный резолвинг в цепочку таймаутов.

Читать далее

Почему cron — самый опасный инструмент в Linux

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели9.9K

Демон cron знаком каждому, кто админит Linux. Он крутит бэкапы, чистит временные файлы и запускает скрипты, о которых все уже давно забыли. Однако многие не знают, что одна строка в crontab способна снести данные, забить диск, устроить форк-бомбу или открыть лазейку для хакера. Под катом я разберу, когда и как именно cron становится опасным, и какие команды помогут держать его в узде.

Читать

Собираем ядро Linux под себя: localmodconfig, modprobed-db, menuconfig

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели4K

Конфигурируем, собираем и устанавливаем ядро Linux на свое железо. Отчищаем ядро от лишних модулей через make localmodconfig и modeprobed-db store, компилируем, обновляем GRUB.

Читать далее

kafkactl — другой взгляд на работу с Kafka

Время на прочтение16 мин
Охват и читатели7.3K

При работе с Apache Kafka рано или поздно возникает необходимость быстро проверить топик, прочитать сообщения или посмотреть состояние группы потребителей (consumer group). Можно применять стандартные инструменты Kafka. Однако на практике они часто оказываются не самыми удобными для повседневной работы. Многие команды получаются длинными, каждый раз требуют передачи параметров подключения и нуждаются в различных CLI-утилитах.

Есть и более легкие решения — например, kcat, который хорошо знаком многим инженерам и часто используется для диагностики Kafka. Но существует и вариант поудобнее — kafkactl.

Привет, Хабр! Меня зовут Сергей Кардапольцев, я технический писатель в Selectel. В этой статье мы познакомимся с kafkactl — CLI-инструментом для работы с Kafka. Посмотрим, чем он отличается от стандартных Kafka-утилит и kcat, а также разберем базовые сценарии работы на примере кластера.

Читать далее →

Реконструкция мониторинга в ЦОД без боли и переучивания персонала

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.8K

В 2013 году в этом ЦОД внедрили систему мониторинга на базе Honeywell. Спустя почти десять лет контроллеры начали зависать, появились ложные сигналы, а после ухода производителя с российского рынка исчез доступ к программному обеспечению и технической поддержке.

Полностью менять систему автоматизации никто не хотел: электрика работала, датчики работали, инженерная инфраструктура тоже. Поэтому на объекте пошли другим путем — заменили только контроллеры и модули ввода-вывода, сохранив существующую автоматику.

В статье покажем, как организовали такую модернизацию, какие инженерные системы подключили к новой диспетчеризации и как решили задачу оповещений через мессенджер.

Читать далее

Настройка мониторинга Zabbix и Datareon Platform через API Центра мониторинга

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.9K

Привет, Хабр!

С вами снова Илья Вязников, инженер сопровождения СОФРОС. Продолжаю делится практическими приёмами и полезными настройками платформы.

В этой статье покажем, как интегрировать Datareon Platform с Zabbix через API Центра мониторинга.

Читать далее

Рунет без Google Login: что теперь делать с авторизацией

Время на прочтение18 мин
Охват и читатели24K

В России снова обсуждают вход на сайты через Google, Apple ID, GitHub и другие иностранные аккаунты. Повод — подписанный закон № 199-ФЗ от 26.06.2026, который добавил в КоАП штрафы за нарушение правил авторизации пользователей.

Но сам запрет появился не сейчас. Базовая норма пришла ещё с 406-ФЗ от 31.07.2023 и с 1 декабря 2023 года живёт в ч. 10 ст. 8 закона № 149-ФЗ «Об информации». Новое в том, что теперь за нарушение есть отдельная статья КоАП — 13.55: для граждан 10–20 тысяч рублей, для должностных лиц 30–50 тысяч, для юрлиц 500–700 тысяч.

Обычного пользователя не штрафуют за сам факт наличия Gmail, Apple ID или GitHub. Но если этот пользователь одновременно владелец российского сайта, приложения или сервиса и оставил там вход через иностранный аккаунт, он уже не «просто пользователь», а «субъект обязанности по 149-ФЗ».

Снаружи всё выглядит как борьба с иностранными кнопками входа, на деле можно разглядеть спор о том, кто держит ключ от аккаунта пользователя.

Читать далее

Вы платили ServiceNow за Ferrari, а ездили на нём в магазин

Время на прочтение5 мин
Охват и читатели5.6K

ServiceNow ушёл в 2022-м, но у многих он до сих пор работает - просто обновлять и продлевать его уже некому. При этом большинство компаний использовали платформу как обычный сервис-деск, переплачивая за десятки неоткрытых модулей. Разбираем, как выбрать замену под то, как вы реально пользовались системой, и не воспроизвести старый бардак на новом месте.

Читать далее

Как мы поднимали файловое облако для команды: Seafile, HTTPS, мобильные клиенты и белый экран на Android

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.3K

Практическая история о том, как для небольшой команды мы подняли частное файловое облако на Seafile, прикрутили HTTPS через Nginx, столкнулись с белым экраном на Android и в очередной раз убедились, что все бывает гораздо проще, чем кажется на первый взгляд.

Читать далее

Как Let's Encrypt, только роднее: автоматическое получение бесплатного RSA DV-сертификата НУЦ

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели11K

DV-сертификаты НУЦ можно получить как с портала ЕПГУ, так и с помощью acme.sh по инструкции.
Информация опубликована командой НУЦ ещё в январе.
Используется модифицированная версия acme.sh v.3.1.2, позволяющая не только выпустить сертификат, но и настроить cron для автоматического обновления.
Очень удобно и работает!

Читать далее

AngaraBase: новая HTAP СУБД

Уровень сложностиСложный
Время на прочтение19 мин
Охват и читатели12K

AngaraBase — OLTP/HTAP СУБД, написанная с нуля на Rust. Совместима с PostgreSQL по протоколу — работает с psql, JDBC, psycopg2 и стандартными драйверами. UNDO-log MVCC без VACUUM, векторизованный исполнитель с SIMD-батчами — транзакции и аналитика под одним SQL и одним снапшотом, без ETL и второго хранилища. Fail-closed контракты ресурсов, USDT-пробы без рестарта, EXPLAIN с разбивкой по фазам исполнения. Dev preview доступен на angarabase.dev.

Читать далее

Многоэтапные сборки в Docker: как уменьшить образ с 1,2 ГБ до 50 МБ

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели16K

Знакомая картина: вы написали микросервис, набросали Dockerfile из четырёх команд — и получили образ на 1,2 ГБ. В единичном случае не страшно, но этот гигабайт гоняется по сети десятки раз в день: при каждом коммите в CI, на preview-окружениях, при деплое в кластеры. В итоге — минуты ожидания пайплайнов, счета за трафик и хранение, плюс лишние системные пакеты с десятками CVE. Показываем на Node.js и Go, как ужать образ с 1,2 ГБ до 50 МБ через multi-stage — без единой строчки правок в коде.

Раскатать без боли →

Ближайшие события

Как безопасно настроить VPS-сервер и защитить сайт, бот и веб-приложение

Время на прочтение19 мин
Охват и читатели12K

С необходимостью запуска кода на сервере сегодня сталкиваются далеко не только профессиональные айтишники. В наше время популярна разработка через ИИ. Любой человек с идеей и доступом к моделям может быстро сгенерировать работающий код. Проблема в том, что люди зачастую слабо представляют, какие базовые уязвимости тащит за собой сгенерированный проект.

На стадии деплоя безопасность критична. Ниже мы разберём на примере защиты сайта и бота, как настроить сервер и проверить код на наличие самых базовых уязвимостей.

Читать далее

Manticore Search + systemd: современный подход к управлению

Время на прочтение6 мин
Охват и читатели9.4K

Если вы запускаете Manticore Search на Linux, в качестве основного инструмента управления стоит выбрать systemd.

На текущий момент это общепринятая практика, хотя ранее существовали определённые ограничения. Да, Manticore Search мог работать под systemd, но интеграция обладала рядом функциональных ограничений. Архитектура демона основана на традиционных подходах Unix; systemd появился позже и хотел от службы совсем другого. Так что настройка работала, но не соответствовала современным требованиям к управлению службами.

Теперь Manticore Search поддерживает нативные уведомления systemd — это и есть главное изменение.

Почему это важно? Потому что устраняется ряд операционных проблем:

Читать далее

OceanBase как БД для Zabbix + онлайн-миграция с PostgreSQL через Flink CDC. Экономия места в 15–18 раз

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели11K

Ещё в 2022 году внедрялся Zabbix у заказчика, нужен он был для мониторинга нескольких MSSQL-серверов и был установлен на MySQL; с тех пор подключали к нему новые хосты, и начал он потихоньку умирать — всё-таки MySQL не для больших объёмов. Проблема миграции стала острой, а я как раз OceanBase последнее время занимаюсь очень активно.

Мне не удалось сразу уговорить заказчика на миграцию основного Zabbix на OceanBase, но была предложена миграция девелоперского Zabbix, который всё равно надо было переносить в целевой сегмент сети, и по результатам этой миграции уже будет принято решение о возможности миграции основного Zabbix, который на MySQL сейчас. Естественно, я согласился, хотя девелоперский Zabbix был на PG, но этот кейс даже более интересный. Мне будет очень интересно услышать отзывы или советы перед миграцией прома.

Итак, поехали.

Не расплываясь в этой статье про преимущества OceanBase, выделю только главное для Zabbix:

Читать далее

«Взрыв поверхности» или «вертикальный срез»: какой подход выбрать при построении MLOps-платформы?

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели8.3K

Привет, Хабр! Меня зовут Кирилл Кулаков, я занимаюсь развитием MLOps-платформы в Uzum Fintech.

Недавно у нас в команде разгорелся спор о том, как правильно разворачивать платформы. Причем разгорелся он уже после того, как мы совместно всё спроектировали, двигались какое-то время в одном инфополе, и я уже развернул довольно большую часть.

И тут коллеги начали задавать вопросы «Почему мы не разворачиваем каждый компонент последовательно, настраивая все досконально?». Для меня это звучало как: «Ты сделал неправильно, сейчас будем разбирать твою работу и от половины откажемся». 

Мы строим MLOps-платформу под широкий спектр AI-задач и по ходу работы постоянно сталкиваемся с архитектурными вызовами и альтернативными решениями. 

В какой-то момент мы поняли: для одной и той же задачи мы можем собрать множество архитектурных вызовов, а потом тестировать такое же множество разных подходов. А время всё ещё не резиновое, как и силы команды. Так что мы сели и серьёзно обсудили наши методы развёртывания ИТ-платформ.

И потом я задумался, а на самом ли деле в разных компаниях и командах бывают настолько разные подходы к этому делу?

В статье предлагаю поисследовать эту тему вместе со мной.

Читать далее

Доступ к VirtualBox и Hyper-V без агента в гостевой ОС — на примере клиента EvertyDesk Lite

Уровень сложностиСложный
Время на прочтение8 мин
Охват и читатели7.6K

Как дать админу доступ к виртуальным машинам на удалённом хосте без агента внутри гостевой ОС — на примере VirtualBox и Hyper-V. Один RDP-движок на оба гипервизора, три бага VirtualBox по дороге и таймаут, который переписал всю архитектуру.

Читать далее

Ищем петли и шторма в L2 сети

Время на прочтение9 мин
Охват и читатели11K

Сеть может «лечь» не из‑за провайдера, не из‑за перегруженного сервера и не из‑за мистики в коммутаторе. Иногда достаточно одной L2-петли: кадры начинают ходить по кругу, broadcast‑трафик превращается в шторм, MAC‑адреса флапают, а пользователи внезапно теряют доступ к DHCP, шлюзам и внутренним сервисам.

Разбираемся, как быстро распознать такую аварию, найти проблемный порт и не допустить повторения.

Читать далее

Тёмная сторона Prometheus: разбираем сравнение векторов на пяти примерах

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.8K

Если вы работаете техническим инженером в отделе эксплуатации, то с вероятностью 99,9% вы знакомы с Prometheus и прекрасно разбираетесь в языке запросов promQL. Но даже в «родной и знакомой» сфере есть области, которые остаются вопросительными пятнами. Например, «Сравнение векторов»/«Сопоставление векторов». Это механизмы promQL, которые применяются не так часто, плохо документированы и неочевидны для понимания. Привет, Хабр! На связи Александр, руководитель кластера надёжности в компании ecom.tech, кластер надёжности занимается SRE, проводит тестирование нагрузкой и обеспечивает стек Observability. Этой статьей я постараюсь сделать вашу жизнь чуточку проще, на примерах объяснив нюансы непростой механики сопоставления.

Читать далее
1
23 ...