Обновить

Администрирование

Сначала показывать
Порог рейтинга
Уровень сложности

MySQL в Uber

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.9K

Как поддерживать свыше 2300 кластеров MySQL без заметных простоев? В Uber это решают разделением на плоскости данных, управления и обнаружения и строгим приведением фактического состояния к desired state. В материале — анатомия control plane (Odin, Cadence, контроллер с правилами), как устроены плавные и аварийные переключения primary, замена узлов и онлайн-изменения схемы; как discovery на etcd и реверс-прокси даёт стабильный VIP; как наблюдаемость, CDC (Storagetapper→Kafka→Hive) и бэкапы закрывают эксплуатацию. ФВ фокусе — инженерные решения, которые позволяют удерживать 99,99% доступности без ручной магии.

К архитектуре

150 млн чтений/с: как Uber усилил консистентность кэша

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.2K

150 млн чтений в секунду — итог скрупулёзной инженерии кэша. В этом кейсе Uber — как ужесточить консистентность без удушения записи: инвалидация «по пути записи» из слоя запросов, дедупликация по commit-timestamp из БД, сочетание TTL и CDC на бинлогах, плюс измерение «черствости» через Cache Inspector. Разобраны реальные источники stale-данных (лаг CDC, реплики, негативное кэширование) и компромиссы вроде read-your-writes — с практическими схемами, которые масштабируются до сотен миллионов RPS.

Читать кейс

Эффективный мониторинг облачных решений: первые шаги от метрик к асинхронным задачам

Время на прочтение8 мин
Охват и читатели4.5K

Без мониторинга инфраструктуры и сервисов любая проблема с приложением становится сюрпризом, причём обычно неприятным, который случается в самый неподходящий момент. С помощью настроенного мониторинга мы можем обнаружить проблемы до того, как пользователи придут и начнут жаловаться. 

Меня зовут Юлия Рубцова, я ведущий менеджер продукта Yandex Monitoring. В этой серии статей я и мой коллега Владимир Гордийчук @gordiychuk рассказываем про реальные сценарии использования мониторинга облачных решений. Что вас ждёт: мы покажем, как настроить дашборды, быстро проверить гипотезы при расследовании инцидента, а в конце соберём лучшие практики для настройки мониторинга. 

Начнём с базы: что такое мониторинг, для чего он нужен, что такое золотые сигналы, как использовать гистограммы и перцентили. А уже затем рассмотрим сценарии мониторинга асинхронных задач.

Читать далее

Свой прокси DNS сервер для обхода санкций зарубежных сайтов(с использованием VPS)

Время на прочтение4 мин
Охват и читатели49K

Безусловно, тема обхода ограничений изнутри страны сейчас актуальна. Но что делать, если нужно открыть сайты, которые заблокировали пул IP-адресов из РФ? Например, было интересно создать аналог DNS‑сервера вроде comss, который открывает доступ к заблокированным AI, игровым серверам и тому подобному, с чем не смогут помочь обходы DPI (Возможно, эксперты напишут замечания в комментариях).

Один из возможных способов, который получилось реализовать у меня, представлен ниже.

Нам понадобится VPS в локации, через которую мы хотим быть видимы для нужных нам сервисов.

Для примера можно вспомнить Twitch, который заблокировал доступ к просмотру стримов в качестве 1080p и 1440p для пользователей из РФ.

Идём на страницу справки по бета‑тестированию качества 2k на Twitch и смотрим регионы, в которых оно доступно.

Читать далее

Как мы ускорили ввод новых узлов до 40 секунд: надёжная работа на spot-инстансах в Kubernetes с Karpenter

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.3K

В нашей практике DevOps мы столкнулись с задачей оптимизации Kubernetes-кластера в AWS, включая перевод нагрузки на ARM64-инстансы с процессорами Graviton и эффективное использование spot-инстансов. Благодаря Amazon EKS и Karpenter нам удалось ускорить ввод новых узлов до всего 40 секунд и успевать переносить нагрузку при отборе узлов со стороны AWS. При этом мы сохранили привычный набор инструментов Deckhouse для мониторинга и управления — статья подробно рассказывает о нашем опыте и решениях.

Читать далее

Система персональных шпаргалок прямо в терминале

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели13K

Привет, Хабр! Часто ли Вы сталкиваетесь с необходимостью искать в закладках/заметках "ту самую" важную, но редко необходимую команду? git log, который Вы не использовали полгода или спасительный docker compose с десятком флагов. Нередко подобный поиск превращается в пятиминутный квест.

В статье напишем функцию cheat, которая дополнит терминал личной "базой знаний" с Вашим личным перечнем команд. Вводим cheat docker - получаем проверенный список команд мгновенно, без поиска в браузере и чтения мануалов.

Читать далее

Какой была бы Всемирная паутина, если бы вместо WWW был Gopher

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели38K

В начале 90-х Всемирная паутина (World Wide Web) вовсе не была единоличным хозяином сети. У неё был серьезный конкурент — протокол Gopher. Как изменилась бы наша цифровая реальность, если бы в конечном счёте он не утратил популярность? В статье расскажу, что такое Gopher, почему он уступил WWW, и каким мог бы стать современный интернет, если бы он развивался на базе этого протокола.

Читать

Я мигрировал свой монорепозиторий на Bun — вот мой честный отзыв

Время на прочтение2 мин
Охват и читатели12K

Недавно я перенёс Intlayer (решение для i18n) — монорепозиторий, состоящий из нескольких приложений (Next.js, Vite, React, design-system и т. д.) — с pnpm на Bun.

Кратко (TL;DR): если бы я знал заранее, я бы, вероятно, не делал этого.
Я думал, что это займёт пару часов. В итоге ушло около 20 часов.

Меня привлекло обещание «всё в одном» и впечатляющие показатели производительности.
Я попробовал, я собрал — всё билдилось молниеносно, круто.
Затем я сделал коммит… и столкнулся с первой проблемой.

Читать далее

Когда повторы убивают: метастабильные отказы в распределённых системах

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.2K

Бывают сбои, которые не исчезают после устранения причины: система залипает, полезная пропускная способность почти нулевая, а петли обратной связи удерживают отказ. В статье формализуем это как метастабильные отказы, разберем цикл «стабильное → уязвимое → метастабильное», характерные метрики и «скрытую ёмкость». Обсудим практики сохранения полезной пропускной способности под перегрузкой: бюджет повторов, приоритеты и отбрасывание запросов, обслуживание «последних первыми», грамотное управление очередями и автомат защиты.

Читать про метастабильность

Работаем с S3 без интернета: как настроить подключение к S3-совместимому хранилищу через сервисную сеть

Время на прочтение6 мин
Охват и читатели7.8K

Некоторые организации работают с чувствительными данными и обязаны соблюдать строгие нормы информационной безопасности. Использование стандартных подходов, при которых обращения к облачным хранилищам происходят через публичный интернет, создает риск утечки данных, компрометации конфиденциальности и даже нарушения норм регулирующих органов. Поэтому востребованным решением в таких кейсах становится изолированное подключение к S3-совместимым хранилищам через сервисную сеть.

Меня зовут Павел Зимин. Я системный инженер в команде Professional Services Cloud SaaS VK Cloud. В этой статье я расскажу, что такое сервисная сеть и зачем она нужна, а также покажу алгоритм настройки подключения к объектному хранилищу через сервисную сеть на примере Object Storage от VK Cloud.

Читать далее

Ubuntu 25.10 «Questing Quokka»: от бета-версии к финалу — что изменилось

Время на прочтение4 мин
Охват и читатели11K

Привет, Хабр! Пару недель назад мы разбирали бета-версию Ubuntu 25.10, которую Canonical назвала "Questing Quokka". Тогда система была на этапе заморозки пакетов, с акцентом на переход к Wayland и поддержку RISC-V. Теперь релиз вышел, и он стал стабильнее, доработаннее, с новыми возможностями, которые не просто дополняют бету, а делают ОС готовой для ежедневной работы. В статье посмотрим, что появилось в финальной версии, как доработали ключевые компоненты и сделаем общую оценку.

Читать далее

Monq 9.0 — all-in-one платформа наблюдаемости, мониторинга и автоматизации

Время на прочтение17 мин
Охват и читатели8.1K

Ещё пару лет назад на одной из офлайн-встреч мы решили: как только появится возможность, проведём корпоратив в горах. Хотели подниматься на вершины, встречать рассветы в палатках и ловить падающие звёзды где-то над Кавказом. Возможность всё не наступала — проекты, релизы, клиенты, ставка… — но мечта жила. И вот в начале сентября Олег и Никита, наши руководители клиентского сервиса и продаж, просто взяли билеты на Камчатку, собрались в поход и ушли на неделю по Толбачинскому массиву. Без лишних слов, без анонсов. А потом — прислали фото: флаг Monq 9 на фоне вулкана, облака под ногами и подпись «Мы готовы». Подняв этот флаг они даже опередили команду разработки 😀

Мы долго ждали этого релиза и наконец-то мы готовы представить Monq 9.0, новую версию all-in-one платформы наблюдаемости (observability), ИТ-мониторинга и low-code/no-code автоматизации с AIOps функционалом на борту. Monq эволюционировал из событийного «зонтичного» мониторинга, который собирает данные из других систем, в “observability-зонтик”, который с большой производительностью умеет собирать любые данные сам. В этой статье расскажем, что нового появилось в версии 9.0, как устроена платформа и главное – зачем всё это нужно DevOps-инженерам, архитекторам и тимлидам. Поехали!

Читать далее

Time-to-Optimize – ключевая метрика для FinOps, которая реально помогает экономить на инфраструктуре. Вот что она дает

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.5K

Основной метрикой разработки является time-to-market. На него все молятся как на священную корову: считают дни до релиза, выстраивают CI/CD, внедряют DevOps. А вот про то, как быстро можно начать экономить на инфраструктуре после того, как заметили перерасход, почему-то никто не думает. Будто так и надо. Хотя спустить облачный бюджет можно едва ли не быстрее, чем в кафе на Патриках. Стало быть, если time-to-market для облаков не существует, его надо придумать.

Читать далее

Ближайшие события

Изучая DevSecOps: подборка руководств и книг

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Мы собрали открытые книги и статьи ведущих экспертов по кибербезопасности, а также руководства для желающих погрузиться в DevSecOps. Материалы из подборки расскажут, какие ИБ-практики можно называть самыми неэффективными и с чего начать защиту облачных решений. И напомним, что у нас есть открытый курс по основам DevOps-подхода, Kubernetes и современных облачных решений.

Читать далее

Как защитить Kubernetes на уровне ядра Linux

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели9.6K

Как защитить Kubernetes, если злоумышленник попытается выбраться из контейнера на хост? Рафаэль Натали предлагает многоуровневый подход: настройка Security Context, отказ от лишних прав, запуск контейнеров без root-доступа, а также усиление защиты с помощью AppArmor и seccomp.

Читать далее

Как я собирал себе NAS сервер или обретаем независимость своих данных от корпораций

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели39K

Собираю собственный NAS сервер для хранения данных, обретения независимости от западных сервисов, а также ведения своих документов. В последние годы зависимость от облачных сервисов стала проблемой: компании в любой момент могут изменить условия использования или вовсе закрыть сервис (как это произошло с Notion например). Кроме того, платные подписки на хранилища и сервисы накапливаются, а контроль над своими данными теряется.

Подробный разбор сборки и настройки домашнего NAS: выбор SAS-дисков и контроллера, настройка ZFS-пула, установка TrueNAS SCALE, организация резервного копирования в S3 и запуск Docker-сервисов (Immich, Affine, Keycloak, Actual Budget). Небольшой гайд для тех, кто хочет построить своё хранилище и цифровую инфраструктуру под полным контролем.

Читать далее

Искал медь, а нашёл оптику — экономика апгрейда до 1,6 Тбит/с

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели15K

Привет, постоянные и не очень читатели!

Были времена, когда админы дурели от этой прикормки 10 Гбит/c канала, а теперь такая пропускная способность — норма для роутера в прихожей (не у всех, но всё же).

В ЦОДах же и 100 Гбит/c уже давно никого не удивят — у гиперскейлеров (Amazon, Microsoft, Google, Alibaba, экстремистская и запрещённая в России Meta) это дефолт, в энтерпрайзе и бизнесе разных размеров — активно внедряют.

Компании уровня cloud-scale (те, что строят сервисы облачного уровня: Netflix, Spotify, Salesforce, Zoom) и гиперскейлеры уже переходят на 200 Гбит/c и тестируют 400/800 Гбит/c, ну а поскольку 200 мало чем отличается по стоимости инфраструктуры от 400, то некоторые сразу перескакивают, ведь легаси кабельное хозяйство (LC, MPO-12) всё равно не потянет эти апгрейды, надо всё перелопачивать на MPO-16, MPO-32 или новые форматы (QSFP-DD, OSFP).

В общем, накопилось у меня пару идей, как собрать всё это в едином материале: обсудить, где шайба будет через время; подумать, а надо ли оно (апгрейд) вообще — и в довесок затронуть денежные вопросы: всякие CAPEX, TCO/ROI, ₽/(Гбит/c), ($/Gbps) и прочее экономическое непотребство.

Присаживаемся, ложимся или в какой там позе вы читаете — и начинаем.

Дропдаун

Windows последних поколений: шаг вперёд или провал десятилетия?

Время на прочтение12 мин
Охват и читатели11K

С каждым выходом новой версии операционная система от Microsoft всё больше отдаляется от пользователя, а её «нововведения» вызывают всё больше недоумения. Windows становится всё менее удобной и пользователи это чувствуют. Кому‑то всё это нравится, но большинство нормальных людей негодует из‑за неожиданных изменений, а также из‑за того, что некоторые крайне важные вещи так и не были добавлены в Систему спустя долгие годы.

В этой статье я постараюсь описать главные, критические недостатки последних версий Windows, да и старых тоже. Описать то, как довести эту ОС до ума. Описать то, чего не было в этой системе, но стоило бы добавить. Описать то, чего следовало бы изменить, а что убрать.

Примечание: в связи с тем, что все мои компьютеры сейчас заняты и ради написания этой статьи у меня нет возможности полноценно переустановить Windows на каком‑нибудь из компьютеров, да и устройств видеозахвата по HDMI у меня нет, часть скриншотов будет с Виртуальной машины, а часть — из просторов Интернета.

Читать далее

Мониторинг истории активных сессий в базах данных

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.8K

Сегодня проверим Dimension‑UI на задаче мониторинга истории активных сессий в базах данных Oracle, PostgreSQL, ClickHouse и MS SQL Server в режиме реального времени.

История активных сессий (Active Session History, ASH) — очень удобный способ получения информации о работе БД в кратком виде. Когда важно максимально быстро отследить, что происходит с системой в настоящее время, оценить развитие текущей ситуации — это рабочая активность или начало каких‑либо проблем — в том числе, через быстрый просмотр baselines в недавнем прошлом системы и сравнить их с текущими данными.

Изначально, данный подход был разработан и применен в СУБД Oracle начиная с 10g версии. Архитектурно в Oracle это выглядит как плоская таблица в памяти V$ACTIVE_SESSION_HISTORY, в которую с определенным интервалом (стандартно 1 секунда, но его значение можно изменять) записывается состояние каждой активной сессии: идентификатор сессии, SQL‑запроса, процесса операционной системы, текущий статус сессии — в работе или ожидании получения доступа к ресурсу, статистики потребления памяти и проч.. Периодически информация из таблицы в памяти сбрасывается на диск в таблицу DBA_HIST_ACTIVE_SESS_HISTORY репозитория рабочей нагрузки AWR.

Читать далее (трафик 29 Мб)

Лучшие практики настройки кэширования DNS на рабочих станциях Linux в домене

Уровень сложностиСредний
Время на прочтение28 мин
Охват и читатели8K

Привет, Хабр! C вами сегодня Владимир Кудрявцев, Илья Князев и Иван Пономарев.

Дело было вечером, дебажить было нечего. К нам пришел Анатолий, менеджер продукта ALD Pro, и попросил разобраться, с чего это Linux приходит в такую задумчивость от недоступности первых двух DNS-серверов, в то время как Windows вполне нормально справляется с таким сценарием. «Да, как два байта переслать», – подумали мы. И начался квест длиной в две недели.

Материалы будут полезны, даже если вы все ещё используете обычные Linux-системы с ванильными версиями компонентов.

Knock, knock, Neo.