Все потоки
Поиск
Написать публикацию
Обновить

Администрирование

Сначала показывать
Порог рейтинга
Уровень сложности

Чем сети AI / ML отличаются от сетей традиционных дата-центров

Время на прочтение9 мин
Количество просмотров999

Распространение искусственного интеллекта (AI) и машинного обучения (ML) стимулирует рост производительности и эффективности сетей дата-центров. В статье рассмотрены новые требования к AI сетям, отличия трафика AI / ML от трафика традиционных сетей дата-центров, а также технологии адаптации сети Ethernet для высоконагруженного AI трафика, и то, как наши решения помогают оптимизировать AI сети.

Читать далее

Zabbix: Укрощение шторма алертов. От гистерезиса до Telegram и авто-ремедиации

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров5.1K

Привет, Хабр! Меня зовут Максим, я главный системный администратор. Сегодня мы поговорим о боли, знакомой каждому, кто работает с мониторингом: об усталости от алертов. О том самом звонке в 3 часа ночи из‑за службы, которая упала и сама же поднялась. О сотне писем «Host down» после падения одного магистрального коммутатора. Это не просто раздражает — это прямой путь к выгоранию команды и пропущенным реальным инцидентам.

«Шумные» алерты — это не особенность Zabbix, а симптом его неправильного использования. По умолчанию Zabbix, как и любой мощный инструмент, требует тонкой настройки. Без нее он превращается в генератор информационного мусора, который обесценивает саму идею мониторинга. Проблема в том, что постоянный поток нерелевантных уведомлений притупляет бдительность. Инженеры начинают игнорировать оповещения, что катастрофически увеличивает время реакции на настоящие сбои (MTTA/MTTR) и, как следствие, время восстановления сервиса (RTO). Это уже не операционная проблема, а прямой бизнес‑риск.

В этой статье мы построим многоуровневую систему защиты от «шума» в Zabbix. Мы пройдем путь от базовых, но критически важных техник, до продвинутых сценариев автоматизации. Мы научим Zabbix отличать кратковременный всплеск от реальной проблемы, понимать топологию вашей сети, коррелировать несвязанные на первый взгляд события и даже предсказывать проблемы до их возникновения. Финалом будет настройка надежного канала оповещений в Telegram и пример автоматического «самолечения» системы. Никакой теории — только практика, конфиги и команды, готовые к внедрению в прод.

Укротить шторм

Часть 1. Rsync: подробное руководство для админов

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров15K

Привет, Хабр! В арсенале системного администратора и разработчика есть множество инструментов для переноса данных. Мы копируем файлы десятки раз в день: cp для локальных копий, scp для удалённых серверов. Но что если задача сложнее? Нужно не просто скопировать, а синхронизировать два дерева файлов, дёргая по сети лишь изменившиеся данные? Или поддерживать в актуальном состоянии зеркало веб‑контента?

О чём эта статья?
— Фундамент: как правильно путями в rsync и почему слеш в конце решает всё;
— Два основных режима работы: локально, с сервером;
— Разбор флага -a: что скрывается под капотом; — Главные опции: как сделать вывод подробным, а работу — безопасной; — Синхронизация поверх SSH: работа с нестандартными портами; — Самые опасные «грабли» и как их избежать.

Читать далее

Linux Open Port: пошаговое руководство по управлению портами фаервола

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров6.7K

Открытый порт — это не «дырка в фаерволе», а процесс, который слушает сокет. В материале разбираемся, где заканчивается приложение и начинается сетевой фильтр: как корректно отличать listening от доступности снаружи, чем проверять (ss, lsof, nmap), и как на практике управлять правилами в nftables, firewalld и UFW. Поговорим о well-known портах и CAP_NET_BIND_SERVICE, типовых политиках (allow/deny), логировании и безопасной последовательности действий, чтобы не уронить прод. Текст для системных администраторов и DevOps/SRE, которым нужна понятная и проверяемая методика без мифов и магии.

Читать далее

Spark Connect. А нужны ли перемены?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.1K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

Читать далее

Кастомный процессор для OpenTelemetry Collector. А почему бы и нет?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.4K

Всем привет! Меня зовут Артем, я платформенный инженер и в работе часто приходится сталкиваться с Observability‑инструментами. Одним из таких инструментов, о котором я хотел бы рассказать является OpenTelemetry Collector. Это мощный инструмент, который позволяет работать с различной телеметрией и строить гибкие пайплайны для метрик, логов и трейсов.

Но иногда возможностей стандартного набора компонентов не хватает, чтобы справиться с поставленными задачами без использования костылей и изоленты. Тогда на сцену выходят кастомные компоненты для Otel-Collector.

В этой статье я расскажу про свой опыт написания кастомного процессора для otel-collector. Он обогащает спаны данными из CSV‑файла: находит совпадение по атрибуту и добавляет дополнительные поля прямо внутрь трейсов. Мы разберём архитектуру процессора, посмотрим код и конфигурацию, а в конце покажу, как собрать и запустить Collector с этим расширением.

Читать далее

Легендарные костыли в продакшене

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров16K

Нет ничего более постоянного, чем временное решение. Любой айтишник хоть раз лепил костыль на скорую руку — потом перепишем, потом сделаем нормально. Но «потом» обычно не наступает, и в итоге времянка живет в продакшене годами, переживает релизы и смену команд, а иногда становится частью продукта. У индустрии полно баек о том, как костыли превращались в легенды. В этой статье собрал самые интересные случаи из истории ИТ. Приглашаю под кат. 

Читать

2FA ALD Pro. Авторизация пользователей по сертификатам в домене

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.7K

Внедрение двухфакторной аутентификации (2FA) часто воспринимается как сложная и ресурсоемкая задача, особенно в гетерогенных средах. Многие хотят повысить безопасность, используя имеющиеся средства, но не знают, с какой стороны подойти к реализации.

В этой статье я подробно разберу, как настроить двухфакторную аутентификацию с помощью сертификатов на токенах Рутокен для пользователей как родного домена ALD Pro, так и доверенного домена Microsoft Active Directory. Мы пройдем весь путь от инициализации токена и генерации ключей до настройки клиентов Astra Linux Special Edition (ALSE) и получения заветного окна ввода PIN-кода при входе в систему.

Это руководство формата HowTo призвано развеять миф о сложности 2FA и показать, что данный механизм в связке с отечественными решениями готов к работе уже сегодня.

Читать далее

Подключаем SSL от Let's Encrypt

Время на прочтение5 мин
Количество просмотров8.6K

В недавней статье об SSL‑сертификатах, точнее, в комментариях к ней, затронули вопрос, который похоже создает для многих головную боль: как обновлять сертификаты от Let's Encrypt? Ведь сертификаты выдаются на 3 месяца, а потом их надо обновлять.

Конечно, есть Certbot, есть софт, который умеет сам получать и обновлять сертификаты — но вопрос возник именно по тому софту, который сам не умеет (а подключить Certbot почему‑то не получается)

Когда‑то у меня тоже возник такой вопрос, и почему‑то не устроил Certbot — не помню уже точную причину. Решил проблему иначе.

Читать далее

Как улучшить мониторинг и не потерять логи: Zabbix + ELK

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.1K

Привет, Хабр! Меня зовут Сергей, я DevOps-инженер в компании Webest. В работе ежедневно сталкиваюсь с задачами мониторинга и анализа логов, и знаю, как иногда трудно разобраться в причине, почему лег прод в 5:21 утра.

Здесь на помощь приходит Zabbix. Он как верный пес: всегда громко «лает», когда что-то идет не так, и даже может «принести» алерт прямо к тебе с тапочками. Но на этом история не заканчивается. Если нужно понять, что именно сломалось и по какой причине, приходится копать глубже — в мир логов, где живет ELK Stack.

В статье хочу поделиться опытом для чего программы нужны, как дополняют друг друга, каким образом их можно связать и нужно ли.

Читать далее

Проактивное обслуживание для OceanStor Dorado: решаем проблему старения системных SSD

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

Привет! Я руковожу группой технической поддержки и сопровождения в компании «Онланта». Наша команда заметила, что в процессе эксплуатации All‑Flash систем хранения данных OceanStor Dorado 5000 V6 примерно после двух и более лет в работе начинают проявляться дефекты, которые потенциально могут повлиять на доступность данных и работу СХД в целом.

Одна из таких проблем — встроенные M2 SATA SSD накопители. Они используются и как системные, храня на себе ОС контроллера, и как конфигурационные базы данных, и как Coffer — диски, куда сбрасывается Write‑cache при аварийном отключении системы, пока BBU (модуль резервного питания) обеспечивает работу оборудования.

В этой статье — рассказ о том, как мы анализировали, решали и предотвращали подобные неприятности.

Читать далее

Pop!_OS: Мой опыт перехода с Windows на Linux

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров13K

Я пользуюсь компьютерами с эпохи Windows 95 и всегда искал баланс между удобством, свободой и стабильностью. Мой выбор — лицензионное или бесплатное программное обеспечение. За годы я перепробовал множество операционных систем: от Windows до различных дистрибутивов Linux. В этой статье я расскажу, почему после долгих экспериментов я остановился на Pop!_OS от System76, какие у него плюсы и минусы, и как я адаптировал его под себя.

Читать далее

ESOS + Hyper-V: как добиться отказоустойчивости СХД когда «из коробки» её не было

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.4K

История о том, как мы собрали HA-кластер для Hyper-V на почти бесплатных компонентах: ноунейм-СХД, ESOS и пыльных FC-адаптеров. Разобрали все грабли: от падающих LUN'ов до сломанных XFS-разделов. В статье — готовые скрипты и проверенная конфигурация, которые сэкономят вам недели экспериментов.

Читать далее

Ближайшие события

Как мы в Selectel запускали Minecraft-сервер

Время на прочтение12 мин
Количество просмотров9.2K

Два месяца назад мы анонсировали запуск своего игрового сервера в Minecraft. В комментариях, ожидаемо, нас попросили поделиться техническими подробностями и сложностями запуска. Но на старте проекта камней преткновения не так много, ведь задача по развертыванию кубического сервера сводится к тому, что нужно разложить файлы, написать юниты и просто ждать игроков. 

Самая непредсказуемая переменная — действия игроков. За два месяца к нам пришло более 500 «Стивов», чтобы поиграть, покритиковать и попытаться сломать сервер. Именно действия пользователей стали самой сложной и интересной задачей.

Копать

Очередной бенчмарк VictoriaMetrics против Prometheus

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3K

Дело в том, что в какой-то момент, выбирая между Викторией и Прометеусом, я прочитал несколько статей на Хабре. В них речь шла о плюсах Виктории — о том, что она лучше сжимает и хранит данные. Тогда я поверил, однако во время эксплуатации у меня возник ряд вопросов, и я решил провести собственное исследование.

Читать далее

Как попробовать FinOps бесплатно и понять, что это даёт: изучаем платформу FinOps Radar

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров610

Насколько облака удобны и приятны в использовании, настолько же они и непредсказуемы. Особенно, если не перестроить «железную» модель бюджетирования под облачную. В этом случае практически гарантирован исход, при котором инфраструктурные затраты будут превышать планы в полтора, а то и два раза. Сказывается невозможность контролировать расходы вручную. Слишком уж много нюансов и переменных влияет на итоговый счет. Обычно проблему решают специализированные FinOps‑инструменты, но они чаще всего, либо дорогие, а потому не подходят для начинающих, либо попросту не учитывают особенностей российских платформ. Но у FinOps Radar этих недостатков нет.

Читать далее

Логирование (аудит) сессий в PostgreSQL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.7K

В статье рассматривается логирование соединений с базами данных кластера PostgreSQL. Системы мониторинга создают сессии для сбора метрик и проверки доступности экземпляра. Это создаёт большое число записей в диагностическом журнале кластера, затрудняя его анализ. Администраторы ищут возможность отключения логирования для сессий мониторинга. Такая возможность есть только у параметра log_disconnections. Приводится пример, как с его помощью отключить логирование при создании сессии. Также рассматриваются особенности использования расширений pgaudit и pgaudittofile, которые позволяют выводить логирование соединений в отдельный файл аудита.

Читать далее

BPF CPU Scheduler: не нравится стандартный планировщик в Linux? Напиши свой

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.7K

Всем привет! В статье расскажу про относительно новую возможность написания собственных CPU планировщиков для Linux с помощью BPF. Разберёмся, для чего это нужно, как работает, а также посмотрим на примеры уже написанных планировщиков.

Читать далее

Что с IPv6? Вопрос dual-stack'а на DNS-резолверах

Время на прочтение4 мин
Количество просмотров2.9K

Разбираем точку зрения, которую высказали исследователи Момока Ямомото и Тобиас Фибих, опубликовавшие IETF-драфт. Рассказываем, в чем его суть.

Читать далее

Механизм запуска процесса в Linux

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров14K

В этой статье я расскажу о том, что происходит внутри ядра Linux, когда процесс вызывает execve(), как ядро подготавливает стек и как затем передаёт управление пользовательскому процессу для выполнения.

Изучил я этот механизм, когда разрабатывал Zapper — инструмент Linux, удаляющий все параметры командной строки из любого процесса без прав root.

Читать далее