Обновить
704.35

IT-инфраструктура *

Инфоцентры + базы данных + системы связи

Сначала показывать
Период
Уровень сложности

Один GET и облака нет: роняем прод в надёжном облаке быстро и качественно

Уровень сложностиСредний
Время на прочтение14 мин
Просмотры11K

Сегодня мы уроним прод в Яндекс Облаке, действуя из тестовой среды. В процессе разберемся: что такое сервис метаданных, IAM токен, сервисный аккаунт, зачем сервисные аккаунты привязывают к облачным ресурсам.

А дочитавшие до конца узнают, как понять и предотвратить атаки на облачную инфраструктуру.

Положить прод

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Уровень сложностиСложный
Время на прочтение14 мин
Просмотры7.1K

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления. 

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3.

Вперёд!

Kubernetes 1.33: упорядоченное удаление ресурсов, изменение алгоритма CrashLoopBackOff и декларативная валидация

Уровень сложностиСредний
Время на прочтение36 мин
Просмотры6.6K

Сегодня официально выпустили очередную версию Kubernetes — 1.33. Собрали все 64 изменения в одном материале. Из основных нововведений: упорядоченное удаление ресурсов в пространстве имён на основе логических зависимостей и соображений безопасности, декларативная валидация для нативных API-типов, расширение механизма CredentialProvider, доступ подов к информации о топологии кластера, изменение алгоритма выдержки CrashLoopBackOff, обязательная аутентификация при извлечении private-образов из репозиториев и многое другое.

Читать далее

От небольшой мастерской к ML-фабрике: как мы Yandex AI Studio пересобирали

Время на прочтение11 мин
Просмотры4.5K

Сегодня на Yandex Neuro Scale 2025 наша ML‑команда представила обновлённую AI Studio — платформу с большим набором инструментов для разработки ИИ‑агентов в единой end‑to‑end‑среде. Среди новинок — визуальный конструктор агентов, поддержка популярных API и реализация протокола MСP, механизмы AI search.

Агентские платформы уже какое‑то время находятся на пике популярности. Поэтому с одной стороны нашей задачей было учесть уже сформированные лидерами отрасли лучшие практики. А с другой — обобщить собственный опыт разработки и внедрения агентов, использующих большие языковые модели, и избавить разработчиков от проблем при инференсе.

Вместе с коллегами из команды разработки Анастасией Каримовой и Дмитрием Рыбалко покажем, как это устроено под капотом:

— какие особенности эксплуатации нам нужно было учесть, чтобы найти баланс между производительностью и качеством;

— как мы сталкивались с особенностями опенсорс‑инструментов для ML и учились справляться с этим разными способами;

— как мы упростили создание голосовых агентов и заодно уменьшили latency запросов.

Читать далее

Развитие Ansible: от фантастического устройства до зрелой экосистемы управления ИТ-инфраструктурой

Уровень сложностиПростой
Время на прочтение16 мин
Просмотры10K

Ansible — один из самых популярных инструментов автоматизации, но многие до сих пор используют его, ограничиваясь лишь командой ansible‑playbook. С 2012 года Ansible вырос из простого инструмента в мощную экосистему, решающую проблемы с зависимостями, тестированием и централизованным управлением. Если вы все еще боретесь с конфликтами версий Python на хосте или пишете Ansible‑контент без тестов — эта статья для вас.

Мы разберем современный инструментарий Ansible — от Execution Environments и Ansible Navigator до Event Driven Ansible и AWX. Вы узнаете, как эти компоненты превращают Ansible в полноценную платформу автоматизации, готовую справляться как с задачами небольших команд, так и с вызовами крупных компаний. А для начала немного истории, ведь название Ansible пришло к нам прямиком из научной фантастики...

Читать далее

Опасный пассив на балансе: технический долг в вашей инфраструктуре

Уровень сложностиСредний
Время на прочтение13 мин
Просмотры5.2K

Представьте: вы — CTO, перед вами — зеленые дашборды, аптайм 99.9%, клиенты довольны. Но где-то в недрах инфраструктуры тикает бомба замедленного действия. Ее зовут «технический долг», и он накапливается каждый день.

Каждый раз, когда архитектор говорит: «Потом допилим», админ — «Некогда сейчас по стандартам настраивать», а менеджер — «лишь бы работало», компания подписывает кредитный договор. Только вместо банка — невидимый коллектор, а проценты начисляются рисками.

Сегодня поговорим о том, почему классический подход «работает — не трогай» больше не работает, и как системно решать эту проблему.

Разберем реальные кейсы из практики К2Тех и покажем методологию, которая помогает построить управляемый процесс погашения технического долга. Ведь альтернатива — оказаться в новостных заголовках рядом с теми компаниями, которые уже дорого заплатили по счетам.

Спойлер: это не про покупку дорогих железок или найм армии пентестеров. Это про системный подход, автоматизацию и изменение культуры, это непрерывный процесс, которым многие пренебрегают. Харденинг — ваша страховка от кибер-коллекторов, которые приходят без предупреждения.

Читать далее

HAProxy в 2025: от TCP до L7 — балансировка без боли

Уровень сложностиСредний
Время на прочтение21 мин
Просмотры13K

Привет, Habr. Сегодня снова поговорим о прокси — это, пожалуй, моя любимая тема, и я рад вернуться к ней. На этот раз речь пойдёт об универсальном солдате в мире балансировки — HAProxy. Этот инструмент уже много лет остаётся стандартом в высоконагруженных системах, но за последние релизы он стал ещё мощнее и гибче.

Напомню, HAProxy (High Availability Proxy) — это высокопроизводительный, отказоустойчивый прокси-сервер и балансировщик нагрузки, способный работать как с HTTP(S), так и с TCP-трафиком. Это делает его идеальным решением не только для веб-приложений, но и для баз данных, почтовых систем, брокеров сообщений и других сервисов.

В этой статье я разберу последнюю доступную версию — 3.2.3, расскажу о ключевых изменениях, особенностях конфигурации и поделюсь приёмами, которые помогают выжать из HAProxy максимум.

Итак, чем же хорош HAProxy как балансировщик и что интересного появилось в новых версиях?

Читать далее

Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений

Уровень сложностиПростой
Время на прочтение7 мин
Просмотры3.4K

Привет, меня зовут Михаил Шпаков, я руковожу разработкой в Timeweb Cloud — это крупный облачный провайдер с большой командой и множеством внутренних и внешних продуктов.

Последние несколько лет в работе стало больше менеджмента: процессы, планирование, встречи, координация команд. Со временем я начал ловить себя на мысли, что очень хочется что-то поделать руками. Вернуться к коду, попробовать собрать продукт от начала и до конца, пройти путь не как менеджер, а как разработчик и автор идеи. Заодно — погрузиться в продуктовую часть, потрогать всё: интерфейсы, фичи, маркетинг, пользовательский опыт.

Так родился statuser.cloud — простой сервис для мониторинга доступности сайтов и серверов. Я хотел сделать его:

— с минималистичным и понятным интерфейсом,

— ориентированным в первую очередь на разработчиков, девопсов, админов,

— с набором действительно нужных фич, ничего лишнего.

В этой статье я расскажу, как вечерами и на выходных делал Statuser (и продолжаю делать): с какими проблемами сталкивался, как выбирал стек, как не бросил проект на полпути — и что получилось в итоге.

Читать далее

Как устроен L3-коммутатор: разбираемся с железом и настройками конфигурации на примере проблемы с котиками

Уровень сложностиСредний
Время на прочтение11 мин
Просмотры20K

L3-коммутаторы именитых брендов, как правило, хорошо отлажены, а редкие сложности с ними решаются готовой прошивкой с патчем. Но если производитель еще растет на рынке или речь о white box-коммутаторах, то сетевой инженер или разработчик фактически остается с проблемами один на один. 

Меня зовут Антон Гузарев, я тимлид по разработке ПО для управления сетевыми устройствами в YADRO. Наша команда вдыхает жизнь в железо — создает софт для коммутаторов KORNFELD, которые встают в серверные стойки рядом с СХД. Хочу рассказать, какие типичные проблемы мы встречаем в L3-коммутаторах, с чем они связаны и как их отлаживать. Но для начала мы разберем, как устроен L3-коммутатор на уровне железа, и посмотрим на уровни управления конфигурацией — на примере открытого проекта SONiC. Так мы подготовимся к решению проблемы с доставкой картинок котиков.

Читать далее

Решаем задачу моментальной навигации по коду для любого коммита

Уровень сложностиСредний
Время на прочтение13 мин
Просмотры7.8K

Привет, Хабр! Меня зовут Ольга Лукьянова, я работаю в Yandex Infrastructure, в команде, которая делает системы, сервисы и инструменты для разработчиков. Недавно Яндекс анонсировал новый продукт SourceCraft, который уже собирает вокруг себя сообщество. Последний год я руковожу группой навигации по коду этого проекта.

Мои коллеги на конференциях уже рассказывали про планы развития SourceCraft — платформы от Яндекса для создания исходного кода, управления версиями, тестирования, сборки, развёртывания и сопровождения программных продуктов. А также показывали первый доступный компонент — интеллектуальный помощник для работы с кодом Yandex Code Assistant.
Я открою чуть больше деталей про возможности навигации в нашей платформе, которые появятся в публичном доступе в следующем году и помогут разработчикам не переключаться в IDE, а решать наиболее типовые задачи в одном интерфейсе. В статье — рассказ о том, как мы искали способы добавить функциональность навигации по коду при ревью пул-реквестов и каких результатов уже достигли. 

Читать далее

Шина данных поверх Kafka — когда каждому хочется иметь своё число консьюмеров для топика

Уровень сложностиСредний
Время на прочтение10 мин
Просмотры7.3K

Всем привет! Я Павел Агалецкий, ведущий инженер команды PaaS в Авито — платформы для продуктовых разработчиков. В этой статье я расскажу про построение шины данных поверх Kafka, которая была бы удобна для всех потребителей. Покажу возможные варианты выбора оптимального числа партиций, поделюсь решением, которое мы для этого придумали внутри Авито, и расскажу про результаты его внедрения.

Читать далее

Российский сервер «Гравитон»: высокая производительность с привкусом страданий админа

Время на прочтение6 мин
Просмотры13K

Привет, Хабр! Я Михаил Косцов, руковожу практикой вычислительной инфраструктуры и систем резервного копирования в К2Тех. Недавно мы тестировали СХД от Аэродиска, а теперь на очереди ещё один отечественный продукт — сервер «Гравитон» С2122ИУ на платформе «Урал».

Российский рынок потихоньку заполняется предложениями от отечественных производителей серверов, но главный вопрос остается открытым: способны ли они удовлетворить потребности бизнеса? Даже у Dell и HPE есть косяки, что уж говорить о новичках. И вот с «Гравитон» получилась интересная история: железо оказалось крепким, а система управления… ей есть куда расти.

В статье попробуем честно ответить на вопросы: насколько созрело российское железо, может ли новый сервер потягаться с Dell R660, и где у него сильные стороны, а где — недоработки.

Читать далее

Obsidian для профессионалов: рабочая система заметок на стыке подходов

Уровень сложностиСредний
Время на прочтение7 мин
Просмотры28K

Как совместить порядок классической иерархии и гибкость Zettelkasten в одной базе знаний? Делюсь своим опытом построения эффективной системы заметок в Obsidian для инженеров и IT-специалистов: структура, шаблоны, метаданные, соответствие ITIL и ISO. Если вы хотите, чтобы ваши заметки работали на вас, а не против - эта статья поможет навести порядок и ускорить работу с документацией.

Читать далее

Ближайшие события

FreeIPA: как обнаружить атаку злоумышленника на любом этапе Kill Chain

Время на прочтение13 мин
Просмотры4.3K

В последнее время в различных отчетах об атаках и результатах пентестов часто фигурирует FreeIPA — система централизованного управления хостами и группами пользователей, ориентированная на Linux‑инфраструктуру. Можно сказать, что это опенсорс‑альтернатива для MS Active Directory. Хотя FreeIPA не является ключевым компонентом инфраструктуры, из‑за особенностей конфигурирования, она может стать для злоумышленника кратчайшим путем к компрометации организации. Поэтому мы — Ильназ Гатауллин, технический руководитель RED Security SOC и Сергей Орляк, руководитель третьей линии RED Security SOC — решили рассказать о схемах атак на FreeIPA, основных методах их детектирования и расследования.

Мы хотим разобрать целый ряд атак: показать их механику, поделиться правилами корреляции, которые вы сможете использовать для самостоятельного выявления таких инцидентов, и советами по расследованию. Поскольку в итоге получился очень обширный tutorial, мы разделим его на две публикации. Во второй части посмотрим на весь Kill Chain атак на FreeIPA и покажем, как приведенные правила позволят выявлять злоумышленника на любом из этапов.

Читать далее

Infrastructure from Code: следующий этап развития IaC на примере Serverless

Время на прочтение11 мин
Просмотры4.2K

Всем знакома история, когда менеджер спрашивает: сколько времени нужно, чтобы реализовать ту или иную фичу? Менеджеры или заказчики смотрят на это просто: разработка пишет код, эксплуатация деплоит его и следит, чтобы всё надёжно и хорошо работало. Но в жизни всё оказывается гораздо сложнее, при этом разработка и эксплуатация не стоят на месте и развиваются в инструментарии и подходах.

Меня зовут Виктор Кузённый, и за 15 лет в IT я работал Java‑разработчиком на гособоронзаказ, делал высоконагруженные бэкенды в Кинопоиске, а затем подружился с Serverless в Yandex Cloud, и этот опыт позволил мне познакомиться с разными инструментами разработки, языками программирования, а также инструментами деплоя и управления инфраструктурой.

В статье разберёмся детальнее, что такое IfC, в чём его преимущества и недостатки, а также чем он отличается от IaС и как его дополняет.

Читать далее

Погружение в инструменты диагностики Linux. Часть 2 — top

Уровень сложностиСредний
Время на прочтение7 мин
Просмотры24K

В первой части мы разобрали как работать с sysdig. А сегодня мы максимально подробно разберем такой базовый инструмент диагностики как top. Несмотря на то, что это базовый инструмент и не такой интересный как тот же sysdig, мы не можем обойти его стороной. По ходу мы приправим все теорией и разберем практический пример анализа вывода.

Читать далее

Хуже потопа, страшнее пожара: как подготовить свои бэкапы к визиту вируса-шифровальщика

Время на прочтение18 мин
Просмотры23K

Десятилетиями бэкапы защищали нас в первую очередь от физического выхода из строя оборудования и случайной порчи данных. Хорошая система резервного копирования (СРК) должна была пережить пожар, потоп, а потом оперативно дать возможность бизнесу продолжить нормальную работу. Но появилась другая беда, которая намного вероятнее потопа и от которой не спасают несгораемые перекрытия и физическое разнесение площадок в разные города.

Вирусы-шифровальщики (Ransomware) — это кошмар практически для каждой первой компании. Все чаще злоумышленники шифруют данные, приводя бизнес крупных организаций к простоям, значительным финансовым убыткам и репутационным потерям. И как часто оказывается, только лишь наличие резервной копии не защищает бизнес от подобных угроз, если само по себе резервное копирование спроектировано неверно или без учета современных опасностей.

Цель этого поста — рассказать о существующих методах и технологиях в части систем хранения данных и систем резервного копирования, которые способны сократить урон от вирусов-шифровальщиков и минимизировать потери данных при атаках. Запомните: мало сделать просто бэкап — нужно сделать правильный бэкап. Ну что, велком под кат!

Читать далее

Как я «взломал» адресную книгу Radmin, чтобы не вводить 1000 IP-адресов вручную

Уровень сложностиПростой
Время на прочтение9 мин
Просмотры4.1K

Конечно же, взломать – громко сказано, но заголовок рождён эмоциями :-)

Эта история о том, как лень, заставила меня окунуться в реверс-инжиниринг бинарного файла адресной книги Radmin (.rpb).

Внутри – странные заполнители, контрольные суммы, таинственные временные метки и структуры данных, где папки и компьютеры имеют одинаковый размер и бескрайние просторы нулей, о мои глаза!

Результат – opensource утилита для конвертации между RPB и JSON, возможно кому-то пригодится.

Представьте: вы – ответственный за парк из сотен компьютеров. Вам нужно актуализировать таблицу имен и IP-адресов компьютеров или адресную книгу Radmin, или, как в моём случае, использовать список этих записей в другом ПО. Работа трудоёмкая, но я – человек не ленивый, но оптимизированный. Вводить вручную имя, IP, порт, настройки для каждого компьютера – рутина, однообразное щёлканье кнопок! Кажется, жизнь пролетает впустую, так я подумал, когда представил, что мне предстоит это сделать.

Вот и мне довелось писать внутренние ПО по массовому контролю доступности и сбору инфы, а в основном, по массовому сетевому копированию и развертыванию с использованием промежуточных групповых серверов. И уже на этапе бета-тестирования от меня потребовалось внесение информации о сотнях сетевых устройств.

«Эврика! – подумал я. – У меня же есть Radmin, а там есть все адреса! Я экспортирую их и использую себе во благо!».

Эврика длилась ровно до момента, когда я обнаружил, что Radmin экспортирует адресную книгу только в свой собственный формат - rpb, добавили бы csv, с моей точки зрения логично, «Спасибо, разработчики». Документации? Конечно, нет, это же не api и не опенсорс.

Интересное дальше

Балансировка нагрузки в Яндексе: новые проблемы роста

Время на прочтение13 мин
Просмотры1.9K

Всем привет, меня зовут Володя. Я работаю в Yandex Infrastructure и занимаюсь развитием систем балансировки нагрузки. В статье расскажу, как развивалась наша новая система управления конфигураций с момента её создания в 2018 году, а ещё о том, как мы переходили на новый Data Plane балансировки и какие новые интересные вызовы это породило с точки зрения массовости задач и управления ресурсами. 

Опишу новые проблемы и особенности, в том числе планирование ресурсов для большого динамичного парка клиентов. Также обсудим, какие бывают долговременные негативные последствия у слишком удобных систем балансировки нагрузки и что мы планируем с этим делать.

Читать далее

Зачем я решил научить Statuser следить за DNS — и что из этого вышло

Уровень сложностиПростой
Время на прочтение4 мин
Просмотры2.2K

Мы привыкли считать, что если сервер доступен и SSL в порядке — значит, всё под контролем. Но иногда сбой происходит раньше, ещё до того, как запрос дошёл до сервера.

Меня зовут Михаил Шпаков, я создаю и развиваю сервис мониторинга Statuser.

Недавно я общался с руководителем IT-отдела одной компании, которая использует Statuser для мониторинга своих сервисов. Он поделился интересным кейсом: несколько часов подряд у них перестала отправляться почта с корпоративного домена. Сайт работал, сервер был доступен, SSL-сертификат в порядке — всё зелёное, а письма не уходят. Проблема выглядела случайной: часть писем доставлялась, часть возвращалась с ошибкой, а из-за этого срывались заказы и возникали прямые убытки.

Когда их команда начала разбираться, выяснилось, что недавно один из сотрудников сменил почтового провайдера и добавил новые MX-записи в DNS, но старые при этом не удалил. В результате часть писем уходила на старый сервер, который уже не принимал почту, а часть — на новый. Снаружи всё выглядело исправно, но на деле домен был «раздвоен» между двумя почтовыми системами.

После этого разговора я понял, что в Statuser не хватает отдельного типа мониторинга — контроля DNS-записей. HTTP, SSL и Ping могут быть зелёными, но если в DNS остались старые MX, сервис уже фактически неисправен.

Так в Statuser появился новый тип мониторинга — проверки DNS, который помогает замечать изменения, подмены и ошибки в зонах ещё до того, как они превращаются в простои и убытки.

Читать далее

Вклад авторов