IT-инфраструктура *

Инфоцентры + базы данных + системы связи

СтатьиПостыНовостиАвторыКомпании

onvamneciso 5 сен в 12:44

Один GET и облака нет: роняем прод в надёжном облаке быстро и качественно

Средний

14 мин

11K

Блог компании Альфа-БанкОблачные вычисления * Облачные сервисы * IT-инфраструктура * Информационная безопасность *

Обзор

Сегодня мы уроним прод в Яндекс Облаке, действуя из тестовой среды. В процессе разберемся: что такое сервис метаданных, IAM токен, сервисный аккаунт, зачем сервисные аккаунты привязывают к облачным ресурсам.

А дочитавшие до конца узнают, как понять и предотвратить атаки на облачную инфраструктуру.

Положить прод

+29

Myskat_90 14 мая в 08:00

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Сложный

14 мин

7.1K

Блог компании ФлантБлог компании Московский кредитный банкИскусственный интеллектDevOps * IT-инфраструктура *

Туториал

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления.

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3.

Вперёд!

+29

kubelet 24 апр в 05:30

Kubernetes 1.33: упорядоченное удаление ресурсов, изменение алгоритма CrashLoopBackOff и декларативная валидация

Средний

36 мин

6.6K

Блог компании ФлантDevOps * Kubernetes * Open source * IT-инфраструктура *

Обзор

Сегодня официально выпустили очередную версию Kubernetes — 1.33. Собрали все 64 изменения в одном материале. Из основных нововведений: упорядоченное удаление ресурсов в пространстве имён на основе логических зависимостей и соображений безопасности, декларативная валидация для нативных API-типов, расширение механизма CredentialProvider, доступ подов к информации о топологии кластера, изменение алгоритма выдержки CrashLoopBackOff, обязательная аутентификация при извлечении private-образов из репозиториев и многое другое.

+29

SerjN 24 сен в 08:30

От небольшой мастерской к ML-фабрике: как мы Yandex AI Studio пересобирали

11 мин

4.5K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureИскусственный интеллектМашинное обучение * IT-инфраструктура *

Сегодня на Yandex Neuro Scale 2025 наша ML‑команда представила обновлённую AI Studio — платформу с большим набором инструментов для разработки ИИ‑агентов в единой end‑to‑end‑среде. Среди новинок — визуальный конструктор агентов, поддержка популярных API и реализация протокола MСP, механизмы AI search.

Агентские платформы уже какое‑то время находятся на пике популярности. Поэтому с одной стороны нашей задачей было учесть уже сформированные лидерами отрасли лучшие практики. А с другой — обобщить собственный опыт разработки и внедрения агентов, использующих большие языковые модели, и избавить разработчиков от проблем при инференсе.

Вместе с коллегами из команды разработки Анастасией Каримовой и Дмитрием Рыбалко покажем, как это устроено под капотом:

— какие особенности эксплуатации нам нужно было учесть, чтобы найти баланс между производительностью и качеством;

— как мы сталкивались с особенностями опенсорс‑инструментов для ML и учились справляться с этим разными способами;

— как мы упростили создание голосовых агентов и заодно уменьшили latency запросов.

+28

aa_exarmic 3 сен в 12:34

Развитие Ansible: от фантастического устройства до зрелой экосистемы управления ИТ-инфраструктурой

Простой

16 мин

10K

Блог компании Группа АстраСистемное администрирование * DevOps * IT-инфраструктура * История IT

Обзор

Ansible — один из самых популярных инструментов автоматизации, но многие до сих пор используют его, ограничиваясь лишь командой ansible‑playbook. С 2012 года Ansible вырос из простого инструмента в мощную экосистему, решающую проблемы с зависимостями, тестированием и централизованным управлением. Если вы все еще боретесь с конфликтами версий Python на хосте или пишете Ansible‑контент без тестов — эта статья для вас.

Мы разберем современный инструментарий Ansible — от Execution Environments и Ansible Navigator до Event Driven Ansible и AWX. Вы узнаете, как эти компоненты превращают Ansible в полноценную платформу автоматизации, готовую справляться как с задачами небольших команд, так и с вызовами крупных компаний. А для начала немного истории, ведь название Ansible пришло к нам прямиком из научной фантастики...

+28

K_Kim 20 авг в 09:21

Опасный пассив на балансе: технический долг в вашей инфраструктуре

Средний

13 мин

5.2K

Блог компании К2ТехIT-инфраструктура * Информационная безопасность *

Мнение

Представьте: вы — CTO, перед вами — зеленые дашборды, аптайм 99.9%, клиенты довольны. Но где-то в недрах инфраструктуры тикает бомба замедленного действия. Ее зовут «технический долг», и он накапливается каждый день.

Каждый раз, когда архитектор говорит: «Потом допилим», админ — «Некогда сейчас по стандартам настраивать», а менеджер — «лишь бы работало», компания подписывает кредитный договор. Только вместо банка — невидимый коллектор, а проценты начисляются рисками.

Сегодня поговорим о том, почему классический подход «работает — не трогай» больше не работает, и как системно решать эту проблему.

Разберем реальные кейсы из практики К2Тех и покажем методологию, которая помогает построить управляемый процесс погашения технического долга. Ведь альтернатива — оказаться в новостных заголовках рядом с теми компаниями, которые уже дорого заплатили по счетам.

Спойлер: это не про покупку дорогих железок или найм армии пентестеров. Это про системный подход, автоматизацию и изменение культуры, это непрерывный процесс, которым многие пренебрегают. Харденинг — ваша страховка от кибер-коллекторов, которые приходят без предупреждения.

+28

leshoi 13 авг в 12:00

HAProxy в 2025: от TCP до L7 — балансировка без боли

Средний

21 мин

13K

Блог компании АО «ГНИВЦ»DevOps * IT-инфраструктура * Системное администрирование *

Обзор

Привет, Habr. Сегодня снова поговорим о прокси — это, пожалуй, моя любимая тема, и я рад вернуться к ней. На этот раз речь пойдёт об универсальном солдате в мире балансировки — HAProxy. Этот инструмент уже много лет остаётся стандартом в высоконагруженных системах, но за последние релизы он стал ещё мощнее и гибче.

Напомню, HAProxy (High Availability Proxy) — это высокопроизводительный, отказоустойчивый прокси-сервер и балансировщик нагрузки, способный работать как с HTTP(S), так и с TCP-трафиком. Это делает его идеальным решением не только для веб-приложений, но и для баз данных, почтовых систем, брокеров сообщений и других сервисов.

В этой статье я разберу последнюю доступную версию — 3.2.3, расскажу о ключевых изменениях, особенностях конфигурации и поделюсь приёмами, которые помогают выжать из HAProxy максимум.

Итак, чем же хорош HAProxy как балансировщик и что интересного появилось в новых версиях?

+28

mikhailshpakov 3 июн в 06:05

Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений

Простой

7 мин

3.4K

Блог компании Timeweb CloudРазвитие стартапаОблачные сервисы * NestJS * IT-инфраструктура *

Кейс

Привет, меня зовут Михаил Шпаков, я руковожу разработкой в Timeweb Cloud — это крупный облачный провайдер с большой командой и множеством внутренних и внешних продуктов.

Последние несколько лет в работе стало больше менеджмента: процессы, планирование, встречи, координация команд. Со временем я начал ловить себя на мысли, что очень хочется что-то поделать руками. Вернуться к коду, попробовать собрать продукт от начала и до конца, пройти путь не как менеджер, а как разработчик и автор идеи. Заодно — погрузиться в продуктовую часть, потрогать всё: интерфейсы, фичи, маркетинг, пользовательский опыт.

Так родился statuser.cloud — простой сервис для мониторинга доступности сайтов и серверов. Я хотел сделать его:

— с минималистичным и понятным интерфейсом,

— ориентированным в первую очередь на разработчиков, девопсов, админов,

— с набором действительно нужных фич, ничего лишнего.

В этой статье я расскажу, как вечерами и на выходных делал Statuser (и продолжаю делать): с какими проблемами сталкивался, как выбирал стек, как не бросил проект на полпути — и что получилось в итоге.

+28

a_guzarev 12 дек 2024 в 10:55

Как устроен L3-коммутатор: разбираемся с железом и настройками конфигурации на примере проблемы с котиками

Средний

11 мин

20K

Блог компании YADROСетевые технологии * Сетевое оборудованиеСистемное администрирование * IT-инфраструктура *

L3-коммутаторы именитых брендов, как правило, хорошо отлажены, а редкие сложности с ними решаются готовой прошивкой с патчем. Но если производитель еще растет на рынке или речь о white box-коммутаторах, то сетевой инженер или разработчик фактически остается с проблемами один на один.

Меня зовут Антон Гузарев, я тимлид по разработке ПО для управления сетевыми устройствами в YADRO. Наша команда вдыхает жизнь в железо — создает софт для коммутаторов KORNFELD, которые встают в серверные стойки рядом с СХД. Хочу рассказать, какие типичные проблемы мы встречаем в L3-коммутаторах, с чем они связаны и как их отлаживать. Но для начала мы разберем, как устроен L3-коммутатор на уровне железа, и посмотрим на уровни управления конфигурацией — на примере открытого проекта SONiC. Так мы подготовимся к решению проблемы с доставкой картинок котиков.

+28

ollka_lukianova 9 дек 2024 в 07:00

Решаем задачу моментальной навигации по коду для любого коммита

Средний

13 мин

7.8K

Блог компании Yandex Cloud & Yandex InfrastructureПрограммирование * Go * IT-инфраструктура * Git *

Привет, Хабр! Меня зовут Ольга Лукьянова, я работаю в Yandex Infrastructure, в команде, которая делает системы, сервисы и инструменты для разработчиков. Недавно Яндекс анонсировал новый продукт SourceCraft, который уже собирает вокруг себя сообщество. Последний год я руковожу группой навигации по коду этого проекта.

Мои коллеги на конференциях уже рассказывали про планы развития SourceCraft — платформы от Яндекса для создания исходного кода, управления версиями, тестирования, сборки, развёртывания и сопровождения программных продуктов. А также показывали первый доступный компонент — интеллектуальный помощник для работы с кодом Yandex Code Assistant.
Я открою чуть больше деталей про возможности навигации в нашей платформе, которые появятся в публичном доступе в следующем году и помогут разработчикам не переключаться в IDE, а решать наиболее типовые задачи в одном интерфейсе. В статье — рассказ о том, как мы искали способы добавить функциональность навигации по коду при ревью пул-реквестов и каких результатов уже достигли.

+28

ewolf 22 окт в 13:16

Шина данных поверх Kafka — когда каждому хочется иметь своё число консьюмеров для топика

Средний

10 мин

7.3K

Блог компании AvitoTechОблачные сервисы * IT-инфраструктура * Серверное администрирование *

Обзор

Всем привет! Я Павел Агалецкий, ведущий инженер команды PaaS в Авито — платформы для продуктовых разработчиков. В этой статье я расскажу про построение шины данных поверх Kafka, которая была бы удобна для всех потребителей. Покажу возможные варианты выбора оптимального числа партиций, поделюсь решением, которое мы для этого придумали внутри Авито, и расскажу про результаты его внедрения.

+27

MKostsov 7 авг в 09:57

Российский сервер «Гравитон»: высокая производительность с привкусом страданий админа

6 мин

13K

Блог компании К2ТехСерверное администрирование * Компьютерное железоIT-инфраструктура * IT-компании

Обзор

Привет, Хабр! Я Михаил Косцов, руковожу практикой вычислительной инфраструктуры и систем резервного копирования в К2Тех. Недавно мы тестировали СХД от Аэродиска, а теперь на очереди ещё один отечественный продукт — сервер «Гравитон» С2122ИУ на платформе «Урал».

Российский рынок потихоньку заполняется предложениями от отечественных производителей серверов, но главный вопрос остается открытым: способны ли они удовлетворить потребности бизнеса? Даже у Dell и HPE есть косяки, что уж говорить о новичках. И вот с «Гравитон» получилась интересная история: железо оказалось крепким, а система управления… ей есть куда расти.

В статье попробуем честно ответить на вопросы: насколько созрело российское железо, может ли новый сервер потягаться с Dell R660, и где у него сильные стороны, а где — недоработки.

+27

Gedeonych 20 мая в 11:16

Obsidian для профессионалов: рабочая система заметок на стыке подходов

Средний

7 мин

28K

Управление проектами * Системное администрирование * Подготовка технической документации * IT-инфраструктура * IT-стандарты *

Из песочницы

Recovery Mode

Как совместить порядок классической иерархии и гибкость Zettelkasten в одной базе знаний? Делюсь своим опытом построения эффективной системы заметок в Obsidian для инженеров и IT-специалистов: структура, шаблоны, метаданные, соответствие ITIL и ISO. Если вы хотите, чтобы ваши заметки работали на вас, а не против - эта статья поможет навести порядок и ускорить работу с документацией.

+27

ilnaz_sec 29 апр в 07:26

FreeIPA: как обнаружить атаку злоумышленника на любом этапе Kill Chain

13 мин

4.3K

Блог компании МТСИнформационная безопасность * Системное администрирование * Настройка Linux * IT-инфраструктура *

В последнее время в различных отчетах об атаках и результатах пентестов часто фигурирует FreeIPA — система централизованного управления хостами и группами пользователей, ориентированная на Linux‑инфраструктуру. Можно сказать, что это опенсорс‑альтернатива для MS Active Directory. Хотя FreeIPA не является ключевым компонентом инфраструктуры, из‑за особенностей конфигурирования, она может стать для злоумышленника кратчайшим путем к компрометации организации. Поэтому мы — Ильназ Гатауллин, технический руководитель RED Security SOC и Сергей Орляк, руководитель третьей линии RED Security SOC — решили рассказать о схемах атак на FreeIPA, основных методах их детектирования и расследования.

Мы хотим разобрать целый ряд атак: показать их механику, поделиться правилами корреляции, которые вы сможете использовать для самостоятельного выявления таких инцидентов, и советами по расследованию. Поскольку в итоге получился очень обширный tutorial, мы разделим его на две публикации. Во второй части посмотрим на весь Kill Chain атак на FreeIPA и покажем, как приведенные правила позволят выявлять злоумышленника на любом из этапов.

+27

vvkuz17 25 апр в 11:00

Infrastructure from Code: следующий этап развития IaC на примере Serverless

11 мин

4.2K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureServerless * IT-инфраструктура *

Всем знакома история, когда менеджер спрашивает: сколько времени нужно, чтобы реализовать ту или иную фичу? Менеджеры или заказчики смотрят на это просто: разработка пишет код, эксплуатация деплоит его и следит, чтобы всё надёжно и хорошо работало. Но в жизни всё оказывается гораздо сложнее, при этом разработка и эксплуатация не стоят на месте и развиваются в инструментарии и подходах.

Меня зовут Виктор Кузённый, и за 15 лет в IT я работал Java‑разработчиком на гособоронзаказ, делал высоконагруженные бэкенды в Кинопоиске, а затем подружился с Serverless в Yandex Cloud, и этот опыт позволил мне познакомиться с разными инструментами разработки, языками программирования, а также инструментами деплоя и управления инфраструктурой.

В статье разберёмся детальнее, что такое IfC, в чём его преимущества и недостатки, а также чем он отличается от IaС и как его дополняет.

+27

itcaat 25 янв в 08:17

Погружение в инструменты диагностики Linux. Часть 2 — top

Средний

7 мин

24K

Высоконагруженные системы * Настройка Linux * DevOps * IT-инфраструктура * Системное администрирование *

Туториал

В первой части мы разобрали как работать с sysdig. А сегодня мы максимально подробно разберем такой базовый инструмент диагностики как top. Несмотря на то, что это базовый инструмент и не такой интересный как тот же sysdig, мы не можем обойти его стороной. По ходу мы приправим все теорией и разберем практический пример анализа вывода.

+27

JetHabr 23 дек 2024 в 10:43

Хуже потопа, страшнее пожара: как подготовить свои бэкапы к визиту вируса-шифровальщика

18 мин

23K

Блог компании Инфосистемы ДжетIT-инфраструктура * Информационная безопасность * Резервное копирование * Антивирусная защита *

Туториал

✏️ Технотекст 7

Десятилетиями бэкапы защищали нас в первую очередь от физического выхода из строя оборудования и случайной порчи данных. Хорошая система резервного копирования (СРК) должна была пережить пожар, потоп, а потом оперативно дать возможность бизнесу продолжить нормальную работу. Но появилась другая беда, которая намного вероятнее потопа и от которой не спасают несгораемые перекрытия и физическое разнесение площадок в разные города.

Вирусы-шифровальщики (Ransomware) — это кошмар практически для каждой первой компании. Все чаще злоумышленники шифруют данные, приводя бизнес крупных организаций к простоям, значительным финансовым убыткам и репутационным потерям. И как часто оказывается, только лишь наличие резервной копии не защищает бизнес от подобных угроз, если само по себе резервное копирование спроектировано неверно или без учета современных опасностей.

Цель этого поста — рассказать о существующих методах и технологиях в части систем хранения данных и систем резервного копирования, которые способны сократить урон от вирусов-шифровальщиков и минимизировать потери данных при атаках. Запомните: мало сделать просто бэкап — нужно сделать правильный бэкап. Ну что, велком под кат!

+27

ViRKiS 21 ноя в 13:16

Как я «взломал» адресную книгу Radmin, чтобы не вводить 1000 IP-адресов вручную

Простой

9 мин

4.1K

C# * IT-инфраструктура * Windows * Информационная безопасность * Реверс-инжиниринг *

Из песочницы

Конечно же, взломать – громко сказано, но заголовок рождён эмоциями :-)

Эта история о том, как лень, заставила меня окунуться в реверс-инжиниринг бинарного файла адресной книги Radmin (.rpb).

Внутри – странные заполнители, контрольные суммы, таинственные временные метки и структуры данных, где папки и компьютеры имеют одинаковый размер и бескрайние просторы нулей, о мои глаза!

Результат – opensource утилита для конвертации между RPB и JSON, возможно кому-то пригодится.

Представьте: вы – ответственный за парк из сотен компьютеров. Вам нужно актуализировать таблицу имен и IP-адресов компьютеров или адресную книгу Radmin, или, как в моём случае, использовать список этих записей в другом ПО. Работа трудоёмкая, но я – человек не ленивый, но оптимизированный. Вводить вручную имя, IP, порт, настройки для каждого компьютера – рутина, однообразное щёлканье кнопок! Кажется, жизнь пролетает впустую, так я подумал, когда представил, что мне предстоит это сделать.

Вот и мне довелось писать внутренние ПО по массовому контролю доступности и сбору инфы, а в основном, по массовому сетевому копированию и развертыванию с использованием промежуточных групповых серверов. И уже на этапе бета-тестирования от меня потребовалось внесение информации о сотнях сетевых устройств.

«Эврика! – подумал я. – У меня же есть Radmin, а там есть все адреса! Я экспортирую их и использую себе во благо!».

Эврика длилась ровно до момента, когда я обнаружил, что Radmin экспортирует адресную книгу только в свой собственный формат - rpb, добавили бы csv, с моей точки зрения логично, «Спасибо, разработчики». Документации? Конечно, нет, это же не api и не опенсорс.

Интересное дальше

+26

VladimirNeverov 17 ноя в 12:00

Балансировка нагрузки в Яндексе: новые проблемы роста

13 мин

1.9K

Блог компании Yandex Cloud & Yandex InfrastructureСетевое оборудованиеСетевые технологии * IT-инфраструктура * Open source *

Всем привет, меня зовут Володя. Я работаю в Yandex Infrastructure и занимаюсь развитием систем балансировки нагрузки. В статье расскажу, как развивалась наша новая система управления конфигураций с момента её создания в 2018 году, а ещё о том, как мы переходили на новый Data Plane балансировки и какие новые интересные вызовы это породило с точки зрения массовости задач и управления ресурсами.

Опишу новые проблемы и особенности, в том числе планирование ресурсов для большого динамичного парка клиентов. Также обсудим, какие бывают долговременные негативные последствия у слишком удобных систем балансировки нагрузки и что мы планируем с этим делать.

+26

mikhailshpakov 22 окт в 09:05

Зачем я решил научить Statuser следить за DNS — и что из этого вышло

Простой

4 мин

2.2K

Блог компании Timeweb CloudОблачные сервисы * Развитие стартапаIT-инфраструктура * Веб-разработка *

Кейс

Мы привыкли считать, что если сервер доступен и SSL в порядке — значит, всё под контролем. Но иногда сбой происходит раньше, ещё до того, как запрос дошёл до сервера.

Меня зовут Михаил Шпаков, я создаю и развиваю сервис мониторинга Statuser.

Недавно я общался с руководителем IT-отдела одной компании, которая использует Statuser для мониторинга своих сервисов. Он поделился интересным кейсом: несколько часов подряд у них перестала отправляться почта с корпоративного домена. Сайт работал, сервер был доступен, SSL-сертификат в порядке — всё зелёное, а письма не уходят. Проблема выглядела случайной: часть писем доставлялась, часть возвращалась с ошибкой, а из-за этого срывались заказы и возникали прямые убытки.

Когда их команда начала разбираться, выяснилось, что недавно один из сотрудников сменил почтового провайдера и добавил новые MX-записи в DNS, но старые при этом не удалил. В результате часть писем уходила на старый сервер, который уже не принимал почту, а часть — на новый. Снаружи всё выглядело исправно, но на деле домен был «раздвоен» между двумя почтовыми системами.

После этого разговора я понял, что в Statuser не хватает отдельного типа мониторинга — контроля DNS-записей. HTTP, SSL и Ping могут быть зелёными, но если в DNS остались старые MX, сервис уже фактически неисправен.

Так в Statuser появился новый тип мониторинга — проверки DNS, который помогает замечать изменения, подмены и ошибки в зонах ещё до того, как они превращаются в простои и убытки.

+26

1 2 ...

14 15

17 18 ...

68 69

IT-инфраструктура *

Один GET и облака нет: роняем прод в надёжном облаке быстро и качественно

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Kubernetes 1.33: упорядоченное удаление ресурсов, изменение алгоритма CrashLoopBackOff и декларативная валидация

От небольшой мастерской к ML-фабрике: как мы Yandex AI Studio пересобирали

Развитие Ansible: от фантастического устройства до зрелой экосистемы управления ИТ-инфраструктурой

Опасный пассив на балансе: технический долг в вашей инфраструктуре

HAProxy в 2025: от TCP до L7 — балансировка без боли

Как я по вечерам разрабатывал Statuser — платформу для мониторинга доступности приложений

Как устроен L3-коммутатор: разбираемся с железом и настройками конфигурации на примере проблемы с котиками

Решаем задачу моментальной навигации по коду для любого коммита

Шина данных поверх Kafka — когда каждому хочется иметь своё число консьюмеров для топика

Российский сервер «Гравитон»: высокая производительность с привкусом страданий админа

Obsidian для профессионалов: рабочая система заметок на стыке подходов

Ближайшие события

FreeIPA: как обнаружить атаку злоумышленника на любом этапе Kill Chain

Infrastructure from Code: следующий этап развития IaC на примере Serverless

Погружение в инструменты диагностики Linux. Часть 2 — top

Хуже потопа, страшнее пожара: как подготовить свои бэкапы к визиту вируса-шифровальщика

Как я «взломал» адресную книгу Radmin, чтобы не вводить 1000 IP-адресов вручную

Балансировка нагрузки в Яндексе: новые проблемы роста

Зачем я решил научить Statuser следить за DNS — и что из этого вышло

Вклад авторов