Обновить
685.7

IT-инфраструктура *

Инфоцентры + базы данных + системы связи

Сначала показывать
Порог рейтинга
Уровень сложности

Пятьдесят оттенков отказа: стоп слово — Zonal Shift

Время на прочтение10 мин
Количество просмотров2.2K

Gray failure, то есть серый, или частичный отказ, — довольно коварная ситуация, когда система демонстрирует квазирабочее состояние. С одной стороны, по проверкам состояния мы наблюдаем работоспособность ресурса, но когда отправляем на него реальную нагрузку — ничего не работает.

Инциденты прошлого года показали нам, что серые отказы в Yandex Cloud могут приводить к деградации доступности для пользователей. Мы регулярно выявляем системные причины и внедряем улучшения на уровне всей облачной платформы, о чём подробнее уже рассказывали в одной из недавних статей. Но иногда решение проблемы серых отказов может требовать действий на клиентской стороне, которые не всегда очевидны. 

Меня зовут Александр Душеин, я технический лидер команды архитекторов Yandex Cloud и занимаюсь направлением клиентской надёжности. В этой статье я расскажу подробнее, что поможет избегать нештатных ситуаций: 

какая работа по предотвращению серых отказов была проделана на нашей стороне за счёт слаженной работы всей команды;

какие настройки стоит взять на вооружение пользователям Yandex Cloud и какие рекомендации могут быть полезны всем ответственным за Disaster Recovery;

какие инструменты помогают проводить учения по отказоустойчивости инфраструктуры, чтобы выявлять неоптимально настроенные ресурсы. 

Читать далее

От DevOps к платформе: как улучшить взаимодействие команд

Время на прочтение12 мин
Количество просмотров3.5K

Команды разработки и DevOps начинают совместную работу с энтузиазма и взаимного уважения. Но со временем отношения превращаются в холодную войну. В ней нет победителей — только выгоревшие. Разработчики не понимают инфраструктуру, тестировщики хотят странного, безопасники закручивают гайки, DevOps окапываются в обороне, процессы тормозят работу, а CTO хватается за голову. Все стараются, но становится только хуже. Но есть способы это изменить и превратить  конфликты в полезное сотрудничество.

DevOps-команды сегодня — это внутренние поставщики сервисов: от пайплайнов и окружений до документации и архитектурных решений. В этой статье поговорим о том, как выстроить эту работу так, чтобы было удобно и разработчикам, и самим девопсам. Как выйти из роли «пожарной команды», навести порядок в ожиданиях и инструментах, построить платформу и не сгореть.

Чтобы разобраться, где вообще рождаются платформенные практики и кто их использует, давайте посмотрим на разные типы компаний и что конкретно происходит на поле боя.

Читать далее

От LPT_Print до IaC: Хроника Эволюции Системных Администраторов в России. Наша 25-летняя «Одиссея»

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров3K

Мы с тобой, коллега — Системные Администраторы.
Не “инфраструктурные инженеры”, не “DevOps-практики”, не “cloud-специалисты”.

Просто — сисадмины.
Это звание не выдают по результатам онлайн-курсов и не прикрепляют в LinkedIn. Его зарабатывают в душных, перегретых серверных, где запах пыли вперемешку с озоном от ИБП становится запахом профессии. Где вместо open-space — кладовка с розеткой на три киловатта и проводами, похожими на гнездо безумного питона.

Наш путь — это не просто карьера. Это живая эволюция техники, прошедшая через наши руки и нервы: от скрежета SCSI-дисков и светящегося экрана CRT-монитора до кластеров Kubernetes, которые даже потрогать нельзя — всё спрятано в облаке.

Мы — свидетели и участники самой стремительной технологической трансформации последних двадцати пяти лет. Когда-то мы тянули первые «витухи» по потолкам советских зданий, пробивая стены перфоратором, потому что «завтра сдавать сеть в бухгалтерии».
Теперь мы нажимаем пару клавиш в Terraform и поднимаем целые дата-центры. А ведь тогда облаком мы называли сигаретный дым в серверной после ночного релиза.

Мы знаем, что такое физическая боль — тащить 4U сервер без тележки, спотыкаясь о кабель-канал, потому что «сейчас, только вот этот один, и домой». И что такое ментальная боль — когда забыл поставить setlocal enabledelayedexpansion, и кривой .bat-файл превратил NT-домен в цифровой ад.

Наш возраст измеряется не годами, а версиями операционных систем.
Мы взрослели вместе с Windows NT 4.0, Windows 2000, XP, Server 2003… потом 2008, 2012, 2016… А где-то между ними — Slackware, Debian Potato и FreeBSD 4.10, которые учили нас терпению, вниманию и вере в консоль.

Погрузиться в воспоминания

Секреты мультиклауд-FinOps: Как не спускать миллионы рублей впустую при использовании нескольких облаков

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров664

Попробуйте как-нибудь чисто из спортивного интереса объяснить жене, почему в прошлом месяце ваш интернет стоил не 900 рублей, как обычно, а 90 000. Аттракцион, прямо скажем, диковатый, но примерно в таком же положении оказывается ваш ИТ-дир, когда видит счета от всех облачных сервисов одновременно. Что не так? Да примерно все. Каждый провайдер считает по своим правилам, выставляет счет в собственном формате, из-за чего объяснить, за что именно платим, оказывается просто супер-сложно. Но ведь не будешь складывать все яйца в одну корзину. Значит, нужно решать этот вопрос как-то по-другому.

Читать далее

SLO-Scout: AI для автоматического создания SLO и SLA в SRE

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров509

Представьте: у вас десятки микросервисов, миллионы логов и трассировок, а ваша задача — поддерживать SLA и не дать системе сломаться. Ручная настройка SLO (Service Level Objectives) и мониторинг SLI (Service Level Indicators) превращается в кошмар.

SLO-Scout решает эту проблему с помощью AI, анализа телеметрии и автоматизации, позволяя SRE сосредоточиться на надежности, а не на ручной рутине.

Читать далее

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Уровень сложностиСложный
Время на прочтение24 мин
Количество просмотров565

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ.

ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в закладки, чтобы возвращаться и списывать нужные конфиги. Наливайте бочку чая или чего покрепче, постарался изложить все сугубо по делу, много кода спрятал в «раскрывашки», так что не пугайтесь обозначенного выше времени чтения.

Читать далее

PCIe умер, да здравствует CXL

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров100K

Привет, постоянные и не очень читатели!

CXL (Compute Express Link) — свежий стандарт интерконнекта, появившийся в 2019 году. Его главная фича — новый подход для работы с памятью и вычислениями: поддержка когерентного кэша и трафика между процессорами и ускорителями, возможность собирать инфраструктуру как конструктор, гибко распределяя ресурсы, и другой функционал.

В этой статье я подробно расскажу про CXL (и при чём тут PCIe вообще). Кратко пройдёмся по истории этой технологии, посмотрим, что такое интерконнект, разберёмся, как и на чём CXL работает, на каком этапе развития находится и чего ждать в ближайшие годы.

Здесь будет всё, что вы хотели знать про CXL, но лень было искать, так что заваривайте чайничек листового — и приятного чтения! :)

Дропдаун

Видеокарты NVIDIA для enterprise: A2000, T4 и A2 — что выбрать и как арендовать за рубль

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.1K

Чтобы запускать задачи инференса, рендеринга 3D‑графики или обработку видеопотока нужны параллельные вычисления. Серверы на одних только центральных процессорах не справятся, требуются графические ускорители.

В статье рассказываем о трех видеокартах, которые можно арендовать за один рубль при заказе сервера произвольной конфигурации. Смотрим на их технические характеристики, применимость, сравниваем между собой и выбираем оптимум. В конце — небольшая инструкция по добавлению в свою инфраструктуру.

Читать далее

Как мы подключали грибы к нейронкам, собирали кастомные серваки и другие челленджи для гостей Yandex Neuro Scale

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров737

В среду 24 сентября мы провели главную конференцию Yandex Cloud — в этом году под новым названием Neuro Scale. Помимо анонсов всех новинок со сцены команда хотела ярче показать работу новых фич облака на реальных задачах. Поэтому многие интерактивы конференции создавали сами разработчики для разработчиков. 

В этом репортаже мы собрали основные анонсы и попросили самих инженеров рассказать, что было под капотом наиболее интересных зон конференции: 

— как мы дистанционно управляли байком на Serverless Vibe Code Challenge;

— для чего засовывали сосиски в серверную стойку;

— как нейронные сети помогли нам «озвучить» мицелий экзотических грибов чёрных рейши.

Читать далее

Просто о сложном: архитектура фронта для техлида

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров9.1K

Привет, Хабр! Меня зовут Максим Вишневский, я архитектор (в основном фронтенда) и автор небольшого Telegram-канала Вишнёвые истории. Эта статья основана на моём докладе с TeamLead Conf++ 2024.

Сегодня я проведу для вас экскурсию в мир фронтенда и немного поделюсь болями: расскажу, из чего он состоит, как работает, обсудим архитектурные проблемы и почему формочку так долго поставлять в продакшен.

Читать далее

Порт один, а сервисов — много. Учимся дружить Mikrotik с Nginx

Время на прочтение6 мин
Количество просмотров22K

Привет! Я Ваня, системный администратор в Selectel. Представим ситуацию: вам нужно организовать доступ к удаленному офису через Cisco AnyConnect, который по какой-либо причине должен работать на стандартном 443 порте. При этом на том же порте развернут веб-сервер, а позже понадобится там же развернуть FTPS, SSTP и еще 100 500 сервисов, которые используют TLS. Под катом рассмотрим, как решить проблему безопасно и относительно быстро.

Под кат!

Автоматизация банков и финансовых организаций

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров459

Современные банки и другие финансовые организации испытывают потребность в автоматизации с помощью цифровых инструментов. Выполнения рутинных задач программным обеспечением позволяет минимизировать риск человеческих ошибок при расчете процентов по вкладам, проверке кредитных историй, управлении документацией. Основным инструментом цифровизации банков являются Автоматизированные банковские системы (АБС). С ними, в свою очередь, связаны цифровые продукты и сервисы, предназначенные для оптимизации бизнес-процессов.

Читать далее

Разворачиваем базу знаний Outline c SSO и AI в облаке

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2.1K

Привет, с вами снова Александр Константинов из Cloud.ru. Раньше я пользовался Notion, хранил там свои заметки, обучающие материалы, данные по своим стартапам. Но зарубежные SaaS-провайдеры ушли, и моя база превратилась в кирпич: она есть, но легально пользоваться ей невозможно. И это еще позитивный сценарий, потому что провайдер мог просто все безвозвратно удалить.

Сейчас, конечно, появляются другие сервисы, но все-таки у SaaS есть некоторые ограничения. И основное из них в том, что вектор их развития не подвластен пользователю. Плюс данные хранятся где-то там, кто-то ими управляет, но не я. А хочется все-таки делать это самостоятельно — это же моя база.

Я решил развернуть базу-знаний на wiki-движке Outline, потому что это полная замена Notion. У него хорошая функциональность, он простой в работе и с понятным интерфейсом. Что у меня получилось и как такое повторить, подробно рассказал в статье.

Читать дальше

Ближайшие события

Как мы реализовали федеративный вход в MWS Cloud Platform и зачем это вашей компании

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

Привет! Меня зовут Юрий Гуз, я ведущий разработчик команды IAM в MWS Cloud Platform. Мы продолжаем цикл статей о том, как устроен IAM в нашем облаке. Сегодня поговорим о технологии, которая стирает границы между вашей корпоративной IT-инфраструктурой и MWS, — о федерации доступов или просто федерации.

Мы уже рассказывали в статье, как мы делаем IAM для облака MWS. И описали там один из способов зайти в наше облако — использование MTS ID. Способ надёжный и удобный, если MTS ID у вас, конечно, есть. А что, если ваш провайдер удостоверений — это ваш корпоративный Active Directory, Google Workspace или Keycloak? Вам ведь не хочется заводить каждому сотруднику ещё один аккаунт, плодить лишние пароли и ломать уже выстроенные процессы с двухфакторной аутентификацией и ролевой моделью.

На этот случай у нас есть ответ — наша новая фича «Федерация». Она позволяет сотрудникам заходить в MWS с помощью их привычных рабочих учётных записей. Давайте разберёмся, как это работает и зачем нужно.

Читать далее

Масштабируемость под нагрузкой: как 400 RPS раскрывают потенциал B2B системы

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.1K

В этой статье мы подробно рассмотрим одно из нагрузочных тестирований портала Compo B2B, проведенное совместно с компанией Лига Цифрой Экономики. Мы опишем какие инструменты и методики использовались, с какими проблемами столкнулись, как правильно интерпретировать результаты тестирования и почему даже небольшая нагрузка тесно связана с масштабированием.

Читать далее

24 000 чипов NVIDIA и 2600 Rhea1 в действии: как устроен самый мощный европейский суперкомпьютер JUPITER

Время на прочтение6 мин
Количество просмотров1.2K

Европа официально вступила в экзафлопсную эру суперкомпьютеров. В исследовательском центре Юлиха (Германия) начал работу JUPITER — первый европейский суперкомпьютер, способный выполнять квинтиллион (10^18) операций в секунду.

JUPITER объединяет в себе передовые технологии: 24 000 чипов NVIDIA GH200 Grace Hopper, новейшую систему жидкостного охлаждения и модульную архитектуру. Рассказываем, что внутри у крупнейшего суперкомпьютера Европы, сколько он стоит и для каких целей его будут использовать.

Читать далее

Культура экономии в IT: как вовлечь команды в управление облачными расходами

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров747

Хотите лайфхак, как выбесить финдира? Забудьте про задержки в релизах, падения продакшена и критические баги. Все это мелочи. Если хотите по-настоящему вывести его из себя, возьмите за правило никогда не отключать на выходные тестовые инстансы, разверните staging-среду на том же железе, что и продакшен, и настройте автобэкапы сразу в 2-3 региона. А когда получите счет за облако на 800 тысяч вместо 300, надменно спросите – “А при чем тут я?”. Звучит как вольный пересказ “Вредных советов” Г. Остера, согласен. Да и мы с вами не в третьем классе, а значит, вредительско-инфантильный подход к работе просто не допустим. Поэтому в команде надо с самого начала развивать культуру разумного потребления облачных ресурсов, чтобы и код писать с удовольствием, и финансистов до нервного срыва не доводить.

Читать далее

Тестирование – залог предсказуемости и качества (часть 1)

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.2K

Бывает, что важность тестирования часто недооценивается и сводится на уровень простой формальности – посмотреть, работает ли в принципе разработанное решение. Однако, при разработке абсолютно все предусмотреть невозможно. Кроме того, о тестировании разработанных и развертываемых систем часто вовсе забывают и вспоминают, когда все бюджеты уже заложены, проведены тендеры, а при внедрении и использовании вскрываются нюансы и недоработки, или начинаются проблемы с эксплуатацией. На корпоративном рынке самые частые проблемы: тестов не было, техзадание написано криво, подрядчик принес формально дотянутое решение, а по факту оно не будет нормально работать.

Читать далее

Важность масштабирования Kaspersky Security Center

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4.6K

Вопрос масштабирования сервисов достаточно часто, и временами больно, встаёт ребром в самый неподходящий момент, ложа при этом за собой бизнес процессы, и вызывая нервный тик у администраторов.

В этой статье, на реальном примере из моего опыта инженерного обслуживания средств антивирусной защиты Kaspersky, мы с вами разберём шаги по недопущению таких трепещущих ситуаций.

Читать

AI-помощник влияет на счастье пользователей или нет

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров864

Привет, Хабр! С вами Никита Кострикин, руководитель направления из Cloud.ru. Мы с командой запустили AI-помощника Клаудия, чтобы упростить работу с нашим облаком. В статье рассказываю, что он умеет делать, как его троллят пользователи, а еще — какие тулы и агенты находятся внутри, какие вызовы мы преодолели в процессе разработки и что планируем улучшить.

Читать дальше

Вклад авторов