IT-инфраструктура *

Инфоцентры + базы данных + системы связи

Пятьдесят оттенков отказа: стоп слово — Zonal Shift

10 мин

2.2K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureIT-инфраструктура * Системное администрирование * Сетевые технологии *

Gray failure, то есть серый, или частичный отказ, — довольно коварная ситуация, когда система демонстрирует квазирабочее состояние. С одной стороны, по проверкам состояния мы наблюдаем работоспособность ресурса, но когда отправляем на него реальную нагрузку — ничего не работает.

Инциденты прошлого года показали нам, что серые отказы в Yandex Cloud могут приводить к деградации доступности для пользователей. Мы регулярно выявляем системные причины и внедряем улучшения на уровне всей облачной платформы, о чём подробнее уже рассказывали в одной из недавних статей. Но иногда решение проблемы серых отказов может требовать действий на клиентской стороне, которые не всегда очевидны.

Меня зовут Александр Душеин, я технический лидер команды архитекторов Yandex Cloud и занимаюсь направлением клиентской надёжности. В этой статье я расскажу подробнее, что поможет избегать нештатных ситуаций:

• какая работа по предотвращению серых отказов была проделана на нашей стороне за счёт слаженной работы всей команды;

• какие настройки стоит взять на вооружение пользователям Yandex Cloud и какие рекомендации могут быть полезны всем ответственным за Disaster Recovery;

• какие инструменты помогают проводить учения по отказоустойчивости инфраструктуры, чтобы выявлять неоптимально настроенные ресурсы.

+32

AlpineSlowpoke 6 окт в 09:00

От DevOps к платформе: как улучшить взаимодействие команд

12 мин

3.5K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Лаборатория ЧислительDevOps * IT-инфраструктура * Управление сообществом *

Команды разработки и DevOps начинают совместную работу с энтузиазма и взаимного уважения. Но со временем отношения превращаются в холодную войну. В ней нет победителей — только выгоревшие. Разработчики не понимают инфраструктуру, тестировщики хотят странного, безопасники закручивают гайки, DevOps окапываются в обороне, процессы тормозят работу, а CTO хватается за голову. Все стараются, но становится только хуже. Но есть способы это изменить и превратить конфликты в полезное сотрудничество.

DevOps-команды сегодня — это внутренние поставщики сервисов: от пайплайнов и окружений до документации и архитектурных решений. В этой статье поговорим о том, как выстроить эту работу так, чтобы было удобно и разработчикам, и самим девопсам. Как выйти из роли «пожарной команды», навести порядок в ожиданиях и инструментах, построить платформу и не сгореть.

Чтобы разобраться, где вообще рождаются платформенные практики и кто их использует, давайте посмотрим на разные типы компаний и что конкретно происходит на поле боя.

+16

AdminFuture 6 окт в 06:17

От LPT_Print до IaC: Хроника Эволюции Системных Администраторов в России. Наша 25-летняя «Одиссея»

Средний

11 мин

IT-инфраструктура * Облачные сервисы * DevOps * Системное администрирование * Карьера в IT-индустрии

Ретроспектива

Мы с тобой, коллега — Системные Администраторы.
Не “инфраструктурные инженеры”, не “DevOps-практики”, не “cloud-специалисты”.

Просто — сисадмины.
Это звание не выдают по результатам онлайн-курсов и не прикрепляют в LinkedIn. Его зарабатывают в душных, перегретых серверных, где запах пыли вперемешку с озоном от ИБП становится запахом профессии. Где вместо open-space — кладовка с розеткой на три киловатта и проводами, похожими на гнездо безумного питона.

Наш путь — это не просто карьера. Это живая эволюция техники, прошедшая через наши руки и нервы: от скрежета SCSI-дисков и светящегося экрана CRT-монитора до кластеров Kubernetes, которые даже потрогать нельзя — всё спрятано в облаке.

Мы — свидетели и участники самой стремительной технологической трансформации последних двадцати пяти лет. Когда-то мы тянули первые «витухи» по потолкам советских зданий, пробивая стены перфоратором, потому что «завтра сдавать сеть в бухгалтерии».
Теперь мы нажимаем пару клавиш в Terraform и поднимаем целые дата-центры. А ведь тогда облаком мы называли сигаретный дым в серверной после ночного релиза.

Мы знаем, что такое физическая боль — тащить 4U сервер без тележки, спотыкаясь о кабель-канал, потому что «сейчас, только вот этот один, и домой». И что такое ментальная боль — когда забыл поставить setlocal enabledelayedexpansion, и кривой .bat-файл превратил NT-домен в цифровой ад.

Наш возраст измеряется не годами, а версиями операционных систем.
Мы взрослели вместе с Windows NT 4.0, Windows 2000, XP, Server 2003… потом 2008, 2012, 2016… А где-то между ними — Slackware, Debian Potato и FreeBSD 4.10, которые учили нас терпению, вниманию и вере в консоль.

Погрузиться в воспоминания

+20

max_el777 6 окт в 05:36

Секреты мультиклауд-FinOps: Как не спускать миллионы рублей впустую при использовании нескольких облаков

Средний

9 мин

664

Блог компании Практики FinOpsФинансы в ITIT-инфраструктура * Облачные вычисления * Облачные сервисы *

Обзор

Попробуйте как-нибудь чисто из спортивного интереса объяснить жене, почему в прошлом месяце ваш интернет стоил не 900 рублей, как обычно, а 90 000. Аттракцион, прямо скажем, диковатый, но примерно в таком же положении оказывается ваш ИТ-дир, когда видит счета от всех облачных сервисов одновременно. Что не так? Да примерно все. Каждый провайдер считает по своим правилам, выставляет счет в собственном формате, из-за чего объяснить, за что именно платим, оказывается просто супер-сложно. Но ведь не будешь складывать все яйца в одну корзину. Значит, нужно решать этот вопрос как-то по-другому.

nordby 4 окт в 22:33

SLO-Scout: AI для автоматического создания SLO и SLA в SRE

Средний

3 мин

509

DevOps * Google Cloud Platform * IT-инфраструктура * IT-стандарты * Kubernetes *

Обзор

Представьте: у вас десятки микросервисов, миллионы логов и трассировок, а ваша задача — поддерживать SLA и не дать системе сломаться. Ручная настройка SLO (Service Level Objectives) и мониторинг SLI (Service Level Indicators) превращается в кошмар.

SLO-Scout решает эту проблему с помощью AI, анализа телеметрии и автоматизации, позволяя SRE сосредоточиться на надежности, а не на ручной рутине.

ddgudynin 3 окт в 14:00

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Сложный

24 мин

565

Блог компании Cloud.ruМашинное обучение * Искусственный интеллектОблачные сервисы * IT-инфраструктура *

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru.

В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач.

В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ.

ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в закладки, чтобы возвращаться и списывать нужные конфиги. Наливайте бочку чая или чего покрепче, постарался изложить все сугубо по делу, много кода спрятал в «раскрывашки», так что не пугайтесь обозначенного выше времени чтения.

Barseadar 3 окт в 11:53

PCIe умер, да здравствует CXL

Средний

16 мин

100K

Блог компании СЕРВЕР МОЛЛСерверное администрирование * Компьютерное железоIT-инфраструктура * IT-стандарты *

Обзор

Привет, постоянные и не очень читатели!

CXL (Compute Express Link) — свежий стандарт интерконнекта, появившийся в 2019 году. Его главная фича — новый подход для работы с памятью и вычислениями: поддержка когерентного кэша и трафика между процессорами и ускорителями, возможность собирать инфраструктуру как конструктор, гибко распределяя ресурсы, и другой функционал.

В этой статье я подробно расскажу про CXL (и при чём тут PCIe вообще). Кратко пройдёмся по истории этой технологии, посмотрим, что такое интерконнект, разберёмся, как и на чём CXL работает, на каком этапе развития находится и чего ждать в ближайшие годы.

Здесь будет всё, что вы хотели знать про CXL, но лень было искать, так что заваривайте чайничек листового — и приятного чтения! :)

Дропдаун

+65

oneastok 3 окт в 11:00

Видеокарты NVIDIA для enterprise: A2000, T4 и A2 — что выбрать и как арендовать за рубль

Простой

10 мин

3.1K

Блог компании SelectelКомпьютерное железоIT-инфраструктура * IT-компанииСерверная оптимизация *

Обзор

Чтобы запускать задачи инференса, рендеринга 3D‑графики или обработку видеопотока нужны параллельные вычисления. Серверы на одних только центральных процессорах не справятся, требуются графические ускорители.

В статье рассказываем о трех видеокартах, которые можно арендовать за один рубль при заказе сервера произвольной конфигурации. Смотрим на их технические характеристики, применимость, сравниваем между собой и выбираем оптимум. В конце — небольшая инструкция по добавлению в свою инфраструктуру.

+51

SomeEditor 3 окт в 09:45

Как мы подключали грибы к нейронкам, собирали кастомные серваки и другие челленджи для гостей Yandex Neuro Scale

Простой

11 мин

737

Блог компании Yandex Cloud & Yandex InfrastructureИскусственный интеллектIT-инфраструктура * КонференцииDeveloper Relations *

Репортаж

В среду 24 сентября мы провели главную конференцию Yandex Cloud — в этом году под новым названием Neuro Scale. Помимо анонсов всех новинок со сцены команда хотела ярче показать работу новых фич облака на реальных задачах. Поэтому многие интерактивы конференции создавали сами разработчики для разработчиков.

В этом репортаже мы собрали основные анонсы и попросили самих инженеров рассказать, что было под капотом наиболее интересных зон конференции:

— как мы дистанционно управляли байком на Serverless Vibe Code Challenge;

— для чего засовывали сосиски в серверную стойку;

— как нейронные сети помогли нам «озвучить» мицелий экзотических грибов чёрных рейши.

+11

mxmvshnvsk 3 окт в 09:00

Просто о сложном: архитектура фронта для техлида

Средний

14 мин

9.1K

Блог компании Конференции Олега Бунина (Онтико)C# * IT-инфраструктура * Python *

Обзор

Привет, Хабр! Меня зовут Максим Вишневский, я архитектор (в основном фронтенда) и автор небольшого Telegram-канала Вишнёвые истории. Эта статья основана на моём докладе с TeamLead Conf++ 2024.

Сегодня я проведу для вас экскурсию в мир фронтенда и немного поделюсь болями: расскажу, из чего он состоит, как работает, обсудим архитектурные проблемы и почему формочку так долго поставлять в продакшен.

+10

penguingrape 3 окт в 07:00

Порт один, а сервисов — много. Учимся дружить Mikrotik с Nginx

6 мин

22K

Блог компании SelectelIT-инфраструктура * Серверное администрирование * Nginx * Системное администрирование *

Привет! Я Ваня, системный администратор в Selectel. Представим ситуацию: вам нужно организовать доступ к удаленному офису через Cisco AnyConnect, который по какой-либо причине должен работать на стандартном 443 порте. При этом на том же порте развернут веб-сервер, а позже понадобится там же развернуть FTPS, SSTP и еще 100 500 сервисов, которые используют TLS. Под катом рассмотрим, как решить проблему безопасно и относительно быстро.

Под кат!

+83

BPMSoft 2 окт в 13:56

Автоматизация банков и финансовых организаций

Простой

5 мин

459

Блог компании BPMSoftУправление продажами * CRM-системы * IT-компанииIT-инфраструктура *

Обзор

Современные банки и другие финансовые организации испытывают потребность в автоматизации с помощью цифровых инструментов. Выполнения рутинных задач программным обеспечением позволяет минимизировать риск человеческих ошибок при расчете процентов по вкладам, проверке кредитных историй, управлении документацией. Основным инструментом цифровизации банков являются Автоматизированные банковские системы (АБС). С ними, в свою очередь, связаны цифровые продукты и сервисы, предназначенные для оптимизации бизнес-процессов.

-1

alkons 2 окт в 10:20

Разворачиваем базу знаний Outline c SSO и AI в облаке

Средний

13 мин

2.1K

Блог компании Cloud.ruОблачные сервисы * Хранение данных * IT-инфраструктура * Искусственный интеллект

Привет, с вами снова Александр Константинов из Cloud.ru. Раньше я пользовался Notion, хранил там свои заметки, обучающие материалы, данные по своим стартапам. Но зарубежные SaaS-провайдеры ушли, и моя база превратилась в кирпич: она есть, но легально пользоваться ей невозможно. И это еще позитивный сценарий, потому что провайдер мог просто все безвозвратно удалить.

Сейчас, конечно, появляются другие сервисы, но все-таки у SaaS есть некоторые ограничения. И основное из них в том, что вектор их развития не подвластен пользователю. Плюс данные хранятся где-то там, кто-то ими управляет, но не я. А хочется все-таки делать это самостоятельно — это же моя база.

Я решил развернуть базу-знаний на wiki-движке Outline, потому что это полная замена Notion. У него хорошая функциональность, он простой в работе и с понятным интерфейсом. Что у меня получилось и как такое повторить, подробно рассказал в статье.

galantheus 2 окт в 10:16

Как мы реализовали федеративный вход в MWS Cloud Platform и зачем это вашей компании

Средний

7 мин

1.2K

Блог компании MWSРазработка публичных облаков * Информационная безопасность * IT-инфраструктура * Облачные сервисы *

Кейс

Привет! Меня зовут Юрий Гуз, я ведущий разработчик команды IAM в MWS Cloud Platform. Мы продолжаем цикл статей о том, как устроен IAM в нашем облаке. Сегодня поговорим о технологии, которая стирает границы между вашей корпоративной IT-инфраструктурой и MWS, — о федерации доступов или просто федерации.

Мы уже рассказывали в статье, как мы делаем IAM для облака MWS. И описали там один из способов зайти в наше облако — использование MTS ID. Способ надёжный и удобный, если MTS ID у вас, конечно, есть. А что, если ваш провайдер удостоверений — это ваш корпоративный Active Directory, Google Workspace или Keycloak? Вам ведь не хочется заводить каждому сотруднику ещё один аккаунт, плодить лишние пароли и ломать уже выстроенные процессы с двухфакторной аутентификацией и ролевой моделью.

На этот случай у нас есть ответ — наша новая фича «Федерация». Она позволяет сотрудникам заходить в MWS с помощью их привычных рабочих учётных записей. Давайте разберёмся, как это работает и зачем нужно.

+10

IgorN 2 окт в 07:23

Масштабируемость под нагрузкой: как 400 RPS раскрывают потенциал B2B системы

Средний

11 мин

1.1K

Блог компании CompoТестирование IT-систем * Тестирование веб-сервисов * Java * IT-инфраструктура *

Кейс

В этой статье мы подробно рассмотрим одно из нагрузочных тестирований портала Compo B2B, проведенное совместно с компанией Лига Цифрой Экономики. Мы опишем какие инструменты и методики использовались, с какими проблемами столкнулись, как правильно интерпретировать результаты тестирования и почему даже небольшая нагрузка тесно связана с масштабированием.

mClouds_editor 2 окт в 07:20

24 000 чипов NVIDIA и 2600 Rhea1 в действии: как устроен самый мощный европейский суперкомпьютер JUPITER

6 мин

1.2K

Блог компании mClouds.ruIT-инфраструктура * Читальный залКомпьютерное железоСистемное администрирование *

Обзор

Европа официально вступила в экзафлопсную эру суперкомпьютеров. В исследовательском центре Юлиха (Германия) начал работу JUPITER — первый европейский суперкомпьютер, способный выполнять квинтиллион (10^18) операций в секунду.

JUPITER объединяет в себе передовые технологии: 24 000 чипов NVIDIA GH200 Grace Hopper, новейшую систему жидкостного охлаждения и модульную архитектуру. Рассказываем, что внутри у крупнейшего суперкомпьютера Европы, сколько он стоит и для каких целей его будут использовать.

petrovcargoex 2 окт в 05:53

Культура экономии в IT: как вовлечь команды в управление облачными расходами

Простой

11 мин

747

Блог компании Практики FinOpsФинансы в ITОблачные вычисления * Облачные сервисы * IT-инфраструктура *

Обзор

Хотите лайфхак, как выбесить финдира? Забудьте про задержки в релизах, падения продакшена и критические баги. Все это мелочи. Если хотите по-настоящему вывести его из себя, возьмите за правило никогда не отключать на выходные тестовые инстансы, разверните staging-среду на том же железе, что и продакшен, и настройте автобэкапы сразу в 2-3 региона. А когда получите счет за облако на 800 тысяч вместо 300, надменно спросите – “А при чем тут я?”. Звучит как вольный пересказ “Вредных советов” Г. Остера, согласен. Да и мы с вами не в третьем классе, а значит, вредительско-инфантильный подход к работе просто не допустим. Поэтому в команде надо с самого начала развивать культуру разумного потребления облачных ресурсов, чтобы и код писать с удовольствием, и финансистов до нервного срыва не доводить.

rutest-zone 2 окт в 05:40

Тестирование – залог предсказуемости и качества (часть 1)

Простой

4 мин

1.2K

Тестирование IT-систем * IT-инфраструктура * Сетевые технологии *

Бывает, что важность тестирования часто недооценивается и сводится на уровень простой формальности – посмотреть, работает ли в принципе разработанное решение. Однако, при разработке абсолютно все предусмотреть невозможно. Кроме того, о тестировании разработанных и развертываемых систем часто вовсе забывают и вспоминают, когда все бюджеты уже заложены, проведены тендеры, а при внедрении и использовании вскрываются нюансы и недоработки, или начинаются проблемы с эксплуатацией. На корпоративном рынке самые частые проблемы: тестов не было, техзадание написано криво, подрядчик принес формально дотянутое решение, а по факту оно не будет нормально работать.

agseyn 2 окт в 05:08

Важность масштабирования Kaspersky Security Center

Простой

4 мин

4.6K

Информационная безопасность * Антивирусная защита * IT-инфраструктура *

Кейс

Вопрос масштабирования сервисов достаточно часто, и временами больно, встаёт ребром в самый неподходящий момент, ложа при этом за собой бизнес процессы, и вызывая нервный тик у администраторов.

В этой статье, на реальном примере из моего опыта инженерного обслуживания средств антивирусной защиты Kaspersky, мы с вами разберём шаги по недопущению таких трепещущих ситуаций.

Читать

NickElm 1 окт в 14:49

AI-помощник влияет на счастье пользователей или нет

Простой

8 мин

864

Блог компании Cloud.ruИскусственный интеллектIT-инфраструктура * Облачные сервисы *

Привет, Хабр! С вами Никита Кострикин, руководитель направления из Cloud.ru. Мы с командой запустили AI-помощника Клаудия, чтобы упростить работу с нашим облаком. В статье рассказываю, что он умеет делать, как его троллят пользователи, а еще — какие тулы и агенты находятся внутри, какие вызовы мы преодолели в процессе разработки и что планируем улучшить.

1 2 ...

11 12

14 15 ...

440 441

IT-инфраструктура *

Пятьдесят оттенков отказа: стоп слово — Zonal Shift

От DevOps к платформе: как улучшить взаимодействие команд

От LPT_Print до IaC: Хроника Эволюции Системных Администраторов в России. Наша 25-летняя «Одиссея»

Секреты мультиклауд-FinOps: Как не спускать миллионы рублей впустую при использовании нескольких облаков

SLO-Scout: AI для автоматического создания SLO и SLA в SRE

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

PCIe умер, да здравствует CXL

Видеокарты NVIDIA для enterprise: A2000, T4 и A2 — что выбрать и как арендовать за рубль

Как мы подключали грибы к нейронкам, собирали кастомные серваки и другие челленджи для гостей Yandex Neuro Scale

Просто о сложном: архитектура фронта для техлида

Порт один, а сервисов — много. Учимся дружить Mikrotik с Nginx

Автоматизация банков и финансовых организаций

Разворачиваем базу знаний Outline c SSO и AI в облаке

Ближайшие события

Как мы реализовали федеративный вход в MWS Cloud Platform и зачем это вашей компании

Масштабируемость под нагрузкой: как 400 RPS раскрывают потенциал B2B системы

24 000 чипов NVIDIA и 2600 Rhea1 в действии: как устроен самый мощный европейский суперкомпьютер JUPITER

Культура экономии в IT: как вовлечь команды в управление облачными расходами

Тестирование – залог предсказуемости и качества (часть 1)

Важность масштабирования Kaspersky Security Center

AI-помощник влияет на счастье пользователей или нет

Вклад авторов