Pull to refresh

Comments 166

на подстанции отключились обе линии 110 кВ, но причина пока неизвестна

А сейчас известна? И планируется ли с этим что-то делать?

Запрос в компанию провайдера услуг отправлен, мы ждем ответ от них.

Параллельно, мы обсуждаем возможность дополнительного резервирования питания для тех модулей, жители которых могут не пережить режим -1 ДЦ.

отключились обе линии 110 кВ

Если не секрет — какая примерно вероятность что они обе выключатся одновременно? Просто не очень‑то это похоже на случайную случайность.

ниже спец по энергетике предположил, что на одном из участков, они на одной опоре стояли, которую снес трактор

Тогда бы это был отказ только ДЦ, но судя по статье, это был именно отказ питающей подстанции.

В таком случае, так быстро подачу напряжения не смогли бы возобновить. Да и что это за трактор, что смог снести опору двухцепной ВЛ-110 кВ? Это если только деревянная опора. Скорее всего, срабатывание защиты на отходящей линии опорной подстанции с неуспешным АПВ и последующим отключением по МТЗ второй линии, но это всего лишь мое предположение. Но случай действительно редкий

надо посмотреть на схему электросетей с точками выделения чтобы понять насколько пропадание питания одного и другого источника развязаны. к сожалению энергоснабжающая компания не является публичной и не предоставляет прозрачной информации о топологии систем электрораспределения.

Догадайтесь(С)

Я удивляюсь, как у нас вообще ЕЭС держится, резервирование оборудования ещё при Чубайсе исчезло, а сейчас ещё и нехватка персонала дожлна накладываться.

На РЖД тоже самое. ПАО - это для прибыли акционеров, а не для безопасности и надежности.

У Яндекс изначально подход только на свои сервисы. IaaS у них с боку. И если свои сервисы они дублируют на программном уровне, что может позволить выйти из строя полностью ЦОД(по этому ДГУ и не нужны), то клиентский IaaS так не работает в 99.99% случаев и падение ЦОД там сразу катастрофа. Яндексу не имеет смысла держать ДГУ, по концепции. А хомячки кричат, Яндекс-яндекс, и идут туда не понимая глобальной разницы в подходе к инфраструктуре ЦОД

Судя по тексту статьи это не совсем так. Яндекс надеется, что клиент сделает все правильно, потому что это логично и сравнительно легко сделать. Не то, что Яндекс специально игнорирует, мне кажется, просто живет в идеалистичном мире. Как вы и говорите, в реальности наоборот, люди думают, что никогда невозможно, чтобы сервер Яндекса упал. Совсем другие (виртуальные?) ожидания к реальности. Поэтому пользователи по факту ничего не делают для надежности, возможно даже и нет специалиста в команде.

Очевидно, что питание тут поможет только частично, могут быть и другие причины сбоя. Раз клиенты игнорируют реальность, то можно было бы создать "неубиваемую" версию сервисов типа виртуальных машин, которые автоматически переносятся в другой ДЦ. И брать за эту услугу деньги, конечно. Путь тот, что хочет игнорировать реальность или не хочет в эту реальность углубляться платит деньги за повышенную надежность. Но может получиться, что просто будут тупо выбирать что дешевле, а потом кричать в случае сбоя. Это явно удобнее :)

Скорее клиенты Яндекса представляют облако как единую сущность. Как виртуальные машины будут переезжать между северами кластеров или между ЦОДами, какие задержки между ЦОДами и т.п. клиентов не беспокоит. Они это делегировали специалистам из облака.

Как только клиент начинает сам думать об инфраструктуре, то "неожиданно" оказывается более выгодным арендовать стойки или даже строить собственные ЦОДы, чем доверять свой бизнес чужим дядям за большие деньги.

25 мая 2005 года авария на московской электроподстанции «Чагино» инициировала самый большой в истории России энергокризис. тогда в ДЦ М9 было обесточено два ввода из трех.
Кажется что некоторые не умеют учиться на чужих ошибках. им надо наделать своих.

А значит, у нас Проблема № 1: сразу две точки отказа по питанию с непонятным прогнозом, а дизель‑генераторы !!!просто не рассчитаны на то, чтобы принять такую нагрузку!!!!.

собственно вот и причина. дгу для полной нагрузки - это дорогое удовольствие, но для критических систем обязательное.

у нас нет возможностей с собственными подстанциями и два ввода от разных систем у нас тоже невозможны, хотя питание и идет от основной и резервной линии, но при серьезной аварии внешние линии будут потеряны. при пропадании ээ происходит переход на ибп и запуск ДГУ, который вытягивает всю нагрузку. для некоторых объектов при авариях отрубаются некритичные системы, но все оборудование вытягивается. это вроде классика.

классика говорит, что при такой аварии надо просто вовремя топливо доливать в емкости. при мне так несколько дней работали, пока аварию не ликвидировали. до меня были аварии, когда несколько месяцев на дизелях сидели. вроде у того же яндекса была ситуация в финляндии вроде, когда им полностью пришлось перейти на дизеля на долгий срок.

а когда дгу не рассчитаны на полную нагрузку - я даже не могу сказать как это назвать... возникает вопрос, а зачем тогда такие ДГУ нужны. но это конечно взгляд с моего дивана.

ребята пишут, что ДГУ используется только для питания управляющего контура. сам датацентр потребляет 63МВт. путем поиска в гугл, находим стоимость ДГУ мощностью 3МВт - 100 млн.руб. для покрытия 63 МВт ДГУ необходима 31 станция стоимостью 3,1 млрд.руб. само по себе размещение такого количества оборудования требует не меньшей площади, чем ДЦ. Сколько будет стоить инфраструктура- сложно даже спрогнозировать. Поэтому, вряд ли это решение вопроса.

Датацентры падают, к сожалению, и в Амазон.

я бы посоветовал посмотреть на угольный электрогенератор, 1 ед. вырабатывает 75МВт.

Тут, скорее, надо газовый турбогенератор ставить. И не один. И менять код деятельности в ЕГРЮЛ. И название.

не знаю есть ли у них производство ээ в видах деятельности, но наши регулярно подают сколько ээ было произведено. цифры там правда смешные - в основном результат ежемесячной гонки дгу, но что есть.

по хорошему цод - это более высокая степень развития серверной, но получается не смотря на кучу сертификатов итд цод одного из лидеров рынка проигрывает в автономности моей нищей серверной. я понимаю, что все это записано в договорах и решается другими способами, но размещать что-то критическое - тут надо хорошо думать...

пс автору статьи благодарность - за рассказ какие реальные проблемы могут быть и на что обращать внимание при размещении данных в цодах

А ваша нищая серверная проигрывает по автономности моей Raspberry с павербанком.

Лучше ответить на вопрос, переживают ли клиенты выход из строя вашего цода. Всяко бывает -- пожары, землетрясения, наводнения, ракеты.

Все критичные внутренние сервисы Яндекса переживут утрату одного ДЦ. И большинство клиентов Я.Облака, которые не поскупились на зональную репликацию, тоже переживут.

Обеспечивать высокую доступность в наши дни принято за счёт зонального резервирования в первую очередь, и только во вторую за счёт надёжности отдельной зоны.

ну а что? Амазон же из универсамов стал AWS

Амазон только недавно научился открывать универсамы, а до этого перебивался какой-то электронной коммерцией. Если серьёзно, Амазон уже вынужден в некоторых регионах строить свои электростанции (не подстанции), потому что попросту местные поставщики не дают необходимые мощности.

точно так-же как у амазона сейчас основная капитализация в AWS так же и у яндексе в такси.

Газ бесплатный, можно возле каждого дц ставить 2 автономных генератора

проще строить ДЦ в непосредственной близости от электростанции.

Скорее вблизи энергоузла где есть достаточно свободной мощности. Энергосистемы сложно устроены.

И все равно надо резервировать. 8 часов даунтайма это не шутки.

Я живу в регионе где суммарное потребление датацентрами превышает 4 гвт . В пору новый реактор на АЭС строить

Даже 5-6 реакторов. Они в целом около гигаватта и их надо иногда на плановый ремонт закрывать.

Нормальный план развития региона вообще. Куча ДЦ и куча реакторов. Свободное место засадить любым сельским хозяйством, можно масс теплицы на дешевом электричестве. Получается достаточно высокооплачиваемых рабочих мест, есть массовка из рабочих мест, идеальная экология позволяющая делать экобио премиум еду.

Пока шахтёры в 300 км наращивают добычу угля и на соседней с ними электростанции наращивают выработку электроэнергии. Отличное озеро там зимой температурой не падает ниже +15 воды

Это пойдет на согласование в финансово-экономическое подразделение - а там скучные дядьки спросят:

Какой ущерб от нарушения работы ЦОД на 8 часов, включая компенсацию клиентам, ущерб деловой репутации и оплату овертайма сотрудников? Х рублей. А вероятность повторения события в течение 5 лет? Y%.

А сколько стоит газотурбинная электростанция, ее сопровождение и комплект ИБП для обеспечения времени на ее старт? Z рублей.

И если Z >> X*Y, то отпишутся о нецелесообразности мероприятий. Скучно...

Так наоборот надо делать: свои турбины эксплуатировать, и иметь дешевое электричество, а если они выйдут из строя, то уже тогда пользоваться покупным электричеством. Заодно и ибп не понадобится...

"Пишите технико-экономическое обоснование, приложите все нужные расчеты, заверенные руководителем подразделения" ;)

Пока что известно об одном датацентре Яндекса, работавшем на своем электричестве. К сожалению, не в курсе, чем там всё закончилось..

Какой ущерб от нарушения работы ЦОД на 8 часов, включая компенсацию клиентам, ущерб деловой репутации и оплату овертайма сотрудников? Х рублей. А вероятность повторения события в течение 5 лет? Y%.

Да тут все понятно. При вероятности отключения питания 1 раз в 20 лет, нет смысла тратиться на дизели и бесперебойники. Проще уронить все в ноль, даже с потерей данных, и поднимать 8 часов. "Я" - "Rationality".

я бы посоветовал посмотреть на угольный электрогенератор

Интересно сколько его нужно "запускать". Да и соседи оценят...

Тогда уж лучше смотреть с сторону газотурбинного,

почему-то у нас газогенерация не идет. хотя, казалось бы, газовая сверхдержава и это должно быть основой электрогенерации в стране.

но, проще раз в месяц завезти угля и платить истопникам.

Несколько лет назад в Подмосковье была авария на трубе высокого давления. Хлопок и зарево было видно за 15 км. Газ требует более дорогой инфраструктуры по сравнению с углём.

Угольная пыль взрывается не хуже газа. На Запсиб ТЭЦ всю стену цеха вынесло вместе с конструкциями. И я не сказал бы что инфраструктура дешевле. Газ - трубу воткнул в котел и все. А уголь требует специальных мельниц, бункеров, вогоноопрокидывателей и т.д.

А Вы попробуйте у газовиков такой объём газа получить, чтобы на генерацию хватило. Большинство ГРС как минимум в Москве и ближнем Подмосковье перегружены и инвестпрограмма по увеличению их мощности реализуется, мягко скажем, неспешно.

Надо свое хранилище строить. Или покупать и хранилище и трубу до него.

СУГ дороже (если мы про него, т.к. хранилища не сжиженного природного газа - это уж совсем экзотика). Но даже не в этом суть, всё равно дешевле дизеля. Но вот резервуары для СУГ такого объёма, который нужен, чтобы подобную мощность вытянуть хотя бы сутки, - это опасный производственный объект чуть ли не первого класса опасности (точнее надо глянуть), и требования к его размещению ппц какие строгие, придётся ДЦ посреди большого чистого поля строить.

Здорово, что электричество ходит по 3 проводам!

Можно посреди чистого поля построить только резервную электростанцию.

Для дизелей и для угля тоже, кстати, хороший путь.

Однако, на таких мощностях уже поднимается вопрос воды и отвода тепла. Так что лучше не посреди чистого поля, а на берегу живописной речки.

Однако, на таких мощностях уже поднимается вопрос воды и отвода тепла. Так что лучше не посреди чистого поля, а на берегу живописной речки.

Главное не перестараться со сбросом тепла, чтобы рыбаки ниже по течению сразу уху из речки не черпали :-)

тут зависит от потока речки. Для маленького ручейка тепловое загрязнение в 30МВт может оказаться удивительным.

Открыть Яндекс.Теплицы ?

Яндекс.Круглогодичный купальный сезон

У клятых капиталистов :), французов, атомные станции вполне нормально соседствуют с теплицами. Как понимаю избыток тепла есть.

АЭС строят около источников воды как раз из-за необходимости охлаждения, отдачи тепла. В России в прудах-охладителях рыбов разводят.

Возможно не самая плохая идея. Очень обидно столько тепла терять.

В СССР в теплицах возле электростанций выращивали не только огурцы с томатами, но и цветы к 7 ноября/23 фев/8 марта и даже лимонные плантации были.

Разве не идёт? 45% выработки из газа (18% из угля) за 2023.

для покрытия 63 МВт ДГУ необходима 31 станция

Может, 21?

21 это очень оптимистично. Предполагается, что в нужный момент они все запустятся и штатно выдадут максимум мощности? В жизни так не бывает. Нужно процентов 15 на резерв добавить.

Одна портативная ядерная батарейка вырабатывает 2.5MW, в костюм mk2 влазит 4шт. Осталось раздобыть ещё 53MW и сделать паузу с Factorio

Эээээ, это вообще другая игра. Про нейросеть обидно было, я даже перегуглил (да да, по-деловски) перед тем, как мощность написать.

я просто привел мощность 75МВт, не ориентируясь на игру. просто хотел подчеркнуть, что угольные ЭГ - явление распространенное. преимущества - в независимости от сбоев инфраструктуры и высокая энергоемкость угля. ну или дизельные ставить 21 штуку, и подземный резервуар, но дизеля - намного более хлопотное дело.

Датацентр точно не потребляет 63 МВт, это мощность установленных трансформаторов, а она всегда выше, чем уровень потребления. Но Вы правы, полноценное резервирование установками ДГУ чрезвычайно дорогостоящее мероприятие, так же как и обслуживание такого парка.

Типовое проектирование ДГУ именно так и видит эту ситуацию - мощность ДГУ не полностью покрывает потребности. Есть такое понятие - техникоэкономическое обоснование

маловероятные ситуации, которые случаются раз в 10–20 лет, вполне могут оказаться реальностью

у Россетей целые регионы отключаются из-за аварий на магистральных подстанциях. И на 110кВ в этом случае вообще незаметная авария.
Как-то попадалось утверждение что у Россетей нет линейного персонала в Москве - зарплаты ниже рынка и они вынуждены возить персонал из других регионов, где они еще есть, в командировку. Можно предположить что в регионе растет технический долг по обслуживанию инфраструктуры и он все чаще будет проявляться авариями.

Я бы сказал что в энергетике зарплаты вообще ниже рынка. В 2000-х страну поднимали за счёт энергетики, и сейчас такая же история.

С чего-то же должна быть премия у топ менеджеров. Сгорит оборудование - проведут тендер, освоят деньги. Попросят у правительства еще. Недавно в новостях была замечательная история про почти 3 миллиарда рублей на умные счетчики в Дагестане - ни денег, ни умных счетчиков.

Энергокомпания получила 2,8 млрд рублей из федерального бюджета, чтобы внедрить в Дагестане комплексную систему учёта электроэнергии.

Что касается зарплат в сетевых компаниях, там есть тариф и его долька для компании. Тариф проверяется ФАС, и ФАС спрашивает - а почему такие большие зарплаты? И они уменьшаются... Тариф государство придерживает, чтобы экономику не уложить. По крайней мере такие оправдания говорят.

У топ-менеджеров своя кухня. Нужны поводы, достижения для премий. Нарисуют достижений, будут премии. :-)

Ещё одна причина нехватки персонала - это когда на ПС один убежал от БПЛА, а другой не успел. Народу не нравится за свою обычную зарплату играть в СВО, и валят стройными рядами.

К слову командировки на новоприсоединённые территории оплачиваются неплохо. Но ездить в хорошо заметном синем КАМАЗЕ в зоне действия дронов, действительно, аттракцион.

Это да, и не только у энергетиков. ЦБ самых достойных кандидатов туда отправляет.

Мне рассказывали, что московские менеджеры (ПАО, ведомств и т.п.) ни в Крым, ни туда, не ездят и крайне избегают возникновения такой необходимости.

Надо сделать компьюты с поддержкой ДГУ и брать за них 30% экстра кост.

А главное, можно ничего не делать. Если опять отключат электричество и нарушишь SLA, просто возвращаешь 30% от чека за отчётный период. Профит.

Было в девяностых: зашёл дежурный в компьютерный класс, сказал, закругляйтесь, через 10 минут отрубаю рубильник. Через 10 минут заходит, все ускоренно доделывают лабы, только б сохраниться, сохраниться (на дискету не быстро). Он вырубает. Все сидят в шоке, кто-то схватился руками за голову. Дежурный такой, с ленцой, врубает рубильник обратно со словами, ну ладно, сохраняйтесь...

Дело в том, что эта шутка не совсем шутка. И сначала история была про класс терминалов.

Раз у вас уже есть ИБП

Для такого плавного переключения рядом с ДГУ часто стоят источники бесперебойного питания (ИБП),

, то не было ли у вас мысли эти ИБП использовать также в качестве хранилища энергии от зелёной энергетики?

Типа, днём заряжаем их от солнечных панелей, в час высокой нагрузки (когда она там, в 20:00 начинается?..) немного используем (ну, например, до 60% остаточного заряда), назавтра снова заряжаемся от солнца.

В Москве (где, примерно, и расположены дата-центры) одна солнечная панель будет вырабатывать около 1.15кВтч/сут на квадратный метр в солнечном мае. Для питания 63МВт потребуется где-то в 63 тысячи раз больше солнечный батарей и площади. Это уже очень дофига места и обслуживания, а если ещё брать зимние месяцы, то становится совсем невероятно.

а разве циклы подзарядки-разрядки не изнашивают аккумуляторы быстрее, чем простое их хранение?

Вот поэтому умные люди из Uptime Institute в требованиях к ЦОД Tier III поступили очень мудро, написав там, что источник электропитания ЦОДов такого уровня это ваша личная электростанция (on-site power production system, цитата по "Data Center Site Infrastructure.
Tier Standard: Topology" от Uptime Institute). Внешние электросети это так, вспомогательная система для снижения эксплуатационных расходов. А не "ДГУ как третий, резервный источник", он как раз по стандарту первый (причём резервированный по N+1)

Сиречь данный ЦОД Яндекса максимум Tier II. Расчётная недоступность 22 часа в год. 9:57 на этой аварии выбрали, ещё на одну такую же осталось)

Справедливо, спасибо.

Uptime Institute ставит в основу собственную генерацию, считая это решение универсальным, не раскрывая дизайн национальных сетей электропитания, их отказоустойчивости и т.п..  Uptime Institute смотрит на картинку с т.з. только инфраструктуры датацентров и прав в этом.

Яндекс живет/жил в другой парадигме, традиционно отвечая за все слои: от болта в конструкции ДЦ, до любого процесса в любом контейнере и до последнего байта в клиента. Любые наши сервисы обязаны жить в режиме -1ДЦ.


С появлением нового вида инфраструктурных угроз и нового вида workload - нужны новые решения и к инженерной инфраструктуре, очевидно, мы это решение найдем.

Вот поэтому умные люди из Uptime Institute в требованиях к ЦОД Tier III поступили очень мудро, написав там, что источник электропитания ЦОДов такого уровня это ваша личная электростанция (on-site power production system, цитата по "Data Center Site Infrastructure.

Сейчас быстренько полистал, Яндекс вроде даже нигде не пишет, что у них Tier 3 дата-центры, или уже убрали.

Там на сайте была обтекаемая формулировка "запросить письмо о Tier III" в разделе документов, покрытых мраком и NDA.

У них там явно не написано. Но в одной из статей написано что они даже круче Tier III

 Проблема № 1: сразу две точки отказа по питанию с непонятным прогнозом, а дизель‑генераторы просто не рассчитаны на то, чтобы принять такую нагрузку.

А клиентов, которые заезжают своими продами в ваше облако, вы предупреждаете о том, что в ваших ЦОДах нет аварийного питания от ДГУ ?

А цвет проводов тоже указывать?

Клиентам пердлагают SLA и сертификацию ДЦ. А конкретный метод реализации этих сертификатов или условий SLA клиентов волновать не должен.

Все эти вот рекламные ходы типа "у нас есть ДГУ на всю нагрузку" звучат, конечно, хорошо, но в статье отлично описано, что содержать такие вот ДГУ в рабочем стостоянии практически невыполнимая задача для ДЦ в мегаполисе, и выходит, что такой клейм это скорее хвастовство. Да и я бы на месте клиента, увидев, что ДЦ обещает дизельную генерацию на 70МВТ, очень сильно задумался о том, как это обещание реализуют и как оно будет работать.

Тут же, наоборото, ребята сделали публичный разбор и анализа рисков, и инцедента. Учить их пиару так себе идея.

Клиентам пердлагают SLA

Которые на самом деле ничего не значат, потому что заявленный SLA у Яндекса 99,95 а фактический оказался меньше. Так что фактически клиентам предлагается только имя Яндекса и связанная с ним репутация.

P.S. Отдельно кстати забавны цифры компенсаций. Например если фактический SLA составит 95(!)% то они вернут аж 30%. Правда в моем "антресольном ДЦ" SLA и то повыше будет :)

А это другая проблема, к технической стороне вопроса вообще не имеющая отношения.

В современном мире люди вынуждены подписывать соглашения об отказе от ответственности. Ещё лет 50 назад взискать с поставщика услуг неустойку, пропорциональную ущербу, полученному от просадки качества этих услуг, было нормой в b2b. Сейчас все договоры содержат такое количество дисклеймеров, что не понимаешь, за что вообще платишь.

А это другая проблема, к технической стороне вопроса вообще не имеющая отношения

Подождите, вы же сами сказали, что технические подробности не нужны. Ваш тезис был в том, что клиенту якобы и не нужно знать технические детали – в вашей саркастической формулировке "какого цвета провода" – для него есть SLA и ему этого должно быть достаточно. Как мы видим, SLA ничего не стоит, и его нарушение в самом худшем случае (SLA<=95%) обходится компании в 30% стоимости услуг. Так действительно ли клиенту нужно ориентироваться на SLA, или все-таки ему стоит знать именно технические детали реализации?

Если SLA ничего не стоит, то чего стоят технические детали? Даже если раскрыть 100% всех технических нюансов, человеческий фактор останется за скобками, а в такой сложной системе совокупный человеческий фактор явно выше 5%.

чего стоят технические детали?

Это уже от клиента зависит, сможет ли он их верно проанализировать и сделать верные выводы, но важно, чтобы хотя бы возможность такая была. Тут как с открытым исходным кодом – не все смогут его проверить, и даже критичные уязвимости могут жить в нем годами, но главное, что есть хотя бы возможность это сделать и решить, удовлетворителен ли он для вас, а так же отправить репорт авторам, если они что-то проглядели.

Ок, убедили. Теперь понял, что вы имеете в виду, и полностью согласен.

Что не отменяет того, что SLA, которой можно подтереться, это проблема гораздо бОльшего уровня, чем любая техническая.

SLA нужен в первую очередь самому поставщику, как некая мотивационная программа.
Если всё работает хорошо, то получают условную "премию", уже заложенную в стоимость договора, если есть аварии - депремирование.

Глубоко ошибочно со стороны клиента воспринимать SLA как страховку или гарантию, это про другое.

Правильное и честное SLA тоже неплохо. Тир2, до 22 часов неработы в год. И всем все понятно.

вы же понимаете, что все от блогеров до банков идут к яндексу и иным крупнякам - чтобы соответствовать требованиям. сделать инфру соответствующую всем требовнаями самостоятельно - будет на порядки дороже с окупаемостью х10 лет.

А цвет проводов тоже указывать?

Указывайте. Не возражаю.

Клиентам пердлагают SLA и сертификацию ДЦ. А конкретный метод реализации этих сертификатов или условий SLA клиентов волновать не должен.

Если клиент блогер Вася, то можно не беспокоится, а если контора с ежегодной выручкой в сотни ярдов и критичными сервисами, то знать про особенности устройства инженерной инфры выбираемого облачного провайдера не просто должны, а обязаны, вплоть до изучения соответствующих документов соответствующими людьми под NDA. Хотя даже среди этой категории товарищей иногда встречаются "непуганные идиоты" ("нам на тендере сказали, что у них в облаке все-все зарезервировано")

Клиентам пердлагают SLA и сертификацию ДЦ.

И что, какую там сертификацию и SLA они пердлагали?

ребята сделали публичный разбор и анализа рисков

Результат анализа рисков — в яндексе не хостимся.

если договора составляют нормальные юристы, то все это написано, но вот обратите вы на это внимание или нет - это уже ответственность на вас. в принципе они описали как учитывать подобный отказ клиенту, но для обычного клиента это дороже разика в 2 и не всегда возможно.

Ваш текст очень напоминает по стилю те отмазки, которые лепит ваша служба поддержки, чтобы сделать вид, что чем-то помогает

Такие подстанции проектируются как сложные распределённые системы, чтобы предоставить потребителям определённые гарантии независимости ячеек.

Какая потребителям разница, как они планируются и проектируются, если инженеры Яндекса, кажется, по-прежнему считают, что электричество в розетках заводится само?

В целом, понятно, что любую облачную нагрузку надо проектировать в предположении, что 1 ДЦ Яндекса может выйти из чата в любой момент. Но это не особо новость, и не относится только к Яндексу

А дизель/газ в электростанциях тоже сам заводится?

Может быть чтобы стать достойным инженером, а не отмазчиком из службы поддержки, надо постороить свой НПЗ и свои скважены?

Что значит "тоже"? Я же утверждаю обратное

А если крупному специализированному грузовому автопарку нужно обеспечить безотказный сервис перевозок, то да, могут и небольшой нефтеперегонный комбинат поставить, если другими способами не обеспечить SLA.

Минус ДЦ это в случае облаков нормальная ситуация, только Яндекс на этом не акцентирует внимание, потому что тогда TCO не так "вкусно" выглядет будет - спасение утопающих в руках самих утопающих, безотказность сервиса надо проектировать на стороне приложений, покупая и оплачивая избыточную геораспределенную инфраструктуру.

Тут непонятно, почему Яндекс объясняет не это, а то, что отказы ДЦ случаи редкие, почти что несуществующие. Вернее, понятно, но ничего хорошего

Вот что мы видим из SLA yandex compute. Чуть раньше на сайте пишут, что фактический уровень доступности - Tier 3.

Из снимка я могу сделать вывод, что написана, мягко говоря, неправда -- номинально ДГУ есть, фактически оказывается, что она неспособна питать ДЦ при отказе лучей питания национальных операторов.

начался запуск инженерных систем из состояния blackout — в первую очередь для модулей облачной платформы.

Почему из blackout, а не из suspend? Это же не авария была, а всего-лишь пропадание питания. Или suspend с питанием от бесперебойников вообще не предусмотрен?

Здесь было важно перед IT‑эксплуатацией проверить работоспособность оборудования, и по регламенту это ручной процесс, с подключением инженера.

Инженер должен нажать кнопки Вкл, и убедиться что загорелся светодиод?

А у систем такого уровня вообще есть этот самый suspend? Я не в курсе, я спрашиваю.

Мне интуитивно кажется, что такой вот суспенд гораздо более рисковое мероприятие, чем блэкаут.

да, тоже интересно, как обеспечивается работоспособность в период от отключения питания до запуска дизеля. даже если ДГУ на всю мощность цод имеются в наличии

мне кажется, это невозможно. остается только смириться с тем, что все грохнется и затем придется те самые 8 часов восстанавливать

в период от отключения питания до запуска дизеля нормально спроектированная система работает от ИБП

ИБП на 70 МВт *час. ЕМНИП Маск что-то подобное в Австралии строил

думаю, всётаки 70МВт*10 минут, или чуть больше 10МВт*час.

Автомобильный аккумулятор на 600 ваттчасов весит 16 кг. Это всего 270 тонн таких вот аккумуляторов. Не вижу ничего невозможного.

верно.

Говоря о suspend:

Практически все активные системы в контрол-плейне построены либо на алгоритмах консенсуса (Raft, Zab), и тогда важно время последнего действия или хартбита, либо на построении текущего актуального состояния (например BGP), которое тоже становится неактуальным при саспенде. Таким образом, восстановление контрол-плейна - это всегда поднятие с нуля и введение упавших нод обратно в кластер.

Поддерживать suspend в дизайне сотен тысяч сервисов не нужная трата ресурсов. Любой важный state - это distriuted state. Остальное - живет локально.

Основное правило датацентра - всё, что в небольшой лабе может только теоретически случиться с астрономически малой вероятностью, в датацентре будет происходить с определённой периодичностью.

А у вас каждые пару месяцев случаются какие-то НЕВЕРОЯТНЫЕ ситуации в ДатаЦентрах?

На самом деле - гораздо чаще, но к счастью, клиенты замечают это реже.

Постоянно ловим сбои от аварий в я.облаке. Нарушение связности между разными ДЦ, кажется, по несколько раз в месяц уже происходит. Содержанием статьи не удивлён.

ПС 110 кВ "Яндекс" судя по описанию в статье - тупиковая. Если бы она была бы отпаечная от ВЛ с двусторонним питанием, то потенциально электричество могло бы придти с другой стороны, если бы там хватало мощности. Ну а раз тупиковая, да ещё от одной ПС 220 кВ ФСК (ныне Россети), то крупная авария на ПС 220 кВ отключит присоединения 110 кВ.

Посмотрел что есть в интернете, и наиболее вероятно в статье описывается ПС 220 кВ Сасово (250 МВА) и ПС 110 кВ "Яндекс" для ЦОД на Сасовском Литейном заводе. Расстояние по прямой 1,6 км. Подключение - две кабельно-воздушные линии электропередачи Сасово-«Яндекс» 1 и 2 цепь. ДЦ - Рязанское РДУ ОЗ Центра.

Наверняка воздушная часть КВЛ 110 кВ в направлении ПС 110 кВ "Яндекс" у Вас одна двухцепная, т.е. опора одна для обоих цепей с разных ячеек 110 кВ ПС 220 кВ Сасово. Т.е. одна упавшая опора порушит весь Ваш резерв и весь ЦОД. В опору может приехать автомобиль, или если опора железобетонная, то она просто может треснуть в земле. Для проверки целостности опоры перед подъёмом на неё её окапывают на пару штыков лопаты вглубь, чтобы поднявшийся работник не упал вместе с опорой. Стеклопластиковая опора вроде бы понадежней будет. Так что резервирование ВЛ не повредит. :-) Или же строить только КЛ, но их может экскаватор копнуть.

Как вариант Вы могли бы рассмотреть присоединение отпайкой по 220 кВ от разных ВЛ, приходящих на ПС 220 кВ Сасово или на другие ПС. Бывают потребители с подключением 220 кВ. ВЛ и основное оборудование на более высокий класс напряжения однозначно будут дороже, но потерь меньше, минус одна ступень трансформации. Подстанции постройки 1960-х годов так себе радость. Они уже уставшие, требуют модернизации, и она делается по частям. Но новое всегда лучше и дешевле, чем модернизированное старое.

К сожалению в статье непонятно, строили ли Вы ПС 110 кВ "Яндекс" с нуля или же это была выкупленная вместе с заводской территорией унаследованная от завода ПС. Судя по новостям это было строительство новой ПС. Также о близости к генератору стоило бы поподробнее написать. Генерация потребителя к себе напрямую не пустит. А вот разных ПС вокруг генерации обычно побольше. По пресс-релизам ПС 220 кВ Сасово является частью схем выдачи мощности Рязанской ГРЭС и Сасовской газотурбинной ТЭЦ .

О, наконец-то локацию назвали, ну и разговор предметный пошёл.

ПС тупиковая, ЛЭП - примерно половина двухцепная ВЛ на стальных опорах, дальше КЛ (вот на этой опоре она под землю уходит). По ЗОУИТ на кадастровой карте очень удобно с трассировкой ЛЭП/газопроводов разбираться :)

Там ещё совсем рядом (300 метров от ЦОД) газотурбинная ТЭЦ "ГТ Энерго" на 18 МВт стои́т, но она своей отдельной КЛ-10 к ПС-220 подсоединена. Её бы Яндексу выкупить, вывести с рынка и возможно расширить (но тогда в нагрузку получат потребителей по теплу, которые им вообще не сдались).

Но вообще я почему-то думал, что речь про дефолт-сити, где с землёй, нормативными расстояниями, мощностями по газу и пр. тяжко. В Сасово наверняка все эти проблемы гораздо легче и дешевле решаются.

18 МВт при 53 МВт максимальной заявленной мощности ЦОД Яндекс только частично помогут.

При собственной генерации из тепла можно сделать холод, а холод для ЦОД всегда нужен. Но стоит это удовольствие очень недёшево.

Поэтому и написал про возможность расширения. А с теплом всё не так просто, если сейчас ГТЭС теплоснабжает город, то не так просто (практически невозможно) отказаться от этой нагрузки и направить всё тепло для собственных нужд. В теплоэнергетический бизнес непросто войти, но ещё сложнее из него выйти :)

Ну тут я на выводы @E2a понадеялся. По Владимиру пересматривать карты, сорри, не буду :) , общие принципы всё равно те же.

Нет, не Владимир. Если верить поиску, то во Владимире у Яндекса ПС 110/20 кВ (в этой статье ПС 110/10 кВ), подключена КЛ 110 кВ ПС «Владимирская» — ПС «Яндекс Data Center», г. Владимир к ПС 110 кВ Владимирская. (в этой статье подключение к ПС 220 кВ). Цифры не сходятся.

Поправлюсь - ПС 750 кВ Владимирская.

Да, не точно, ответил ниже. Цифры для Владимира другие, вышестоящая ПС 110 кВ вместо 220 кВ, у самого Яндекса по низкому напряжению 20 кВ, а в статье 10 кВ.

Т.е. одна упавшая опора порушит весь Ваш резерв и весь ЦОД. В опору может приехать автомобиль, или если опора железобетонная, то она просто может треснуть в земле.

В 12:27 главный инженер обслуживающей организации связался с дата‑центром и сообщил, что на подстанции отключились обе линии 110 кВ
<...>
В 15:30 вернулось питание от подстанции

За три часа починили опору и порванные ЛЭП?

По времени восстановления питания я бы сказал, что линии отключились ложным срабатыванием какой-либо защит(ы) либо ошибочными действиями персонала. Отключились, осмотрели, опробовали защиты, запросили включение в РДУ и включились обратно.

На самом деле большие вопросы к первой категории электроснабжения у Яндекса. Заметьте, как нам долго рассказывают про ДГУ и ДРИБП, не упоминая слов "первая категория".

По факту оказалась третья :)

Это нас возвращает к вопросу о том, что считать "от двух независимых взаимно резервирующих источников питания". Автор статьи, как и многие считают, что разных секций/шин на одной подстанции достаточно, чтобы говорить о "независимых", однако этот случай нам говорит, что хорошо бы с разных подстанций. И Ваш пример с повреждением опоры двухцепной линии говорит, лучше бы еще географически разнесенных

Генерация потребителя к себе напрямую не пустит.

Не могли бы Вы пояснить, что имеется в виду? Если на станции есть соответствующие РУ, то почему нет?

У нас обычный районный цех электросвязи подключен двумя географически независимыми вводами, один от городской подстанции, другой от железной дороги. Когда во всем городе планово не было света полсуток, сидели на жд вводе. Дизель тоже есть, на полную мощность. Построено было всё ещё при советской власти.

Про попадание автомобиля в опору написал как пример необходимости географически разнесённых ВЛ. Рассматриваемое отключение наверняка действием защит.

Производство и сбыт электроэнергии - конкурентные виды деятельности. Передача и распределение, ОДУ - монопольные виды деятельности. Запрет на совмещение конкурентных и монопольных видов деятельности является одним из основных принципов реформы электроэнергетики. Но если очень хочется (потребитель близко к электростанции), то - можно. Электростанция начинает себя вести как сетевая организация, организует весь круговорот по техприсоединению, попадает в различные юридические коллизии. А оно надо? В 2015 были новости о первом чтении законопроекта о запрете подключения потребителей к электростанциям. https://www.kommersant.ru/doc/2661253 Чем дело кончилось непонятно, но позднее крупных потребителей запрещали подключать к сетям ФСК 220 кВ и выше минуя Россети. Сейчас ФСК и Россети слились в единое целое.

А оно надо?

За деньги - да ©

Я работаю на электростанции и в том числе занимаюсь тех.присоединением. В ПП РФ 861 уже есть п. 5, где написано, что «При присоединении энергопринимающих устройств к распределительным устройствам электростанции последняя выполняет функции сетевой организации <...> а также выполнения необходимых условий договора.»

Так что хочет или не хочет станция - ей все равно надо заниматься техприсом.

но позднее крупных потребителей запрещали подключать к сетям ФСК 220 кВ и выше минуя Россети.

Это так называемая перекрестка или "последняя миля". Крупные потребители хотели брать электроэнергию на ВН дешево у ФСК, а территориальные сетевые организации оказывались в пролете. Поэтому метр линии отдавали в собственность ТСО и присоединение шло не к ФСК, а к ТСО с соответствующем тарифом. Это даже по вашей ссылке на коммерсант говорится:

Раньше, кроме стоимости самой энергии потребитель оплачивал сетевой тариф ФСК, законопроект переводит его на более дорогой котловой тариф, учитывающий расходы на содержание и инвестиции всех сетевых компаний в регионе

Собственно законопроект о запрете подключения к станции - это попытка сохранить перекрестку и последнюю милю. Хорошо, что не взлетел, хотя с запретом мне бы стало меньше работы.

Запрет на совмещение конкурентных и монопольных видов деятельности является одним из основных принципов реформы электроэнергетики

Да, но имеется разъяснение ФАС, что

владелец объектов электроэнергетики, в том числе не соответствующий критериям отнесения владельцев объектов электросетевого хозяйства к территориальным сетевым организациям, не является субъектом естественной монополии и не занимает доминирующего положения на товарном рынке. К такому лицу не применимы положения статьи 10 Закона о защите конкуренции

Таким образом, техприс к электростанции - конкурентный вид деятельности.

На электростанции электроэнергия самая дешевая. :-)

На рынке при таком подключении потребитель сможет электроэнергию покупать при таком присоединении, или только на электростанции по прямому договору?

Пока искал, находил статейку "Технологическое присоединение к распределительным устройствам электростанций: правовые коллизии и пробелы в законодательстве" в журнале "Энергетика и право 4 2013, там всё примерно так и пишут. Не вдавался в подробности, но явно всё непросто.

По присоединению к ФСК потребитель может просто построить свою ПС 220 кВ, и её в любом случае придётся присоединять к сети ФСК. ТСО максимум 110 кВ имеют сети.

Смотрел проект, где тепличное хозяйство присоединено к 220 кВ своей подстанцией, и затевало когенерацию на газопоршневых установках с намерениями себя освещать, отапливать, а излишек произведённой электроэнергии поставлять в сеть через свою ПС и продавать на рынке. Процесс пару лет назад остановился, импортные газопоршневые установки стали недоступны, но было очень интересно, как потребитель собирался ещё и генерацией стать.

Сильно зависит от электростанции.

Если станция >25 МВт, то она обязана продавать всю электроэнергию на оптовый рынок (ОРЭМ). Поэтому она будет на продавать на ОРЭМ, а оттуда уже ее покупает либо гарантирующий поставщик (ГП), либо независимый сбыт, которые уже могут продать электроэнергию конечному потребителю. В случае ГП понятно, что потребитель будет покупать по той же цене, как если бы он присоединен куда угодно.

В случае независимого сбыта - как договоритесь. Но явно не дешевле опта.

Если станция работает на рознице (РРЭ), то - да, она может заключить прямой договор с потребителем по любой договорной цене (тарифы на рознице остались только у ГП и для населения). В этом случае электроэнергия может быть дешевле опта (как бы ни странно это звучало в отношении розницы).

В любом случае цена электроэнергии и мощности при текущем ценообразовании как на ОРЭМ, так и на РРЭ не зависит от типа подключения станция/подстанция. Вышеописанные схемы работают даже если потребитель не присоединен напрямую к станции. Станция может продавать на РРЭ любому потребителю, лишь бы продавец и покупатель находились в зоне действия одного ГП.

В отличие от оплаты услуг по передаче электроэнергии. Вот там, потребитель, присоединенный напрямую к шинам станции, платит за передачу только ставку за содержание сетей, а ставку за потери не платит. Вот здесь у потребителя может быть выгода.

С 2013 очень многое поменялось. Непринципиально, но тем не менее. Рекомендую забыть эту статейку. Те пробелы и коллизии уже неактуальны.

В общем своя собственная генерация может оказаться интересной, но надо считать окупаемость. "Россети" ещё бесплатный переход на собственную генерацию потребителям тоже хотели запретить, компенсацию выпадающих доходов из-за отключения от сети требовали. :-)

Россети "слишком много кушать"©. Если некто, построив собственную генерацию, не будет отключаться от их сетей, а просто не брать электроэнергию из сети, то ему все равно платить ту же ставку за содержание сетей. Россети же хотели получать и по ставке за потери, но без этих самых потерь.

спасибо автору за честный обзор и участие в обсуждении. и, давайте будем честными - за 8 часов простоя в год бизнесы не рушатся. яндекс слишком много сделал и продолжает, чтобы его хейтить. хочешь безотказности для своего сервиса - тоже прилагай усилия. это не может стоить дешевле всего рынка.

Мдаа сбой был мощный) мой прод лежал несколько часов что было неслыхано. Но тем не менее мало кто может дать такой уровень возможностей как яндекс облако. Поэтому можно даже такой большой косяк простить👍🏻 Всякое бывает.

поверьте, приятнее часы подождать и продолжить, чем потерять всё, когда (недо)оператор ДЦ ловит атаку... был прецедент пару лет назад (не скажу с кем), благо архивы сливали себе не доверяя оператору (а ведь многие даже денюжку берут за хранение архивов в ДЦ)

А как посчитали 1 раз за 20 лет? Кликбейтный заголовок, тьфу, своё дело сделал :)

Смею предположить, что ровно как считают риски. Берут среднюю по стране/региону/миру статистику отказа двух независимых ячеек одной станции, берут временной период когда она происходит и смотрят на получившиеся данные.

Вероятно потому, что первые дата центры появились лет 20 назад

Мы с Иваном Кузьмичем работали на дизеле....

"Раз в 20 лет", это что-то из серии истории про то, как Ходжа Насреддин обещал падишаху научить ишака говорить...

Инцидент с Яндекс Диском для Windows, случившийся чуть более 10 лет назад, тоже случается раз в 20 лет)

Вы не понимаете, это другое! )

Авария в Чагино как раз почти 20 лет назад была

утоновший ЦОД Яндекса расположен во Владимире

Кажется компания которая предоставляет услуги клауда должна иметь сертифицированные дц, особенно если это касается таких больших компаний. В статье видно что Яндекс сознательно или не очень игнорировал Tier III от Uptime Institute. Хотелось бы понять это вопрос экономии или всеже халатность.

Concurrent Maintainability (основное требование Tier III):

All critical components must be concurrently maintainable, meaning they can be removed from service for planned maintenance without impact to the IT environment.

Multiple Power Paths:

A Tier III site must have two power paths — the primary path active and the secondary path passive, from independent sources.

Гравитационный аккумулятор надо строить для таких случаев.

Размеры сами посчитаете?

Алиса считает, что для обеспечения 17 МВтч. потребуется 35 блоков по 24 тонны, поднимаемых на высоту 100 м.

Кто там на поколение ЕГЭ жаловался? Буду вам этот комментарий показывать.

Маловато как-то по высоте, у меня вышло 7434 метра (для 35 блоков по 24 тонны и 17 МВт-час). В принципе реально, главное, датацентр рядом с Эверестом построить. Заодно на этих блоках можно альпинистов катать.

Попробовал озадачить этим gigachat, рассуждала модель правильно, но ошиблась с коэффициентом пересчета джоулей в мегаватт*часы, забыв про мегаватты.

Скрытый текст

Подскажи, на какую высоту надо поднять 35 блоков по 24 тонны каждый, чтобы запасенная потенциальная энергия составила 17 мегаватт-часов

Для решения этой задачи воспользуемся формулой потенциальной энергии тела, поднятого над поверхностью Земли:

E_p = mgh

$$

где:

EpEp​ — потенциальная энергия (в джоулях),
mm — масса тела,
gg — ускорение свободного падения (9.81 м/с29.81м/с2),
hh — высота подъема.

Шаг 1: Перевод единиц измерения

Сначала переведем массу каждого блока из тонн в килограммы:

1 , тонна = 1000 , кг

$$

m_{блок} = 24 , тонны = 24000 , кг

$$

Так как у нас 35 блоков, общая масса будет:

M = 35 \times 24000 , кг = 840000 , кг

$$

Переведем энергию из мегаватт-часов в джоули:

1 , МВт·ч = 3600000 , Дж

$$

E_p = 17 , МВт·ч = 17 \times 3600000 , Дж = 61200000 , Дж

$$

Шаг 2: Вычисление высоты подъема

Теперь подставим известные значения в формулу и найдем высоту hh:

61200000 = 840000 \times 9.81 \times h

$$

h = \frac{61200000}{840000 \times 9.81}

$$

h \approx \frac{61200000}{8243400} \approx 7.42 , м

$$

Таким образом, чтобы запасенная потенциальная энергия составила 17 мегаватт-часов, блоки нужно поднять примерно на 7.42 метра.

Причем я переспросил, "правильно ли пересчитаны мегаватт*часы в джоули", модель порассуждала и заключила, что правильно.

А потом я спросил наоборот, сначала про пересчет, а потом задал вопрос.

Подскажи, сколько джоулей в 1 мегаватт-часе

Для перевода мегаватт-часа (МВт·ч) в джоули (Дж), нужно помнить, что 1 Вт = 1 Дж/с, а также учитывать соотношение между часами и секундами.

1 МВт = 1000000 Вт

1 ч = 3600 с

Таким образом, 1 МВт·ч = 1000000 Вт * 3600 с = 3600000000 Дж

Итак, в 1 мегаватт-часе содержится 3 600 000 000 джоулей.

Подскажи, на какую высоту надо поднять 35 блоков по 24 тонны каждый, чтобы запасенная потенциальная энергия составила 17 мегаватт-часов

Для решения этой задачи нам потребуется использовать формулу потенциальной энергии, которая определяется как произведение массы тела (mm), ускорения свободного падения (gg) и высоты подъема (hh):

Ep=mgh
Ep​=mgh

Где:

EpEp​ — потенциальная энергия,
mm — масса,
gg — ускорение свободного падения (примерно равно 9.81 м/с29.81м/с2),
hh — высота подъема.

Нам известно:

Масса одного блока: 24 тонн=24000 кг24тонн=24000кг,
Количество блоков: 3535,
Общая потенциальная энергия: 17 МВт⋅ч17МВт⋅ч.

Сначала переведем энергию из мегаватт-часов в джоули:

1 МВт⋅ч=106 Вт⋅3600 с=3.6×109 Дж
1МВт⋅ч=106Вт⋅3600с=3.6×109Дж

Тогда общая потенциальная энергия будет равна:

Ep=17 МВт⋅ч=17×3.6×109 Дж=61.2×109 Дж
Ep​=17МВт⋅ч=17×3.6×109Дж=61.2×109Дж

Теперь подставим известные значения в формулу потенциальной энергии и найдем высоту hh:

61.2×109 Дж=(35×24000 кг)⋅9.81 м/с2⋅h
61.2×109Дж=(35×24000кг)⋅9.81м/с2⋅h

Решая уравнение относительно hh, получаем:

h=61.2×109(35×24000)⋅9.81
h=(35×24000)⋅9.8161.2×109​

Вычислим числитель и знаменатель:

35×24000=840000 кг
35×24000=840000кг

840000⋅9.81=8237400 Н
840000⋅9.81=8237400Н

Теперь разделим:

h=61.2×1098237400≈7437.04 м
h=823740061.2×109​≈7437.04м

Округляя до целого числа, получаем высоту примерно 7437 метров.

Вывод: использование LLM в инженерных расчетах сопряжено с большими рисками. ;)

Зачем гигачат?

В начале база. Вроде любой инженер такое наизусть помнит: 10 джоулей это 1 килограмм на 1 метр. 1 джоуль это 1 ватт секунда. В часе 3600 секунд.

Дальше немного математики: 35 на 24 это примерно тысяча. Делим на 4 и умножаем на 100. Не совсем попадаем, но не важно.

Дальше главное не запутаться в ноликах: Тонна это три нолика. Тысяча которая получилась чуть выше это еще три нолика. 100 метров это два нолика. И один нолик от джоулей. Итого девять ноликов.

Убираем три нолика от перевода секунд в часы. Шесть ноликов осталось. 1 мегаватт итого. А забыл на 3 разделить то есть 300 киловатт.

Пусть я где-то ошибся но порядок точно верный. На два порядка не сошлось.

Знаний вроде никаких выше средней школы не надо. Даже считать надо только нолики. Остальное по сути не имеет значения.

PS: Нолики это сложно. Ошибся на один и поправил уже.

Зачем гигачат?

Интересно стало, неужели LLM с такой простой задачкой не справляются. Оказалось, действительно не справляются. И если бы я сам раньше не посчитал и не помнил школьный курс физики - то мог бы принять ответ - 7,42 метра.

И представилось будущее, в котором лицо, принимающее решение - на совещании спрашивает ИИ про размеры такого гравитационного аккумулятора, получает такой ответ, и начинает стыдить инженеров за неграмотность ("куда вам 7 километров, вот ИИ говорит, что достаточно 3-этажного здания").

Не уверен, что математика и рассуждения - сильная сторона гигачата. Есть взрослые LLM, которые способны правильно решать подобные задачи.

Браво! С одной подстанции брать электричество, это лень инженеров или экономия средств? Пожар на одном трансформаторе и вся подстанция в ауте, или ещё какие случаи, описанные в комментариях. Хотя, менеджеры могли просто почитать риски и принять их как удовлетворительные.

Подстанции бывают разные, если внимательно читать статью, то там указано, что 56 случаев отключения одной линии не затрагивали вторую. И подстанции таких размеров спокойно переживают "пожар на одном трансформаторе". Это совсем не трансформатор у дома.

Скорее вы не понимаете как эта подстанция выглядит и работает. Отключение одного трансформатора переживёт, но если именно пожар, даже без разницы где, то подстанция полностью обесточивается и управление переходит на автономное питание. Иначе вероятность потерять полностью всё оборудование, достигает 99%. Так что обесточат как миленькие и пожарные смогут потушить.

Какая-то сказочная история про ДГУ "не для всех" и деление сервисы на "привилегированные" и "все остальные".
Из открытых данных находим похожий по характеристикам ЦОД https://ixcellerate.ru/data-centers/moscow-north-campus/ (проектная мощность 64МВт)

  • Уровень доступности: 99.999%

  • Проектный PUE: <1.6

  • Резервирование по централизованным дизель-генераторам: N+1


И понимаем, что ЦОД Яндекса - не про надежность.
Интересно было бы посмотреть на данные по резервированию Селектела, но в открытых источниках нашел, что макс мощность на ЦОД у них 10Мвт

Это "Проектная мощность". Сейчас у них введено в строй только 2 кусочка из 4. Первый на 10, второй на 13. Заявлено Tier III, но нужно смотреть детали. Иногда сертифицируют лишь отдельные стойки внутри ДЦ, которые обеспечивают необходимые характеристики.

Чем отличаются "Проектные характеристики" от реальных в эксплуатации, думаю рассказывать не нужно.

Кстати оба сертификата Tier III закончились в 2020 и 2021 году. Понимаю сложности с геополитикой, но это скорее в копилку "дьявол в деталях".

Moscow One (MOS1) – ЦОД уровня Tier III/Level 3 с тремя машинными залами площадью 6 000 м² для размещения 1 835 стоек с общей мощностью 13,7 МВт.
Дата-центр Moscow Two (MOS2) — это ЦОД уровня надёжности Tier III, вмещающий 1 580 стоек на площади 3 300 м² с общей мощностью 13 МВт.

Бесперебойное энергоснабжение с высоким уровнем резервирования

Альтернативные источники питания позволяют дата-центру полноценно функционировать даже при перебоях подачи электроэнергии в городе.


Цитаты с сайта.

Спасибо за статью.

"В дата‑центрах Яндекса дизельные установки используются для поддержания работоспособности управляющего контура дата‑центровых сервисов" - а что такое "управляющий контур дата‑центровых сервисов"? Какие именно потребители подключены через ДГУ?

Это контур, который управляет сервисами датацентра. Если спросить у чатгпт:

Сервисы управления датацентром включают:

  1. Мониторинг и управление оборудованием — отслеживание состояния серверов и устройств.

  2. Управление энергопотреблением — оптимизация использования энергии и охлаждения.

  3. Безопасность данных — защита от кибератак, физическая безопасность.

  4. Сетевое управление — настройка и управление сетями.

  5. Виртуализация и облачные сервисы — управление виртуальными машинами и облачными ресурсами.

  6. Управление хранилищами данных — эффективное хранение и резервное копирование.

  7. Автоматизация процессов — автоматизация задач с помощью DevOps инструментов.

  8. Аварийное восстановление — планирование и выполнение восстановления после сбоев.

  9. Аудит и отчетность — контроль за безопасностью и производительностью.

  10. Техническая поддержка — обслуживание клиентов и решение инцидентов.

Эти сервисы обеспечивают стабильную и безопасную работу датацентра.

Я не могу сказать - в другом облаке работаю.
Я не могу сказать - в другом облаке работаю.

По-моему, мой вопрос вполне конкретный. Ответьте пожалуйста, если знаете и позволяет политика раскрытия информации. GIF-ки слать не нужно.

Извиняюсь, там текст есть. Я сейчас не работаю в Яндексе и не работал в Яндекс Клауде.

Общими словами - есть PUE (отношение затрат электричества к полезной работе VMок) - можно почитать в интернете, по-сути - КПД использования электроэнергии.

Есть Useful Work Ratio(UWR) или Overhead Ratio или IT Overhead - это отношение сервисных ВМок к клиентским.

Интернет говорит что у AWS это около 10-20%.
Не вся эта часть является критической (например виртуалки мониторинга можно не питать отдельно при аварии). В итоге я бы оценил в 5-10%.

Если утолил жажду любопытства, то спрошу причину вашего интереса

Блэкауты бывают и на ПС 220 кВ, и на 750 кВ и где угодно, это дело случая. Два ввода от двух разных шин 110 кВ на одной ПС 220 кВ по факту весьма надежное решение, если АТ работают на разные шины, потому что ПС 220 кВ достаточно далеко могут друг от друга находиться.

Отключили, бывает, в целом ничего с этим не поделать:)

Это верно. Ещё и БПЛА доставляют отключений.

Удалил бы 80% комментариев, так как интересные и полезные тонут в информационном шуме «белок-истеричек».

А ваш комментарий полезный или шум?

Вся проблема описана в одном предложении

а дизель‑генераторы просто не рассчитаны на то, чтобы принять такую нагрузку.

не будь это так вообще бы никто не заметил за 3 часа что что то произошло, как впрочем и должно было быть.

Sign up to leave a comment.