Как стать автором
Обновить

Блэкаут в США 2003: как два сервера обвалили энергосистему

Время на прочтение15 мин
Количество просмотров28K
Всего голосов 118: ↑116 и ↓2+114
Комментарии81

Комментарии 81

Во времена фидо ходила устойчивая байка, как энергетикам было лень ездить в другой район перезагружать часто виснущий сервер, и они делали это обесточиванием половины города.

У меня был похожий случай. Как-то раз, 31 декабря, в 10 часов вечера - то есть за 2 часа до Нового года у нас моргнул свет и вырубился интернет. Я дозвонился до техподдержки, и сотрудник подтвердил, что наш подъездный роутер завис. "Но вы же понимаете, что сейчас никто не пойдёт его перезагружать?" Я вздохнул, сказал, что всё понимаю и пожелал счастливого Нового года. Через полчаса на пять минут вырубился свет. После включения - интернет заработал. До сих пор думаю - совпадение, или сотрудник провайдера как-то договорился с электриками?

просто у электрика тоже интернет пропал )

Когда я работал в одном интернет-провайдере, мы на такие случаи делали резервирование доступа на точку, и несколько способов перезагрузки оборудования.

знали бы вы, как большинству провайдеров (положить) на абонентов... и чем провайдер крупнее, тем больше (положить)

в 14:02 линии 345 КВт Stuart-Atlanta

наверно 345 кВ?

Думаю, главной причиной аварии было то, что в ответ на звонки о проблемах диспетчер предпочел "клятвенно уверять, что у них всё в порядке" вместо того, чтобы проверить всю доступную ему в SCADA информацию.

вот скажите - когда вам grep пишет, что в файле логов ничего не нашел - вы ему доверяете, или после него идете и глазами еще раз просматриваете весь лог?

Вы себе представляете - где сидит диспетчер, а где реальные провода на сотни км ? Или вы думаете, что он программист а не электрик и может легко посмотреть "всю доступную ему в SCADA информацию" (и для начала - найти ее и перевести в человекочитаемый формат...) ?

вот скажите — когда вам grep пишет, что в файле логов ничего не нашел — вы ему доверяете,

да, до момента, когда мне позвонят несколько юзеров и скажут, что что-то упало. Тогда я всё-таки перепроверю :)
Диспетчер не может легко посмотреть всю доступную ему информацию, но он в общем-то в состоянии позвонить на подстанцию и спросить, что у них там происходит.

Когда меня первый раз спрашивают — я доверяю grep.


Когда второй — я проверяю не ошибся ли я с grep (бывает), и на всякий случай проверю изменялся ли лог вообще в последнее время, т.е. есть ли там хоть что-нибудь.


Когда третий (за последние полчаса) — я уже разбираю всю цепочку по винтику и вручную проверяю все компоненты, работают ли они вообще. Да, бесит, но зато надёжно.


Такой подход не раз спасал ситуацию когда казалось бы всё совершенно нормально и проблема явно где-то ещё. Да, иногда действительно проблема оказывается где-то ещё — но лучше перебдеть, это займёт всего несколько минут но они могут спасти от многочасового аврала.


Если бы диспетчер руководствовался похожим принципом, то на третий вопрос он бы уже позвонил в техотдел и спросил всё ли работает как должно, а судя по рассказу он получил кучу вопросов, сам факт их возникновения за короткий временной интервал уже должен был его насторожить.


PS: В далекой молодости (ещё при союзе) я проходил практику в чём-то типа центра управления энергосистемой крупного города, и там было похожее правило — на третий звонок, неважно что показывают лампочки на пульте и даже если они все зелёные — давай проверяй ручками или ножками, звони на участки и вообще поднимай кипеш до выяснения ситуации.

Кстати, это открывает вектор атаки на систему через социальную инженерию. Пранкеры звонят сразу с сотен номеров на кучу подстанций и жалуются, что пропал свет. И на более крупные узлы мониторинга тоже. И начинается неслабый кипиш, техники начинают перезагружать сервера, звонить друг другу ещё больше усиловая хаос, и в итоге кто-то что-то реально ломает. А так, если система отлажена нормально, оператор посмотрит, что всё ОК, поймёт, что его разыгрывают, и пошлёт звонящих лесом.

Юзеры звонят своему поставщику энергии, а не на подстанцию. А поставщик энергии уже может перепроверить и позвонить на подстанцию, если нужно. Так что фильтр сработает, заддосить не получится.

это называется "персональная ответственность за результат" - модная тема в управлении, которой учат все западные коучи, но, почему-то, не применяют у себя

Диспетчеру было достаточно посмотреть состояние линии, статья утверждает, что это было легко доступно, но обычно делается при появлении аварийного сообщения. Что мешало посмотреть при многочисленных звонках, на которые отвечали клятвенными заверениями?

Один из основных принципов расследования инцидентов состоит в том, что у него всегда больше одной причины. Даже если там был человеческий фактор, то он был не единственный.

Диспетчерская это не один человек (и в статье пару раз упоминают во множественном числе). То есть, были причины из-за которых продолбали все, кто был на дежурстве.

Это ж не ответ. Просто перекладывание ответственности на всю смену. Диспетчеры отвечая не знали состояние сети, они могли уверенно сказать, что не было аварийных сообщений, а не то, что всё в норме. Почему никто из целой смены не посмотрел?

Я просто хотел сказать, что причин было больше. Свалить все на одного диспетчера (или смену) это просто, но по факту не практично, так как даёт лишь временный эффект, как латание дыр. Заменят одних другими и потом снова все повторится.

Цель таких расследований не в том, чтобы указать на виноватого, а чтобы найти и потом усилить все узкие места в системе. Инструкции по расследованиям предлагают сразу отбрасывать причину, которая кажется всем очевидной, и начинать копать дальше.

В статье это хорошо показано - они обнаружили там кучу интересных и по-отдельности не очевидных проблем в разных местах. Начиная с банально за годы разросшейся флоры, больших организационных проблем и заканчивая гонками где-то в софте на микросекунды.

Я что, предлагаю свалить только на диспетчеров? Вина остальных в статье раскрывается. Тут даже копать не надо, техподдержка скады, не проверившая работоспособность, диспетчер MISO забывший запустить скрипт, кто-то, ответственный за неполноту данных в MISO (когда там целая линия исчезла из модели). Если б они не лажали, то все другие недостатки были бы не критичны.

Вы предлагаете искать виноватых, а не причины. Это неконструктивно при работе на перспективу.

А в этом расследовании определены причины лажи этих субъектов? Вижу только дополнительные факторы, которые всегда есть, но которые не критичны, если все хорошо выполняют свою работу.

Вам надо чтобы все хорошо выполняли работу и наказывать тех кто плохо это делает, или чтобы аварий не было?

А в данном случае авария - результат исключительно человеческого фактора.

С grep я не работаю. Когда система мониторинга диспетчерской связи метро определяет по логам, что всё нормально, а мне звонит механик связи, что не прошел вызов или нет голоса - я сразу вручную смотрю логи соединения DSS1.

По тексту статьи, у диспетчера была возможность просто увеличить нужный фрагмент схемы, чтобы увидеть, что линия отключена. Он должен был сделать это после первого же звонка. После второго звонка он, кроме того, должен был позвонить на подстанции, чтобы проверить правильность работы SCADA, и посмотреть в SCADA нагрузку на дублирующих линиях. Я одно время совмещал обслуживание SCADA энергосистемы предприятия с работой оператора SCADA и некоторыми функциями диспетчера, и поступал именно так. После третьего звонка диспетчер должен был позвонить в техподдержку.

Тут свою роль сыграло доверие диспетчера к оповещениям в его системе. Оповещений нет - значит, все нормально.

Вот если бы такого абсолютного доверия не было, то был бы и шанс на обнаружение проблемы. Конечно, диспетчер бы не сорвался и не поехал смотреть линию (хотя у него вроде должен быть вариант по телефону послать разбираться на месте дежурную бригаду). Он просто поглядел бы на конкретное место на карте, увеличив масштаб.

Тут свою роль сыграло доверие диспетчера к оповещениям в его системе. Оповещений нет - значит, все нормально.

чтож, вот поэтому в систему аварийного оповещения здорового человека ставят две лампочки:

первая - красная, для оповещений, а вторая - зеленая, чтобы видеть что первая лампочка таки сработает, когда надо (а не "замерла в состоянии не горит").

Эм, обычно же кнопка "квитирование" проверяет что сигнал ходит туды-сюды.

Квитирование отключает светозвуковые сигналы от сработавшей алярмы.

А тест ламп выполняет кнопками "тест сигнализации"/"тест ламп"/"lamp test" и придумайте сами как ещё назвать тест ламп.

Вот у них весь экран и был в зелёных лампочках, а что толку? Информации просто слишком много, волей-неволей приходится на систему оповещений смотреть.

В SRE для мониторинга есть 4 золотых сигнала: latency, traffic, errors и saturation. Здесь контроль трафика и насыщенния по нижнему пределу должны по идее выявлять ситуации, когда от системы перестают приходить метрики вообще. Проще говоря, кроме grep, нужен ещё wc -l

ну очевидно жеж что SRE появилось после этого блэкаута. Т.е. лбди уже знали про эти ошибки когда составляли его.

блекаутже в 2003 был, когда и SRE появилось.

много того чтотмы сейчас делаем для доп проверок, как раз добавилось после случаев когда эти проверки не сделали - RCA во плоти.

Доверие людей к технике должно быть основано на сертификации по безопасности, а не на опыте безаварийной работы техники. Думаю, в этом случае генератор оповещений не мог быть сертифицирован для обеспечения безопасности энергосистемы - ведь он даже никак не индицировал свой отказ.

Начало аварии положило незначительное на первый взгляд происшествие: в 13:30 остановился блок №5 ТЭЦ Eastlake мощностью 680 МВт.
ИМХО, в подобный ситуациях в протоколе действий электростанции должно быть дополнительное информирование центрального диспечерского центра энергосистемы по телефону. Тогда диспечер был бы в состоянии повышенного внимания и увидел бы, что в логе у него нет этого события и начал бы предпринимать какие-то действия.

Так это случилось до файла скады. Собсно накинуть возбуждения для поднятия напряжения попросил сам диспетчер FE. Когда генератор отключился он не стал вводить еомпенсиркющих мер, так как посчитал некритичным.

В идеальном мире для этого использовалась бы real-time система, как SCADA, но MISO развивало свой собственный продукт, в основном методом добавления костылей. Система в распоряжении MISO была не real-time, да она получала данные с низовых устройств, но расчёт надёжности проводился по таймеру раз в 5 минут, таким образом оператор имел срез состояния энергосистемы, который мог за следующий промежуток времени сильно устареть. Автоматический расчёт надёжности проводился по скрипту, который днём в 13:07 был отключён для проведения работ с системой. Причиной стала необходимость привязать сигналы включенного/отключенного состояния линии 230 кВ Bloomington-Denois Creek к её отображению в расчётной модели. После окончания процесса диспетчер попросту забыл активировать скрипт и ушёл на ланч, из-за чего до 14:40 автоматический расчёт надёжности не производился.

Паразительно читать такое!

То, есть можно для критически важной отрасли разрабатывать свой собственный продукт (его кто-нибудь сертифицировал?), не real-time, и где можно что-то отключить и "забыть включить" обратно! И никаких протоколов на случай технических работ!

А во-вторых, пользовательский интерфейс был таков, что диспетчеру после получения оповещения требовалось найти на схеме нужный выключатель и уже, кликнув по нему, проверить его состояние. Система не подсвечивала выключатели, изменившие состояние, и не имела функции перехода к объекту по щелчку на уведомление.

С этого же нужно начинать разработку, с вопроса: а как должен выглядеть пользовательский интерфейс? Сделанные ошибки выглядят просто детскими. Но они оказались фатальными!

Более крупных блэкаутов в США не было, но как и в любой сложной системе, сколько бы дыр в ней не закрывали, всегда может найтись новая.

А как быть имитационным моделированием? С поиском оптимальных систем управления? И что было, если бы было бы несколько независимых энергетических сетей?

В этом и суть нормального incident management: выявить проблемы, определить пути для их устранения, чтобы больше не повторялось. Это интересная область, где работают классные инженеры.

Отечественные подходы, продвинающие принципы негодования и устрашения, в этом смысле контрпродуктивны.

То, есть можно для критически важной отрасли разрабатывать свой собственный продукт (его кто-нибудь сертифицировал?), не real-time, и где можно что-то отключить и "забыть включить" обратно! И никаких протоколов на случай технических работ!

А было ли это так очевидно в 2003 году? Сейчас всем понятно, что компоненты электрической сети должны быть надёжно изолированы во избежание несчастных случаев, но в начале 20-го века этого практически не делали, хотя, казалось бы, очевиднейшая вещь.

Расследование инцидентов это не поиск виноватых. Это крутая инженерная практика. Тот факт, что происшествие в сложной географически распределенной технической системе удалось описать языком, понятным для широкой публики, говорит о высоком уровне проведенной работы.

В АйТи часто бывает так, что ни система ни персонал не способны решать проблемы, когда от инцидента до катастрофы в распоряжении всего час.

Работал с подобной scada системой на крупной ТЭС машинистом энергоблока. БЩУ (блочный щит управления) выглядел примерно как на картинке с множеством мониторов и панелей, только людей у нас поменьше. Одной из практик, уменьшающей вероятность того что машинист не заметит какие то критические изменения, это ведение бумажной ведомости основных показателей, которую необходимо заполнять вручную каждые 2 часа. Также регламентируется постоянная связь с людьми на местах, которые глазами видят оборудование. Но конечно всё это не 100 процентная гарантия, да и легко обходится — ведомости заполняются методом копирования предыдущих записей, люди на местах тоже ненадёжны.

Прямо как будто хроники Чернобыля перечитал

У нас в блоге, кстати, есть

приведя к отключению сотен линий электропередач и 508 энергоблоков на 265 электростанциях, из которых 10 – это АЭС(!)

а почему такое внимание к отключению энергоблоков на АЭС?

Потому что их потом долго включать. Потому что обесточенная АЭС - серьезная авария. Потому что работающий штатно блок АЭС - безопасно, а аварийно отключенный - опасно.

Потому что им три дня остывать перед повторным включением. Кроме того, остывающему реактору требуется питание для охлаждения, а внешнее питание-то пропало. Если бы ещё и у них оказался бардак и, к примеру, не запустились дизели...

Если рассматривать причины этого инцидента с технической стороны, то тут можно выделить отсутствие системы предупреждения о возможности касания проводов ветвей деревьев, и системы, предотвращающей саму возможность лавинообразного отключения ЛЭП по перегрузке при потере существенного количества нагруженных ЛЭП.

Думаю, приближение касания проводов ветвей деревьев можно распознать по характеру увеличения утечки через коронный разряд. Это должно позволить увидеть вероятность такого отключения сильно заранее, и выслать бригаду для рубки или обрезки деревьев.

Система, предотвращающая возможность лавинообразного отключения ЛЭП должна действовать в ситуации, когда человек уже не успевает среагировать, отключая часть потребителей, чтобы избежать отключения магистральных ЛЭП по перегрузке (надеюсь, не все они отключились от касания деревьев на мощности сильно ниже максимальной). Странно, что в США в то время не было такой системы. Интересно, есть ли сейчас?

Если рассматривать причины этого инцидента с технической стороны, то тут можно выделить отсутствие системы предупреждения о возможности касания проводов ветвей деревьев

Такой системе нужны актуальные данные о растущих рядом с ЛЭП деревьях — а в обсуждаемой истории даже с подключенных к SCADA устройств — и с тех актуальные данные снять не всегда могли.


Думаю, приближение касания проводов ветвей деревьев можно распознать по характеру увеличения утечки через коронный разряд. Это должно позволить увидеть вероятность такого отключения сильно заранее, и выслать бригаду для рубки или обрезки деревьев.

Такая система, скорее всего, обнаружила бы приближение за час-два до блэкаута. Бригада для обрезки деревьев так быстро работать не может. А ещё им могло понадобиться отключение линии на время работы, что лишь спровоцировало бы блэкаут ещё раньше.

Такая система, скорее всего, обнаружила бы приближение за час-два до блэкаута.

Такая система скорее всего обнаружила бы приближение ещё в предыдущие циклы провисания. Если только это провисание было не аномально сильным.

Разумеется, оно было аномально сильным, в том-то и проблема! Провисание зависит от температуры, температура зависит от протекающего тока.

Т.е. вы уверены в том, что РАНЕЕ НЕБЫЛО ПИКОВ провисания не сильно слабее? Я вот не уверен

В США другая идеология борьбы с перегрузками линий. У нас отключают потребителей, у них это штрафы к энергокомпаниям. Поэтому нагрузку пытаются "размазать" по линиям, но не отключать.

Думаю, приближение касания проводов ветвей деревьев можно распознать по характеру увеличения утечки через коронный разряд.

Не реально совершенно.
А вот контролируемое выжигание куста через реактор....такая же фантастика)

Поросль в трассе ЛЭП просто планомерно вырубают, не давая шанса и приблизиться к проводам, так как это ещё и потенциальная причина пожара. Почему это не было сделано в данном случае это большой вопрос. Сколько не видел просек под ЛЭП, везде чисто, никаких деревьев под проводами. А вот у мелкого потребителя, особенно если это какое-нибудь СОТ, может быть всякое.

Энергосистема выстраивается по следующему принципу: есть ЛЭП высокого напряжения, которые осуществляют транзит больших мощностей на большие расстояния, есть линии меньшего напряжения, которые дублируют их и распределяют энергию между более мелкими узлами потребления, и есть линии низкого напряжения в распределительной сети, к которой подключают потребителей.
Это описание энергосистем типа ГОЭЛРО. Американские энергосистемы устроены не совсем так (и даже совсем не так).
Худший случай – это перехлёст двух или трёх проводов, что вызовет междуфазное короткое замыкание.
это, конечно, неприятность — но далеко не худший случай. Даже можно сказать, бытовая подробность в работе сети. Бывает не так уж редко, парируется релейными защитами и повторным пуском.
Это описание энергосистем типа ГОЭЛРО. Американские энергосистемы устроены не совсем так (и даже совсем не так).

не разовьёте тему?

Ну, вот это «есть высоковольтный хребет, куда отдают мощность крупные электростанции, а потом от него с постепенным снижением класса напряжения энергия раздаётся» — как раз ГОЭЛРО и как раз так устроена единая энергосистема России (на самом деле есть и автономно работающие сети Дальнего Востока, Магадана, Сахалина — но и они «внутри» устроены так же).
В США производство и потребление электроэнергии росло от компаний. Есть компания, она владеет электростанцией, раздаёт энергию потребителям. Выросла, пристроила себе ещё электростанцию, больше охват потребителей… Выросши, энергокомпании обзавелись некоторым количеством ЛЭП, соединяющих их с соседними зонами. Цельной сети ЛЭП высоких напряжений нет.
Зато есть ЛЭП высоких и сверхвысоких напряжений и даже на постоянном токе для далёких станций. Скажем, у какой-то энергокомпании потребление растёт, а новые генерирующие мощности ставить негде, да и топливо возить неудобно. Строится электростанция где-то за пределами своей зоны, там, где удобнее логистика энергоресурса (это не обязательно уголь или газ). И от этой станции к себе, в свою зону, тянется та самая мощная ЛЭП. Не в общую сеть снабжения страны, а к себе.
Для компании (или группы компаний) практически нет «общего режима страны». Есть режим своей системы и сальдо-переток обмена с соседними системами с учётом частоты. Где и сколько через границу отдавать, где получать — определяется, ессно, договорами. Все отклонения от этого, «ошибка управления зоной», Area Control Error, ACE. Диспетчер, заступая на смену, в первую очередь загоняет АСЕ в ноль, и только после этого занимается всякими событиями внутри своей системы.
Чтобы всё это вместе работало, компании собираются в группы и назначают «регионального координатора надёжности», как та же MISO. Общий на всю страну координатор — NERC. Но указания координаторов не обязательны к исполнению.

Необходимо учесть, что, какое бы мнение первично не создалось при прочтении, на самом деле это не означает «плохо» или «хорошо». Просто особенность. Скажем, по числу и масштабности аварий у нас с америкой примерный паритет (учитывая, что мощности у них во многие разы больше).
Европейские сети тоже устроены по-своему, в Индии — по-своему (там совсем недавно вообще без координаторов обходились), и так далее.

Так если сейчас этот хребет из высоуовольтных лэп есть, то в чем проблема? То что генезис систем разный ок, но в итоге от все равно пришли к схожему построению сети. И межсистемные перевозки насколько я понимаю идут в основном именно через высокрвольтные линии, так что и роль в энергосистеме у них одинаковая

если есть — хорошо. Но — есть не везде. Поверьте, межсистемные связи в американской сети — это не хребет. Как по топологии, так и по характеру использования.
Поймите, в ГОЭЛРО электростанции обязаны отдавать энергию в «хребет». В американской реальности — они должны обеспечивать тот регион, к которому привязаны. В наших аналогиях — они почти все в ТГК, и крупные тоже.
Это играет свою роль.

Так, падажжите. При чем тут это вообще? Речь про то, что чем выше напряжение лэп - тем больше у нее пропускная способность и тем важнее ее роль в энергосистеме. Я понимаю, что в США баланс в значительной мере смещён в сторону низкого напряжения, но блин, все аварии в сша про которые я читал были связаны именно с потерей лэп высокого напряжения по которым шёл транзит мощности. Т.е. вот на вскидку что помню. НЙ 1977, отказ 4 лэп 345кВ по которым энергосистема города получала 3ГВт мощности. И как бы если это не "хребет", то я хз

«Хребет» — это когда высоковольтные ЛЭП объединены в систему. В США они часто одиноки, с одного конца станция, с другого — потребление.
Если продолжать скелетные ассоциации: одно дело — позвоночник, а другое — берцовые кости. Даже мощные — они всё же не позвоночник.
остановился блок №5 ТЭЦ Eastlake мощностью 680 МВт.
Ну да, вот уж мелочь… Вы вообще представляете что-то в области, про которую пишете? Там нет ГОЭЛРО, и потеря полугига для ЭС весьма критична.
Причина аварии крылась в неправильных действиях персонала, приведших к выходу из строя регулятора возбуждения турбины.
Ах, регулятор возбуждения турбины? Всё ясно.
Решением проблемы могло бы быть использование видеостены с большой мнемосхемой
Вот нифига. Это традиционное — и устаревшее решение. оно мало помогает. Хотя, конечно, щит какой-нибудь CAISO в размере стадиона, поставленного вертикально, впечатляет на бытовом уровне.
Можете убедиться, на щит никто не смотрит, толку мало
image

Ну и да, для энергокомпаний в штатах указания MISO и даже NERC не являются обязательными, это не российская ЕЭС. Упомянутые координаторы надёжности выдают не приказы, а рекомендации — за неисполнение которых могут как-то наказать позже при обновлении лицензии на работу.
Дополню тем, что американский диспетчер крайне ограничен в наборе воздействий. Отключить «по списку» он практически никого и никогда не может. В своё время, в 2005 году, московское обесточивание произошло по очень похожей схеме, потому что в то время диспетчеры были почти в том же, «американском», положении.

Получается противоаварийной автоматики в нашем понимании у них вообще нет?

Хорошо, что хотя бы КЗ отключает не диспетчер по сигналу из АСУ "ток выше уставки".

да, противоаварийной автоматики у нас намного, намного больше, чем у них. Но есть.
КЗ отключается автоматически, но включения (АПВ) не обязательно автоматичны. Скажем, в Калифорнии обнаружили, что значительная доля степных пожаров возникает от пробоев на землю при АПВ. Потому там есть отдельны оператор, контролирующий спутниковые снимки (обновляемые каждые полтора часа, пролётом спутника) на цвет степи. Зелёный — АПВ в положении «разрешено». Жёлтый — АПВ запрещено, только вручную, только под контролем.

У нас в середине века диспетчера сидели перед амперметром и отключали линию при превышении. Ничего, когда-нибудь они и АЧР изобретут.
А почему при АПВ, а не при первом КЗ? Может наоборот, при пожарах выше вероятность неуспешного АПВ из-за ионизации воздуха над огнем?

когда-нибудь они и АЧР изобретут.
Наоборот, когда-нибудь и у нас оно исчезнет. У нас тоже число потребителей, которых можно «рубануть», всё время сокращается.
А почему при АПВ, а не при первом КЗ?
«Мопед не мой». Что мне в PGnE рассказывали — то и написал.

Ну а какие варианты? Если, как в большинстве случаев, ввести резерв генерации невозможно, остается только кого-то отключить.
Лучше кого-то, чем всех)

А вот и нет :-)
Лет семь назад, вполне в России.
По памяти, и место называть не буду:
Компания подаёт в суд на энергетиков за отключение. Родная энергетическая контора, ессно, подставляет выставляет диспетчера. Примерно такой диалог:
— Зачем Вы нас отключили?
— Ситуация была предаварийная, перегружено сечение, температура трансформатора…
— Вы хотите сказать, что была авария?
— Нет. (гордо) Я её предотвратил!
— Значит, аварии не было.
— Да, благодаря моей и коллег квалифицированной работе.
— Прошу зафиксировать, аварии не было. Итак, зачем Вы нас отключили?

Можете себе представить, как выглядит подобное там, где всякие там негосударственные компании имеют всякие там права.

Варианты, по рассказам знакомых американских диспетчеров, просты: играть генерацией, ждать, когда всё ляжет — этот форс-мажор исключает иски. И тогда уже быстро поднимать сеть.
Практически все тренировки персонала, какие я видел / для которых готовил модель / прорабатывал сценарии, начинаются одинаково: погасло всё.

Мне кажется наша энергетика сейчас уже не в эту сторону двигается. Активно развивается НТД, новые полномочия СО ЕЭС - курс скорее на усиление регулирования. Действия автоматики или диспетчеров должны соответствовать НТД, а пострадавшим можно и компенсацию выплатить.
Если за системную аварию тоже платить компенсации всем пострадавшим - сразу мотивация предотвращать появится.

«сейчас» у нас всё двигается не скажу, куда. Это всё — «бесплатная надёжность». Но, конечно, не бесплатная для поставщика. Соответственно, работает только при государственном дотировании (за счёт каких-то других статей, тарифов и т.п.).
На самом деле такая система базируется в основном не на обеспечение надёжности электроснабжения, а на сохранение оборудования (в том числе в ущерб надёжности снабжения). Из тех времён, когда оборудование было дефицитно и дороже людей. Хм, ну, почти из нынешних, да.

Нормальное же движение — в сторону стоимости контракта. Хочешь, чтобы тебя нельзя было отключать — заключаешь более дорогой контракт. И тогда, если что — в суд.

Не сохранишь оборудование (а тем более устойчивость) - электроснабжения ни у кого не будет, и гораздо дольше.
Но и категории электроснабжения не вчера придумали.

Дотируется у нас вся энергоёмкая промышленность за счет энергетиков.
Но работа энергосистемы невозможна без разгрузки, сколько денег не пихай.
А уж если тариф индексировать не больше, чем на инфляцию - тем более.

И контракты в таких условиях невозможны - энергетики не могут определять тариф самостоятельно.

Боюсь, Вы не учли одно из моих замечаний. Я не пишу, что вот тут плохо, а там хорошо. Просто описал отличия. И то, в какую сторону пойдёт развитие — уже по моему личному мнению.
Не сохранишь оборудование (а тем более устойчивость) — электроснабжения ни у кого не будет, и гораздо дольше.
Есть и другая сторона вопроса: не будет денег — не на что будет оборудование обновлять. Старое оборудование — много людей, много обслуживания, частые отказы.
Но работа энергосистемы невозможна без разгрузки
Не надо делать таких абсолютных заявлений. Хотя бы потому, что разгрузка бывает разной. Скажем, у нас никто не удивится «веерным отключениям» (которые, на самом деле, «временные») — а в той же Индии или США не особо удивляются браунаутам, нам почти не знакомым (разве что в дачных посёлках или сельской местности).

Принято. Я, конечно, тоже всего лишь высказываю свой мнение.

У нас нет рынка электроэнергии и не предвидится, энергетика в экономическом плане - инструмент для дотирования населения и промышленности. Поэтому денег не будет, нормальных зарплат не будет, новое оборудование будет островками, частые отказы - будут.
Блэкаут - тоже разгрузка, просто нерегулируемая) Я считаю, что это гораздо более плохое решение.

Какой штатный алгоритм действий в таких ситуациях? Ручное перенаправление потоков по менее загруженным сетям (если так, то почему нельзя автоматически так делать?) и/или отключение наименее критических потребителей?

Штатный алгоритм — разный в разных местах. Самое лучшее для энергосистемы — это отрубить потребителей в сумме потерянной генерации :-)
А дальше всё зависит от того, сколько каких потребителей разрешено отключать. Бывает, что и нисколько не разрешено.
Второе решение, увеличивать генерацию, конечно, тоже применяется — но оно хуже, так как создаёт те самые перекосы, что описаны в посте.
Третье решение — пройтись по списку ведущихся ремонтов и оставшемуся времени до ввода в работу и попробовать срочно задействовать это оборудование.

Самое лучшее для энергосистемы — это отрубить потребителей в сумме потерянной генерации

Это происходит на стороне потребителя?

В смысле — глубокосознательный потребитель сам себе отрезает я отключает электричество? Нет :-)
Есть подробно проработанные списки потребителей, по категориям. Этих совсем нельзя отключать, этих только вручную после предупреждения, этих можно завести под автоматику, так что отключение произойдёт неожиданно и, возможно, вскоре так же неожиданно будет восстановление питания (АЧР/ЧАПВ) и т.п.

Это привязано к первой/второй/третьей категории энергоснабжения?

Или какими-то другими терминами описывается?

да, те самые три категории. Малозначимые, имеющие двойное питание (одну цепь можно, соответственно, гасить), либо двойное плюс «дизели», аварийные электростанции и т.п.

В узлах вроде морские млии в час измеряются

Это вы вообще к чему?

ветер в 5 узлов

Действия направленные на поиск виновных в целом малоэффективны для дела. Как говорил мой знакомый, очень умный ученый вместо схемы "Кто виноват и что делать" следует применять "Что виновато и кто делать".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий