Pull to refresh

Comments 70

Примут ли в сервисе нерабочую мамку, потому что её сожгли лучи из космоса?
С тем же успехом можно сообщить сервисникам что ее сжег Свиборг своим взглядом.
примут и отправят ремонтировать на Альфа-Центавру.
придётся подождать немного.

В начале двухысячных в одной из фирм по торговле компьютерными комплекующими среди негарантийных случаев значилось "случайный отказ, вызванный космическими частицами". Сам видел.

UFO just landed and posted this here

Разные бывают. Иногда такие частицы вызывают тиристорный эффект — при этом микросхема просто выгорает.

По моему опыту работы с нейтронными полями достаточно серьёзной концентрации — альфа лучи никак не влияют на внутренности кристаллов. Сильнейшие бета-излучатели приводили к появлению электростатических разрядов на текстолите но никак не влияла на SRAM DRAM? которая не использовалась.
Мощнейщие же гамма поля со сверхвысокими энергиями вообще никак не влияли на CMOS микросхемы логики и транзисторы но с истечением времени могли изменять содержимое памяти DRAM. Ито в режиме энергосбережения когда Refresh происходил редко.


Вполне возможно наши 10 000 кЭв это игрушечная энергия но гораздо больше проблем вознимает на самой плате чем внутри микросхемы. слишком эти частицы мелкие чтоб изменить достаточно огромные ячейки

Альфа-излучение способно приводить к одиночным сбоям в кристаллах, выполненных по суб-100 нм проектным нормам. Другое дело, что внешнее альфа-излучение не способно проникнуть через стенки корпуса. С другой стороны, уже довольно много лет назад все микросхемные корпуса пришлось изрядно переделывать, чтобы избавиться от альфа-активных материалов в них.
Бета- и гама-излучение вполне себе позволяют набрать дозу излучения, от которой у микросхем будет случаться функциональный отказ или параметрический по току потребления из-за утечек. В случае в DRAM этот эффект будет выражен сильнее, потому что SRAM-память самоподдерживающаяся и способна хранить информацию даже при больших утечках, а в DRAM хранящий конденсатор без сигнала рефреша просто разряжается и все.
Ну и да, энергия в 10 МэВ довольно игрушечная по микроэлектронным меркам)
Это для ядерного альфа излучение корпус непреодолимый барьер. Но не для альфа-частиц (или протонов обладающих близкими свойствами) из космического излучения о котором была речь.

Там регулярно встречаются частицы настолько высоких энергий, которым и километры атмосферы и толстый корпус так себе преграда — большую часть отсеивают, но часть все-равно долетает.
Главное, что бы не было видимых повреждений, сдавал оперативку убитую статикой — все норм, деньги вернули.
«К сожалению, не существует никакой реальной защиты от космических лучей, так что остаётся лишь полагаться на везение.» — это неправда. Существует огромное количество эффективных методов защиты от космических лучей, и авионики в том числе.
Более того, существует довольно хорошая статистика сбоев на поверхности, набранная в памяти разного рода суперкомпьютеров, которые, и поэтому никаких «отличных отмазок для сисадминов» не предвидится.
Непонятно, зачем переводить и распространять подобную желтуху, которая игнорирует последние много лет научных исследований и создана для того, чтобы пользователи клюнули на заголовок.
Можно, пожалуйста, ссылку на источник таких исследований. Было бы интересно почитать.
Первые исследования для авионики — начало девяностых
http://ieeexplore.ieee.org/document/212327/
http://ieeexplore.ieee.org/document/490893/

Вот свежие данные, прошлый год
http://ieeexplore.ieee.org/document/7572054/

Вот данные по одиночным сбоям на поверхности земли от 2002 года
http://ieeexplore.ieee.org/document/556861/

Вот про методы защиты коммерческих серверов от одиночных сбоев, 2010 год
http://ieeexplore.ieee.org/document/5442820/

Все уже давно хорошо исследовано, разрабатываются методы защиты, внедряются практические решения, и только очередная небольшая и, в общем-то ничем не примечательная публикация вызвала бурю в стакане воды.
А что насчет бетона? Если я на втором этаже многоэтажки, это несколько метров плит над головой… Плюс атмосфера. Не подземный бункер, конечно, но насколько эффективно? IMHO если бы это была проблема, суперкомпьютеры точно зарывали бы под землю, но этого нет.
Для суперкомпьютеров одиночные эффекты не проблема, в них все равно есть кодирование информации для для защиты от сбоев и помех другого рода. Просто большие объемы памяти суперов позволяют (при отключенной защите) набирать статистику, достаточную для того, чтобы делать какие-то выводы. В системах с меньшими объемами памяти просто потребуется неприлично много времени, чтобы поймать достаточно много сбоев. Даже данные по трансатлантическим перелетам — это единицы (а иногда нули) сбоев за рейс, а на высоте интенсивность попаданий гораздо выше, чем внизу.
Что касается атмосферы, то она является причиной того, что вместо одной прилетающей из космоса частицы мы получаем сотню. До поверхности вторичные частицы не долетают, но для самолетов это фактор, который приходится учитывать.
Скажем так.
Взаимодействие высокоэнергетических частиц с веществом носит вероятностный характер. То есть, всегда остается вероятность прохождения частицы через атмосферу, бетон, свинцовую защиту, массив скальной породы и взаимодействия ее именно внутри микросхемы.
Теоретический предел энергии космической частицы составляет порядка 5*1019 электрон-вольт. Это достаточно, скажем, для нагревания одного грамма воды на два градуса — уже вполне макроскопические показатели. Причем по той же ссылке указано, что экспериментально обнаружены частицы с энергией, превышающий этот предел.
При взаимодействии такой частицы с веществом атмосферы образуется т.н. ливень частиц с меньшей энергией, каждая из которых взаимодействует с веществом так же вероятностно.

Энергия, требуемая для ионизации одного атома, составляет первые тысячи электрон-вольт. То есть, если предположить, что вся энергия ливня поглощается в микросхеме, ионизации подвергаются порядка 1015 атомов, что теоретически может вызвать ток порядка сотен микроампер на протяжении секунды. Ну, если посчитать общий заряд ионизированных атомов. Или (остервенело гуглю) изменения заряда хватит для перезаписи примерно десятка килобит в оперативной памяти, предполагая емкость ячейки приблизительно в десять нанофарад (с точностью до нагугленной информации и моего недосыпа). Поскольку для возникновения сбоя нам нужно явно меньше…

Да, в поправку уважаемому amartology: вторичные — не вторичные, но вообще частицы от таких ливней до поверхности земли долетают и там регистрируются. Мне еще в не очень сознательном школьном возрасте отец показывал детекторы таких частиц на территории МГУ, с подробными объяснениями. Про ливень помню как раз из объяснений.
Проект не компилируется? — космические лучи. Сервер не поднимается? — космические лучи. Баги не ловятся? — космические лучи. Зар. плата маленькая?- -//-
Выписка из типовых должностных обязанностей админа:
«Постоянная защита серверов от космических лучей»
:)
Типовое описание сбоя: «По результатам диагностики, 5-тый банк, 3-го модуля памяти, был поражен космическим лучем „
Пишешь говнокод? Это тебя в детстве космическим лучем задело!
Для защиты… бытовой электроники… системы дублирования…

Это апофеоз.
Что характерно, ошибку обнаружили только благодаря тому, что кандидат получил больше голосов, чем было возможно. Иначе бы сбой остался незамеченным.

Так вот как рептилоиды тайно управляют планетой.
Не удержался.
У инженеров, системных администраторов и программистов теперь есть отличная «отмазка», чтобы объяснить странные глюки компьютерной техники.

Она была давно…
BOFH…
А что, ECC уже отменили? https://ru.m.wikipedia.org/wiki/ECC-память
Для маленьких проектных норм одним только ECC не отделаешься, там десяток битов одним попаданием может вышибать, а то и не один десяток.
А еще говорят космические лучи создают горячие пиксели в цифровых фотоаппаратах — поэтому часто летающие фотоаппараты быстро портятся.

Часто летающие фотоаппараты не столько космическими лучами портятся (на высотах полета пассажирских самолетов космические лучи практически те же, что и на уровне земли по энергетическому спектру, так что час полета просто эквивалентен суткам на земле), сколько рентгеновским просвечиванием. Там дозы весьма солидные, особенно в багажных интроскопах, которые могут и флеш-память стереть при неудачном стечении обстоятельств.

спектр такой же, но количество больше?
или как понять тогда
На высоте более 9000 метров интенсивность нейтронного потока в 300 раз выше, чем на уровне моря.
?
Спектр не такой же, но это не принципиально. С точки зрения набора дозы излучения действительно «час полета равен суткам на земле». Другое дело, что выгорание отдельных пикселей — это не дозовый эффект, а одиночный, похожий по причинам на то, о чем идет речь в статье, и вероятность такого выгорания в полете действительно намного больше, чем на уровне моря.
Есть такое не столько от космической, сколько от солнечной.Возили чувствительные микросхемы самолётом, было много было много дефектных утечки, дрейф сверх нормы -работаем с фемтоамперными токами, то ли светят сильно на проверке багажа, то ли радиация большая на высоте.Перешли на поезд стало гораздо лучше и дату доставки выбираем по низкой интенсивности солнца По сайту http://tesis.lebedev.ru/sun_flares.html после вспышки прослеживается чёткая статистика через 6-8 часов — время пролёта частиц до земли, обновления информации на сайте, на нашем оборудовании возникает сбой, правда при высоком уорне вспышки M,X.При солнечной вспышке выше класса M,X, вылетают входные каскады фотодатчиков, а у производственников сгорают весовые ячейки обработки сигнала с тензодатчиков до 100 гр.Для обоснованной и правильной отписки нерадивым системным администратором, можно брать информацию с сайта Лаборатории рентгеновской астрономии Солнца Физического института Российской Академии наук (ФИАН), главное чтоб его хабраэффект, скоропостижно не постиг.
А солнце не космос что ли? От него точно такие же протоны летят)
Ну и да, микросхемы, работающие с фемтоамперными токами, лучше возить в самолете только тщательно упакованными в толстые алюминиевые контейнеры, потому что иначе набрать дозу, достаточную для образования пикоамперных утечек за один рейс вполне реально, особенно с учетом попадания во вспышку, как у вас случилось.
Ну вот как раз главная цель эксперимента HDEV на МКС — получить практические данные на эту тему. Пока не так всё плохо!
Весной обостряются психические процессы в наших головах. Может это тоже вот это вот всё? =)
UFO just landed and posted this here
Насколько я знаю в самолетах любые критические вычисления параллельно обрабатывается несколькими независимыми компьютерами и потом сравнивается результат. Вероятность что сбой произойдет одинаково в разных системах очень минимальна.

UFO just landed and posted this here
UFO just landed and posted this here
>>машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах. Расследование показало, что этот сбой был вызван изменением одного бита в памяти устройства. Причиной назвали космическое излучение.

Наверное та же причина была у неработающих камер на Кутузовском во время резонансного ДТП, и эта же причина у мифический 146%.
Ну нет, +4096 голосов — это прямо с большой вероятностью переключение одного бита в памяти, случайно такую цифру придумать в рамках 146% все-таки сложно.
Зато это понимал купленный хакер :)
«К сожалению, не существует никакой реальной защиты от космических лучей,»

Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени(всмысле — один отстает на какое-то кол-во тактов). После каждой команды результаты сравниваются, если вылезло различие — это сбой.
Оно конечно не полностью от всего защищает, но именно от летящих частиц по идее должно защитить довольно надежно. Одной частицей попасть одинаково в один и тот же транзистор в разных ядрах — практически нереально. Правда, защищен только проц. С внешней памятью я не знаю как это решается.
И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?
Это если частица перпендикулярно плате летит. А если параллельно? И как раз в слое транзисторов? Может и несколько микросхем зацепить. «Одним махом семерых убивахом», да.
В разных ядрах повреждаются разные транзисторы, и плюс к этому, исполнение смещено во времени. Т.е., ядра сглючивают по-разному, и сравнение результата выдает ошибку.
На самом деле вы оба правы. И защита делается именно так, и проблемы с тем, что цепляет две копии, все равно есть. Просто надо аккуратно проектировать топологию.

«Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени (в смысле — один отстает на какое-то кол-во тактов).»
Если ядер больше двух, то во времени их обычно все же не разносят, скорость терять никому не хочется. И, по-хорошему, дублируют или троируют не целые ядра, а на уровне блоков.

«С внешней памятью я не знаю как это решается.»
Внешняя память используется с помехоустойчивым кодированием данных (в идеале — реализованным в самом чипе памяти).

«И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?»
Он очень маленький, и вероятность попадания в него на много порядков меньше, чем вероятность попадания во что-то другое.
«Внешняя память используется с помехоустойчивым кодированием данных „
Да. Но ведь все равно есть шина, по которой данные бегают “после проверки ECC». И помехи там тоже могут возникать.
Я когда-то работал с подобной системой, и наткнулся, что memcpy копирует данные с изменением. Начали разбираться с аппаратчиками — оказалось какие-то предварительные настройки памяти плохие. И ничего не ругалось. Настройки мы поправили и все заработало, но вот почему ecc и прочие технологии не спасли — вопрос. Так что надо понимать, что это далеко не от всего защита.
Нет, «шины после проверки ECC» быть не должно, после докодирования данные должны раздаваться сразу на исполнительные устройства.
Ну и надо, конечно же понимать, что защититься от 100% ошибок нельзя в принципе, но можно снизить их интенсивность практически до любого заданного уровня.
Вообще, одна частица физически не может пролететь «вдоль» по слою транзисторов обеих ядер: они же разнесены в пространстве.
Нарисуйте две перпендикулярные плоскости и пролетите одной частицей каждую «вдоль». Не получится в силу геометрии. Пролететь вдоль можно только 1 ядро.

На уровне микросхем я написал, что не знаю как это можно решить. Неверное, можно точно так же — разнести дэвайсы в пространстве сдвигом и поворотом. Но вопрос в устройстве, которое будет сравнивать результат их расчета.
Откуда у вас две перпендикулярные плоскости взялись? Все ядра лежат в плоскости своей микросхемы. Даже если разные микросхемы, всё равно есть телесный угол «попадания», когда одной частицей накрывает обе. Вот для трёх уже нет.
Но и три, и десять могут попасть под ливень вторичных частиц от одной и той же высокоэнергетичной.
Думаю, две плоскости взялись из-за того, что два ядра стоят на разных микросхемах, впаянных на разные платы, установленные под углом друг к другу. Так действительно делают.
Бывает и в одной микросхеме несколько ядер. Можно гуглить что-то вроде «Dual CPUs in lockstep».
А как в одной микросхеме получить две разные плоскости? Это как-то не укладывается в эвклидову геометрию)
Это очень странный вопрос. А в чем проблема? Две разные плоскости укладываются в трехмерное эвклидово пространство. Все ок там с геометрией. Я долго думал, что вы подразумеваете таким вопросом. Так и не придумал.

Я ж не предлагаю ядра ставить с самопересечением или взаимопересечением :))
Все происходит в пределах традиционной геометрии.

Или — я не понял вопроса. Можете спросить более развернуто?
Активный слой микросхемы — это одна плоскость. Одна, двух плоскостей там нет.
«Все ядра лежат в плоскости своей микросхемы»
Мы же сейчас не говорим о какой-то конкретной микросхеме. А вы пишите так, как будто мы обсуждаем конкретную. Я вам привел как пример, что так делают.

«одной частицей накрывает обе»
обе — чего? Если ядра расположены «стройненько», то есть вероятность, что одинаковой помехой их одинаково накроет, и они одинаково сглючат. А если мы их разнесли «по фен-шую», то вероятность, что одна и та же частица попадет в один и тот же транзистор и это приведет к одинаковому багу — на порядки меньше. Хотя тоже есть, да.

А поток частиц понятно, что сломает все рано или поздно. С тем же успехом можно ломиком по микросхеме. Т.е., это вообще не панацея, а защита от вполне конкретного вида угроз.
Мы и не говорим о какой-то конкретной микросхеме. Пока что все микросхемы — плоские, и на одном чипе все его части лежат в одной плоскости.
Lock-step, к слову сказать, далеко не самая эффективная технология защиты от сбоев, она наиболее просто имплементируемая в стандартное коммерческое железо.
Заглянул к вам в профиль. Наверное, человек в таким профилем должен по этой теме знать больше чем я. И это выглядит странным — мне попадался когда-то какой-то даташит, который бы сейчас мог бы опровергнуть то, что вы говорите. Но это было так давно, что я не помню, о какой микросхеме конкретно речь. Может вечером поищу, и если найду, то сброшу вам.

Вы когда говорите «все микросхемы — плоские», то подразумеваете вообще все, или все российские?

В чем принципиальная сложность? Вопрос не про конкретные микросхемы, и не про все существующие, а лишь про техническую возможность/невозможность: какая разница, заливать компаундом 1 кристалл или 2? Я не вижу ничего невозможного: 2 кристалла расположили как надо, припаяли куда надо перемычки и все залили керамикой. Если мы уже делаем так с 1 кристаллом, сделать с двумя — осуществимая задача, а взаимное расположение кристаллов в пространстве — неособо важная деталь (при условии что они не перекрывают доступ «жала паяльника»)
Мммм, я под «микросхемой» подразумеваю чип, а вы — корпус. Корпус с несколькими чипами — это не «микросхема», а «микросборка». Отсюда и непонимание. Многокристалльных однокорпусных микросборок очень много (все ПЛИС Xilinx например), в том числе и «многоэтажных».
Но в них, кстати говоря, повернуть два аналогичных чипа на 90 градусов обычно проблематично с точки зрения соединения этих чипов между собой, поэтому обычно их ставят одинаково, создавая этим все условия для того, чтобы космическая частица ударила ровно в два одинаковых транзистора на разных чипах. Так, например, погиб «Фобос-грунт».
ясно. Тогда я этот даташит не буду искать :) По крайней мере сегодня. Я пришел с работы задолбанный. Может потом…
Если пропаять все разъемы, в том числе питания, космических лучей станет меньше и могут воскреснуть неисправные (якобы) жесткие диски.
Недостачу бухгалтерия списала на «данные, унесенные солнечным ветром».
Кроме космических частиц есть еще такая банальная ведь как метастабильность триггеров на границах асинхронных клоковых доменов. Вероятность сбоя почти нулевая, но в масштабах планеты, да и даже просто сервера, такие сбои происходят регулярно. Не всегда они приводят к сбоям более высокого уровня, но чисто гипотетически могут вывести из строя всю схему.
Например, в 2003 году машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах

Видимо, в России оборудование, отвечающее за подсчёт голосов на выборах, находится в зоне гипервысокой активности космического излучения, тогда этим многое можно объяснить.
Хочу такой сбой на моем банковском счету
Интересное название у таких событий. Когда читал подумал что будет что-то типа Single-Event Fault, а там — Upset (знаю, что в даном случае переводится как «опрокидование», в смысле срабатывания транзистора в неположеный момент времени, но все же). Копировал такой компьютер файл, копировал,… и че-та приуныл ;(.
Fault — это не сбой, а необратимый отказ. На самом деле подобных эффектов с десяток, там есть и обратимые, и необратимые. Поэтому то, о чем идет речь в статье — не fault, a «приуныл» )
UFO just landed and posted this here
Единичная космическая частица с высокой энергией с помощью большого тока, протекающего через мощный транзистор, способна необратимо пробить ему затвор или включить паразитный тиристор, который сожжет транзистор целиком.
UFO just landed and posted this here
1) Не закрыть, а пробить затвор.
2) Зависит от реализации, чаще есть. Плюс возможен эффект открывания паразитной биполярной структуры (которая точно есть).
Вообще я знаю, что бывает от воздействия радиации с практически любыми типами «мощных транзисторов».
UFO just landed and posted this here
Да, космические лучи — это несклько иное. И там вопрос не в энергии частицы, кстати, а в других параметрах взаимодействия частицы с кремнием. Поток вообще не нужен, любая частица имеет шанс все сломать (шанс, этот, разумеется, зависит от параметров частицы, но он не прямо пропорционален энергии).
Эффекты single event gate rupture (SEGR) и single event burnout (SEB) довольно часто встречаются, хорошо изучены и описаны в литературе.
Sign up to leave a comment.

Articles