Comments 70
придётся подождать немного.
В начале двухысячных в одной из фирм по торговле компьютерными комплекующими среди негарантийных случаев значилось "случайный отказ, вызванный космическими частицами". Сам видел.
Разные бывают. Иногда такие частицы вызывают тиристорный эффект — при этом микросхема просто выгорает.
По моему опыту работы с нейтронными полями достаточно серьёзной концентрации — альфа лучи никак не влияют на внутренности кристаллов. Сильнейшие бета-излучатели приводили к появлению электростатических разрядов на текстолите но никак не влияла на SRAM DRAM? которая не использовалась.
Мощнейщие же гамма поля со сверхвысокими энергиями вообще никак не влияли на CMOS микросхемы логики и транзисторы но с истечением времени могли изменять содержимое памяти DRAM. Ито в режиме энергосбережения когда Refresh происходил редко.
Вполне возможно наши 10 000 кЭв это игрушечная энергия но гораздо больше проблем вознимает на самой плате чем внутри микросхемы. слишком эти частицы мелкие чтоб изменить достаточно огромные ячейки
Бета- и гама-излучение вполне себе позволяют набрать дозу излучения, от которой у микросхем будет случаться функциональный отказ или параметрический по току потребления из-за утечек. В случае в DRAM этот эффект будет выражен сильнее, потому что SRAM-память самоподдерживающаяся и способна хранить информацию даже при больших утечках, а в DRAM хранящий конденсатор без сигнала рефреша просто разряжается и все.
Ну и да, энергия в 10 МэВ довольно игрушечная по микроэлектронным меркам)
Там регулярно встречаются частицы настолько высоких энергий, которым и километры атмосферы и толстый корпус так себе преграда — большую часть отсеивают, но часть все-равно долетает.
Более того, существует довольно хорошая статистика сбоев на поверхности, набранная в памяти разного рода суперкомпьютеров, которые, и поэтому никаких «отличных отмазок для сисадминов» не предвидится.
Непонятно, зачем переводить и распространять подобную желтуху, которая игнорирует последние много лет научных исследований и создана для того, чтобы пользователи клюнули на заголовок.
http://ieeexplore.ieee.org/document/212327/
http://ieeexplore.ieee.org/document/490893/
Вот свежие данные, прошлый год
http://ieeexplore.ieee.org/document/7572054/
Вот данные по одиночным сбоям на поверхности земли от 2002 года
http://ieeexplore.ieee.org/document/556861/
Вот про методы защиты коммерческих серверов от одиночных сбоев, 2010 год
http://ieeexplore.ieee.org/document/5442820/
Все уже давно хорошо исследовано, разрабатываются методы защиты, внедряются практические решения, и только очередная небольшая и, в общем-то ничем не примечательная публикация вызвала бурю в стакане воды.
Что касается атмосферы, то она является причиной того, что вместо одной прилетающей из космоса частицы мы получаем сотню. До поверхности вторичные частицы не долетают, но для самолетов это фактор, который приходится учитывать.
Взаимодействие высокоэнергетических частиц с веществом носит вероятностный характер. То есть, всегда остается вероятность прохождения частицы через атмосферу, бетон, свинцовую защиту, массив скальной породы и взаимодействия ее именно внутри микросхемы.
Теоретический предел энергии космической частицы составляет порядка 5*1019 электрон-вольт. Это достаточно, скажем, для нагревания одного грамма воды на два градуса — уже вполне макроскопические показатели. Причем по той же ссылке указано, что экспериментально обнаружены частицы с энергией, превышающий этот предел.
При взаимодействии такой частицы с веществом атмосферы образуется т.н. ливень частиц с меньшей энергией, каждая из которых взаимодействует с веществом так же вероятностно.
Энергия, требуемая для ионизации одного атома, составляет первые тысячи электрон-вольт. То есть, если предположить, что вся энергия ливня поглощается в микросхеме, ионизации подвергаются порядка 1015 атомов, что теоретически может вызвать ток порядка сотен микроампер на протяжении секунды. Ну, если посчитать общий заряд ионизированных атомов. Или (остервенело гуглю) изменения заряда хватит для перезаписи примерно десятка килобит в оперативной памяти, предполагая емкость ячейки приблизительно в десять нанофарад (с точностью до нагугленной информации и моего недосыпа). Поскольку для возникновения сбоя нам нужно явно меньше…
Да, в поправку уважаемому amartology: вторичные — не вторичные, но вообще частицы от таких ливней до поверхности земли долетают и там регистрируются. Мне еще в не очень сознательном школьном возрасте отец показывал детекторы таких частиц на территории МГУ, с подробными объяснениями. Про ливень помню как раз из объяснений.
Это апофеоз.
Что характерно, ошибку обнаружили только благодаря тому, что кандидат получил больше голосов, чем было возможно. Иначе бы сбой остался незамеченным.
Так вот как рептилоиды тайно управляют планетой.
Не удержался.
У инженеров, системных администраторов и программистов теперь есть отличная «отмазка», чтобы объяснить странные глюки компьютерной техники.
Она была давно…
BOFH…
Часто летающие фотоаппараты не столько космическими лучами портятся (на высотах полета пассажирских самолетов космические лучи практически те же, что и на уровне земли по энергетическому спектру, так что час полета просто эквивалентен суткам на земле), сколько рентгеновским просвечиванием. Там дозы весьма солидные, особенно в багажных интроскопах, которые могут и флеш-память стереть при неудачном стечении обстоятельств.
или как понять тогда
На высоте более 9000 метров интенсивность нейтронного потока в 300 раз выше, чем на уровне моря.?
Ну и да, микросхемы, работающие с фемтоамперными токами, лучше возить в самолете только тщательно упакованными в толстые алюминиевые контейнеры, потому что иначе набрать дозу, достаточную для образования пикоамперных утечек за один рейс вполне реально, особенно с учетом попадания во вспышку, как у вас случилось.
Наверное та же причина была у неработающих камер на Кутузовском во время резонансного ДТП, и эта же причина у мифический 146%.
Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени(всмысле — один отстает на какое-то кол-во тактов). После каждой команды результаты сравниваются, если вылезло различие — это сбой.
Оно конечно не полностью от всего защищает, но именно от летящих частиц по идее должно защитить довольно надежно. Одной частицей попасть одинаково в один и тот же транзистор в разных ядрах — практически нереально. Правда, защищен только проц. С внешней памятью я не знаю как это решается.
И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?
«Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени (в смысле — один отстает на какое-то кол-во тактов).»
Если ядер больше двух, то во времени их обычно все же не разносят, скорость терять никому не хочется. И, по-хорошему, дублируют или троируют не целые ядра, а на уровне блоков.
«С внешней памятью я не знаю как это решается.»
Внешняя память используется с помехоустойчивым кодированием данных (в идеале — реализованным в самом чипе памяти).
«И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?»
Он очень маленький, и вероятность попадания в него на много порядков меньше, чем вероятность попадания во что-то другое.
Да. Но ведь все равно есть шина, по которой данные бегают “после проверки ECC». И помехи там тоже могут возникать.
Я когда-то работал с подобной системой, и наткнулся, что memcpy копирует данные с изменением. Начали разбираться с аппаратчиками — оказалось какие-то предварительные настройки памяти плохие. И ничего не ругалось. Настройки мы поправили и все заработало, но вот почему ecc и прочие технологии не спасли — вопрос. Так что надо понимать, что это далеко не от всего защита.
Нарисуйте две перпендикулярные плоскости и пролетите одной частицей каждую «вдоль». Не получится в силу геометрии. Пролететь вдоль можно только 1 ядро.
На уровне микросхем я написал, что не знаю как это можно решить. Неверное, можно точно так же — разнести дэвайсы в пространстве сдвигом и поворотом. Но вопрос в устройстве, которое будет сравнивать результат их расчета.
Но и три, и десять могут попасть под ливень вторичных частиц от одной и той же высокоэнергетичной.
Я ж не предлагаю ядра ставить с самопересечением или взаимопересечением :))
Все происходит в пределах традиционной геометрии.
Или — я не понял вопроса. Можете спросить более развернуто?
Мы же сейчас не говорим о какой-то конкретной микросхеме. А вы пишите так, как будто мы обсуждаем конкретную. Я вам привел как пример, что так делают.
«одной частицей накрывает обе»
обе — чего? Если ядра расположены «стройненько», то есть вероятность, что одинаковой помехой их одинаково накроет, и они одинаково сглючат. А если мы их разнесли «по фен-шую», то вероятность, что одна и та же частица попадет в один и тот же транзистор и это приведет к одинаковому багу — на порядки меньше. Хотя тоже есть, да.
А поток частиц понятно, что сломает все рано или поздно. С тем же успехом можно ломиком по микросхеме. Т.е., это вообще не панацея, а защита от вполне конкретного вида угроз.
Lock-step, к слову сказать, далеко не самая эффективная технология защиты от сбоев, она наиболее просто имплементируемая в стандартное коммерческое железо.
Вы когда говорите «все микросхемы — плоские», то подразумеваете вообще все, или все российские?
В чем принципиальная сложность? Вопрос не про конкретные микросхемы, и не про все существующие, а лишь про техническую возможность/невозможность: какая разница, заливать компаундом 1 кристалл или 2? Я не вижу ничего невозможного: 2 кристалла расположили как надо, припаяли куда надо перемычки и все залили керамикой. Если мы уже делаем так с 1 кристаллом, сделать с двумя — осуществимая задача, а взаимное расположение кристаллов в пространстве — неособо важная деталь (при условии что они не перекрывают доступ «жала паяльника»)
Но в них, кстати говоря, повернуть два аналогичных чипа на 90 градусов обычно проблематично с точки зрения соединения этих чипов между собой, поэтому обычно их ставят одинаково, создавая этим все условия для того, чтобы космическая частица ударила ровно в два одинаковых транзистора на разных чипах. Так, например, погиб «Фобос-грунт».
Например, в 2003 году машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах
Видимо, в России оборудование, отвечающее за подсчёт голосов на выборах, находится в зоне гипервысокой активности космического излучения, тогда этим многое можно объяснить.
2) Зависит от реализации, чаще есть. Плюс возможен эффект открывания паразитной биполярной структуры (которая точно есть).
Вообще я знаю, что бывает от воздействия радиации с практически любыми типами «мощных транзисторов».
Эффекты single event gate rupture (SEGR) и single event burnout (SEB) довольно часто встречаются, хорошо изучены и описаны в литературе.
Космические лучи — причина случайных компьютерных сбоев?