Comments 37
Тут возникает вопрос, насколько сильно данный эффект будет отражаться на хранении данных в SSD и будет ли хранение данных в HDD более надежным (применительно к данному эффекту).
На первый взгляд, HDD более защищены (предположительно требуется большее воздействие более мощной частицы на большую площадь, чем требуется для bit flip в микросхеме; металлический корпус), что косвенно подтверждается отсутствием заметного числа текстов на эту тему, обычно обсуждается воздействие на RAM, реже SSD, практически никогда — HDD.
Металл для нейтрона не помеха, как атмосфера, крыша здания и корпус компьютера. Да и жесткий диск хранит данные в виде намагниченных областей на пластине. а не в виде электрического заряда, думаю пластинам частицы глубоко пофигу. А вот флеш-память — да, страдает.
SSD насколько я понимаю имеет более крупные ячейки. Если и будет угроза, то скорее всего 4-х битовым SSD. Но там же есть еще алгоритмы коррекции, куда продвинутей чем для ОЗУ.
habr.com/company/jetinfosystems/blog/346502
Ни в коем случае не хотел посягать на чей-то уровень толковости по этой теме своим сообщением. Извините, если что!!!
habr.com/post/406389
habr.com/post/189066
habr.com/post/401681
В-третьих, ECC же есть везде уже давно.Как раз ны бытовых компах ECC нет, то есть заметить подобное повреждение попросту нечем. Если случайным образом флипать биты в программе, то она достаточно долго может вести себя разумно, а контрольных сумм, способных показать что «таки опа» нету…
Но насчёт того, что случайный сбой в одном бите не всегда приводит к видимым последствиям — это вы правы.
В бытовой dram памяти ddr2/ddr3/ddr4 (модули udimm) 9-го чипа для хранения ECC нет, на шину выходит 64 бита, а не 72.
Десктопный intel обычно не умеет работать с ddr4 ecc: https://ark.intel.com/products/126686/Intel-Core-i7-8700-Processor-12M-Cache-up-to-4_60-GHz ECC Memory Supported ‡ No
Ср. https://ark.intel.com/Search/FeatureFilter?productType=processors&ECCMemory=true и https://ark.intel.com/Search/FeatureFilter?productType=processors&ECCMemory=false
Не встречалась ли вам документация на четность или ecc внутри чипов dram?
Для повышения выхода годных делают запасные ряды — https://www.skhynix.com/static/filedata/fileDownload.do?seq=379 = DDR4_DeviceOperation.pdf
2.32 Post Package Repair (hPPR)
DDR4 supports Fail Row address repair as optional feature for 4Gb and required for 8Gb and above. Supporting hPPR is identified via Datasheet and SPD in Module so should refer to DRAM manufacturer’s Datasheet. PPR provides simple and easy repair method in the system and Fail Row address can be repaired by the electrical programming of Electrical-fuse scheme.
2.33 Soft Post Package Repair (sPPR)
of Repair elements 1 per BG 1 per BG
В продуктах на базе флеш-памяти используются — ECC, BCH (RS) и LDPC (вероятно, в контроллере, а не в самих массивах) https://www.usenix.org/sites/default/files/conference/protected-files/zhao_fast13_slides.pdf
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.644.1525&rep=rep1&type=pdf
http://www.public.asu.edu/~chaitali/jourpapers/chengen_TVLSI.pdf
Вот например. В спецификацию ddr4 возможность встроенного ECC заложена (с выходом на шину 64 бит), а вот реализации — это уже к производителям чипов вопрос.
В спецификацию ddr4 возможность встроенного ECC заложена
Не укажете как это называется в стандарте или в какой его части описано? В JESD79-4.pdf сходу не нашел.
Сообщали от +20% площади и росте задержек — https://www.cs.utah.edu/thememoryforum/kang_slides.pdf "In-DRAM ECC ..but has in general large chip size overhead (~20% for X4 DRAM)"
Исследования похоже есть, но неясно, существуют ли такие чипы в серии…
https://arxiv.org/pdf/1704.03991.pdf "DRAM chips with On-Die ECC are already proposed for systems with DDR3, DDR4 and LPDDR4 standards [55, 31, 91]"
Чип в серии например вот
www.intelligentmemory.com/fileadmin/download/PB_IM_ECC_DRAM.pdf
"4.16.1 CRC Polynomial and logic equation"
DDR4 supports CRC for write operation, and doesn’t support CRC for read operation.
Лучше чем ничего, но, кажется, это лишь защита на этапе транспорта пакета из контроллера памяти в чип ОЗУ. Хранение данных внутри массива этот CRC уже не использует.
PB_IM_ECC_DRAM.pdf — интересно… Для обычной памяти сослались на данные google
Although servers run under well-controlled environmental conditions, failure-rates counted in FIT (failure in time / per billion devices hours) of 25000 to 70000 FIT per Megabit were determined. Conversion into Gigabit and MTBF (mean time between failure) results in only 14 to 40 hours until the first bit flips in a standard 1 Gigabit DRAM chip as an average value.
для своей встроенной ecc заявили
The complete process of error-correction runs without any noticeable delays or latencies and does not require any specific hardware or software changes.
http://lph.ece.utexas.edu/merez/uploads/MattanErez/duo_hpca18.pdf
DUO: Exposing On-chip Redundancy to Rank-Level ECC for High Reliability optional CRC in DDR4 (+цитирования этой статьи)
s In-DRAM error checking and correcting (IECC)… IECC presents inefficiencies… because highly-reliable systems must also rely on rank-level ECC (RECC) with its own redundancy for tolerating severe operational faults such as device failures.… 6.25%
Нашел исследование от Onur Mutlu по выяснению типов ECC в LPDDR4 чипах. Один из 4 производителей (micron?) применяет "(128 + 8) Hamming Code"
https://people.inf.ethz.ch/omutlu/pub/EIN-understanding-and-modeling-in-DRAM-ECC_dsn19-talk.pdf
We experimentally test LPDDR4 DRAM devices
-232 with on-die ECC (one major manufacturer)
-82 without on-die ECC (three major manufacturers)
ECC scheme in LPDDR4 devices with on-die ECC to be a (128 + 8) Hamming Code
on-die ECC:Primarily mitigates technology scaling issues [1]
-Transparently mitigates random single-bit errors (e.g., VRT)
-Fully backwards compatible (no changes to DDRx interface)
Статья: https://people.inf.ethz.ch/omutlu/pub/EIN-understanding-and-modeling-in-DRAM-ECC_dsn19.pdf Understanding and Modeling On-Die Error Correctionin Modern DRAM: An Experimental Study Using Real Devices — ETH/CMU, DOI: 10.1109/DSN.2019.00017 Jun 2019
Нету ЕСС в обычной памяти.
Во-вторых, у вас что, никогда комп не глючит?
Например, такого чтобы в набираем¿м тексте или коде вдруг появился левый симвɏл — ни разу не было.
Может конечно вероятность события раз в 100 лет, тогда да, у меня еще все впереди :)
Кстати, программа «Штирлиц» помогла бы декодировать послание :)
www.softportal.com/software-3560-shtirlits.html
Когда-то давно пользовался, когда был зоопарк разных кодировок и текст мог попасться в любом формате WIN/DOS/KOI8/etc.
Хинт: если все же хотите проверить сами, без супера, вам подойдет трансконтинентальный авиаперелет, на их высоте можно какую-то статистику набрать даже на небольшом объеме памяти.
Или можно стратостат запустить.
Атмосферные ливни приводят к отказу суперкомпьютеров: что можно с этим сделать