Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
Чем угодно. Это может быть ошибка в два раза в банковской транзакции, а может быть слегка битый пиксель на одном из каров при просмотре видео, это может уронить даже самую надежную, а может пройти абсолютно без какого бы то ни было влияния на работу системы. Как повезет… Своего рода «русская рулетка».
«Our data covers the majority of machines in Google’s fleet and spans nearly 2.5 years, from January 2006 to June 2008.» Написано несколько по другому нежели то, что вы написали — «на десяти серверах Google». По моим данным в гугле несколько больше машин.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесьНЛО прилетело и опубликовало эту надпись здесьНЛО прилетело и опубликовало эту надпись здесь
Много тут явно левых данных.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.
Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
>>на каждый модуль DIMM приходится 3751 ошибка в год
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
Ну да. Только вот сами шансы эти — в целом довольно маленькие. С другой стороны — если компьютер занят исключительно тем, что считает критически важные данные, то вероятность опасной ошибки может быть довольно высока.
Вот так ECC память сделала еще один шаг на пути к кофеваркам и порабощению мира.
Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
Любопытно, что это не первое исследование этих специалистов.
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.
ECC DRAM (ECC — Error Correction Code) это специальный тип модулей DRAM, применяется главным образом в серверах, и имеет значительно более высокую цену.
Хорошо, «незнчительно» более высокую :)
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
ECC память часто требует специализированных комплектующих(CPU, материнка), что Европейские ДЦ, предлагающие дешевые серверы-десктопны, себе могут позволить далеко не всегда…
Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
Интересно, что они показали, что soft errors (это космические лучи и альфа распады, которые перезаряжают ячейки) не важны. А ведь на борьбу с фантомными soft errors много усилий в свое время тратили…
Это, если что — я просто предположил, как можно круто поменять статистику, учитывая сколько (и правильных, и ошибочных) операций с памятью производится на серверах 24/7.
Статистика сбоев DRAM от Google