Comments 58
Хорошо бы увидеть статистику по производителям материнок не перечитывая документ по ссылке.
+3
«зато зависит от производителя материнской платы»
Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
+1
И чем грозят эти ошибки?
0
Чем угодно. Это может быть ошибка в два раза в банковской транзакции, а может быть слегка битый пиксель на одном из каров при просмотре видео, это может уронить даже самую надежную, а может пройти абсолютно без какого бы то ни было влияния на работу системы. Как повезет… Своего рода «русская рулетка».
+7
Вот молодцы гуглецы! Помимо тотального порабощения мира делают достаточно полезные и условно беззатратные исследования. Не устаю ими восхищаться.
+3
«Our data covers the majority of machines in Google’s fleet and spans nearly 2.5 years, from January 2006 to June 2008.» Написано несколько по другому нежели то, что вы написали — «на десяти серверах Google». По моим данным в гугле несколько больше машин.
+5
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
UFO just landed and posted this here
Много тут явно левых данных.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.
Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
Никакого ECC.
Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
0
UFO just landed and posted this here
>Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
0
Есть еще один момент: почти все low-end сервера (аренда <100$) — это не-ECC память.
0
А отличное обоснование отказов информационных систем между прочим.
Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
0
>>на каждый модуль DIMM приходится 3751 ошибка в год
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
0
Забыл на 2 умножить, 4*2=8 ошибок в день — ежедневные 8 шансов получить BSOD или потерять важный документ.
0
Вот так ECC память сделала еще один шаг на пути к кофеваркам и порабощению мира.
Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
-3
Любопытно, что это не первое исследование этих специалистов.
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.
www.usenix.org/events/fast07/tech/schroeder/schroeder_html/
labs.google.com/papers/disk_failures.pdf
По второму документу я делал у себя в блоге делал детальный обзор:
Насколько реальны приводимые производителями показатели MTBF?
blog.aboutnetapp.ru/archives/394
Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
blog.aboutnetapp.ru/archives/397
Насколько можно доверять SMART?
blog.aboutnetapp.ru/archives/413
Приводит ли повышенная температура среды к частому выходу дисков из строя?
blog.aboutnetapp.ru/archives/402
В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.
www.usenix.org/events/fast07/tech/schroeder/schroeder_html/
labs.google.com/papers/disk_failures.pdf
По второму документу я делал у себя в блоге делал детальный обзор:
Насколько реальны приводимые производителями показатели MTBF?
blog.aboutnetapp.ru/archives/394
Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
blog.aboutnetapp.ru/archives/397
Насколько можно доверять SMART?
blog.aboutnetapp.ru/archives/413
Приводит ли повышенная температура среды к частому выходу дисков из строя?
blog.aboutnetapp.ru/archives/402
+3
Разве ECC сейчас не в каждом современном модуле памяти?!
0
UFO just landed and posted this here
ECC DRAM (ECC — Error Correction Code) это специальный тип модулей DRAM, применяется главным образом в серверах, и имеет значительно более высокую цену.
0
Хорошо, «незнчительно» более высокую :)
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
Просто я давно не слежу за ценами на память, в то время, когда мне была интересна цена на память, разница была более существенной.
+2
ECC медленнее
0
Неужели? ;)
0
www.cgtalk.ru/forum/archive/index.php/t-6717.html
"… память с ECC (проверка ошибок) работает чуть медленнее ~5% но стабильнее..."
www.gigabyte.ru/forum/viewtopic.php?t=13702
forums.ferra.ru/lofiversion/index.php/t483.html
"… к тому же работает она медленнее..."
yandex.ru/yandsearch?text=%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C+%D1%81+ecc+%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82+%D0%BC%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%B5%D0%B5&from=fx3&clid=46510&lr=225
"… память с ECC (проверка ошибок) работает чуть медленнее ~5% но стабильнее..."
www.gigabyte.ru/forum/viewtopic.php?t=13702
forums.ferra.ru/lofiversion/index.php/t483.html
"… к тому же работает она медленнее..."
yandex.ru/yandsearch?text=%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C+%D1%81+ecc+%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82+%D0%BC%D0%B5%D0%B4%D0%BB%D0%B5%D0%BD%D0%BD%D0%B5%D0%B5&from=fx3&clid=46510&lr=225
0
ECC память часто требует специализированных комплектующих(CPU, материнка), что Европейские ДЦ, предлагающие дешевые серверы-десктопны, себе могут позволить далеко не всегда…
Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
Вот именно серверные комплектующие и стоят дороже. А так да, если уже подбираешь что-нибудь клиенту на Intel/Supermicro в 1u корпус из готовой платформы, финансового смысла брать не ECC нет.
0
UFO just landed and posted this here
Интересно, что они показали, что soft errors (это космические лучи и альфа распады, которые перезаряжают ячейки) не важны. А ведь на борьбу с фантомными soft errors много усилий в свое время тратили…
+2
Ну и про температуру тоже интересно, но у них методика не особо подходящая.
0
Есть ложь, большая ложь и статистика…
Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
-3
UFO just landed and posted this here
Sign up to leave a comment.
Статистика сбоев DRAM от Google