Статистика сбоев DRAM от Google

    Статистика, собранная за два с половиной года на десяти серверах Google, показала, что количество ошибок в RAM гораздо выше, чем предполагалось ранее. В среднем на каждый модуль DIMM приходится 3751 ошибка в год. Если в микросхеме не реализована технология ECC, то эти ошибки так и остаются неисправленными.

    Это первое столь масштабное и полное исследование надёжности оперативной памяти, используемой в стандартных ПК. Были проверены модули разных производителей и разных типов (DDR1, DDR2, FB-DIMM).



    Как оказалось, количество ошибок мало зависит от температуры системы и марки DIMM, зато зависит от производителя материнской платы. Полные результаты см. здесь.
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 58

      +3
      Хорошо бы увидеть статистику по производителям материнок не перечитывая документ по ссылке.
        +3
        В документе нет названий :(
          0
          Видимо специально, но я думаю гугл отошлет информацию производителям
          +3
          Это научное исследование, а не рыночный обзор.
          +1
          «зато зависит от производителя материнской платы»

          Извините, видимо я не силён в английском, но что-то я не нашёл указания на производителей материнских плат, и то, что от них зависит количество ошибок в памяти.
            0
            И чем грозят эти ошибки?
              +7
              Чем угодно. Это может быть ошибка в два раза в банковской транзакции, а может быть слегка битый пиксель на одном из каров при просмотре видео, это может уронить даже самую надежную, а может пройти абсолютно без какого бы то ни было влияния на работу системы. Как повезет… Своего рода «русская рулетка».
                0
                -_- Ксо…
                * на одном из кадров
                * уронить даже самую надежную систему
                  –6
                  У меня сегодня умерла Win7. Траур, марш, цветы, скорбим.
                    0
                    Думаете, что из-за ошибки в памяти? :)
                    0
                    Пусть сгинет в века тот банк, что использует память без ECC
                      0
                      про банк-клиент слышали?
                        0
                        про контроль на стороне сервера слышали?
                          0
                          при чём тут сервер, если сбой на клиентском компьютере?
                            0
                            как испугается клиент, когда увидит не ту сумму, как удивиться клиент, когда ему предложат подтвердить не ту сумму, какой ужас
                  +3
                  Вот молодцы гуглецы! Помимо тотального порабощения мира делают достаточно полезные и условно беззатратные исследования. Не устаю ими восхищаться.
                  • НЛО прилетело и опубликовало эту надпись здесь
                    +5
                    «Our data covers the majority of machines in Google’s fleet and spans nearly 2.5 years, from January 2006 to June 2008.» Написано несколько по другому нежели то, что вы написали — «на десяти серверах Google». По моим данным в гугле несколько больше машин.
                    • НЛО прилетело и опубликовало эту надпись здесь
                    • НЛО прилетело и опубликовало эту надпись здесь
                      • НЛО прилетело и опубликовало эту надпись здесь
                        • НЛО прилетело и опубликовало эту надпись здесь
                          • НЛО прилетело и опубликовало эту надпись здесь
                              0
                              Много тут явно левых данных.
                              Оверклокеры памят тестируют по 24 часа, 8Гб, и не обнаруживают ошибок, если система стабильна. Как это возможно? :-D
                              Никакого ECC.

                              Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.
                              • НЛО прилетело и опубликовало эту надпись здесь
                                  0
                                  Место для ошибок остается, и достаточно. Перегрев процессора, чипсета — вот вам и ошибки даже с ECC.
                                  • НЛО прилетело и опубликовало эту надпись здесь
                                      0
                                      Кроме того, классический ECC исправляет только одиночные и обнаруживает двойные ошибки.
                                    0
                                    >Опять же, у меня дома 8Гб памяти, и аптайм — месяцы, без проблем.

                                    Подавляющая масса данных и кода в памяти такого объёма на домашнем десктопе мало критична к единичным повреждениям.
                                      0
                                      «Оверклокерские» тесты памяти критичны даже к одному искаженному биту…
                                        0
                                        «Оверклокерские» тесты памяти критичны даже к одному искаженному биту…
                                      0
                                      Есть еще один момент: почти все low-end сервера (аренда <100$) — это не-ECC память.
                                        0
                                        Именно, поэтому очень жаль, что тот же Hetzer продает серверы без ECC :(

                                        Мы собираемся взять сервер (вместо keyweb) в Serverloft только из-за ECC-памяти
                                      0
                                      А отличное обоснование отказов информационных систем между прочим.

                                      Сервер упал из-за естественного радиоактивного излучения и вспышек сверхновых звезд :))
                                      0
                                      >>на каждый модуль DIMM приходится 3751 ошибка в год
                                      Если предположить, что их сервера работают круглосуточно, получаем 10 ошибок в сутки — по одной ошибке каждые 2,5 часа.
                                      Допустим обычный рабочий ПК работает 8-10 часов в день, то при двух модулях памяти получаем около 4 ошибок в день. Не так уж и мало.
                                        0
                                        Забыл на 2 умножить, 4*2=8 ошибок в день — ежедневные 8 шансов получить BSOD или потерять важный документ.
                                          0
                                          Ну да. Только вот сами шансы эти — в целом довольно маленькие. С другой стороны — если компьютер занят исключительно тем, что считает критически важные данные, то вероятность опасной ошибки может быть довольно высока.
                                        –3
                                        Вот так ECC память сделала еще один шаг на пути к кофеваркам и порабощению мира.

                                        Еще метод — просто ставить сильно больше оперативы, чтобы была больше вероятность попадания ошибки на незанятую область. Хотя результат пугающий — что-то уж больно много…
                                          +2
                                          Не поможет, больше оперативы — больше ошибок. :) Так что только ECC :)
                                          +3
                                          Любопытно, что это не первое исследование этих специалистов.
                                          В 2007 году они также делали исследование о надежности и вероятностях выхода из строя жестких дисков.

                                          www.usenix.org/events/fast07/tech/schroeder/schroeder_html/

                                          labs.google.com/papers/disk_failures.pdf

                                          По второму документу я делал у себя в блоге делал детальный обзор:

                                          Насколько реальны приводимые производителями показатели MTBF?
                                          blog.aboutnetapp.ru/archives/394

                                          Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?
                                          blog.aboutnetapp.ru/archives/397

                                          Насколько можно доверять SMART?
                                          blog.aboutnetapp.ru/archives/413

                                          Приводит ли повышенная температура среды к частому выходу дисков из строя?
                                          blog.aboutnetapp.ru/archives/402
                                            0
                                            Разве ECC сейчас не в каждом современном модуле памяти?!
                                            • НЛО прилетело и опубликовало эту надпись здесь
                                                0
                                                ECC DRAM (ECC — Error Correction Code) это специальный тип модулей DRAM, применяется главным образом в серверах, и имеет значительно более высокую цену.
                                              • НЛО прилетело и опубликовало эту надпись здесь
                                                +2
                                                Интересно, что они показали, что soft errors (это космические лучи и альфа распады, которые перезаряжают ячейки) не важны. А ведь на борьбу с фантомными soft errors много усилий в свое время тратили…
                                                  0
                                                  Ну и про температуру тоже интересно, но у них методика не особо подходящая.
                                                    –3
                                                    Есть ложь, большая ложь и статистика…

                                                    Достаточно несколько полностью сбойный модулей, и статистика круто изменится.
                                                      –2
                                                      Это, если что — я просто предположил, как можно круто поменять статистику, учитывая сколько (и правильных, и ошибочных) операций с памятью производится на серверах 24/7.
                                                        0
                                                        На большой популяции любые резко выпадающие из общей тенденции результаты легко нивелируются большим количеством общих данных.
                                                          +2
                                                          Подтверждаю. Вычисление «аномального эксперта» довольно простая статистическая задача.
                                                    • НЛО прилетело и опубликовало эту надпись здесь

                                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                      Самое читаемое