Как стать автором
Обновить

Линус Торвальдс пожаловался, что на его рабочем ПК спустя 2,5 года непрерывной работы вышла из строя планка памяти

Время на прочтение 2 мин
Количество просмотров 50K
Всего голосов 62: ↑43 и ↓19 +24
Комментарии 87

Комментарии 87

Давайте по отдельной новости о том как Линуся покушал, покакал, сходил в сауну и обматерил автора Linux за говнокод.

А давайте. Не самые плохие новости в сравнении со всем остальным. Я бы даже читал. Наверное.

...контрибъютора Linux

Юлия Якубеня Линус Торвальд уронила сосиску плашку ECC-памяти.

Срочно в номер: Линус Торвальдс покакал, чем отсрочил релиз новой версии Linux на 5 минут

А вообще эту "новость" почему то не только на хабре выложили. Очевидно такая сверхважная информация.

Не знаю насколько эта статья передала проблему, но суть событий в том, что Линус критиковал недоступность ECC, из-за чего ему в прошлый раз пришлось купить не-ECC (и он забыл потом купить и заменить на ECC). На днях у него не проходила компиляция патчей, которые ему прислали, и, я так понимаю, он их забраковал из-за невидимого сбоя (с ECC этот сбой сразу бы дал о себе знать) . Т.е., потеря нескольких часов работы его и тех, кто трудится над патчами из-за случайного решения компании Intel: обычным людям ECC не нужен.

ECC влияет на стоимость и производительность модуля, естественно, он не нужен большинству.

Ну по-моему как раз тут у Линуса аргумент, что если бы ECC был бы разрешен чипсетами Интел, то она была бы дешевле и более доступна. Только плюс всем. И вряд ли это что-то Интелу реально стоило. Возможно, даже была бы лучше унификация между чипсетами.

Ну тут обьективный признак. ECC требует большего транзисторного бюджета, вы же должны где-то эти биты хранить. Потому нет, не будет ECC такой же стоимости.
И да, чипы и линии поддержки ECC на плате тоже что-то стоят и не исчезающе мало.

Я не заметил в словах Линуса, что он ожидает, что цена будет та же. Но все мы знаем, что цена сильно зависит от количества производимого и производителей. Понятно, что больше на один чип на них, но это одна восьмая стоимости. Я бегло глянул сейчас, цена на один DIMM 16GB без ECC обычная около £50, а c ECC начинается со £100. Может где-то разница меньше может быть, но, я думаю, Линус это и имел ввиду

ECC влияет на стоимость и производительность модуля

на производительность с чего? вместо 8 микросхем ставится 9, больше дорожек на материнской плате, остальное в процессоре


на стоимость памяти влияет. увеличивает на 1/8, многие готовы платить эту цену.
и да, в ddr5 on-die ecc всё равно сделали обязательной, так что эту цену придётся платить всем.


что же до поддержки со стороны процессора (из-за которой линус бросал камни в сторону интел), тут вообще похоже, что у intel на большинстве десктопных поддержка просто заблокирована из маркетинговых соображений.


у amd на всех ryzen (кроме xxxxG) была неофициальная поддержка ecc, на новых 7xxx она стала официальной.

Линус покушол

Комментарии: 75

Тут не только в статье проблема.

Ну так маркетологи синих обойм не спят...

Нет уточнения - сдувал ли он пыль с памяти и внутренностей компа? :)

ластиком протер

А это не один и тот же компьютер?

В чём вообще смысл упираться в ecc-memory (и рассказывать какая она нужна и востребованная) если при возникновении проблем человек не видит (и не смотрит, скорее всего) кол-во CE\UE?
Понты ради понтов вижу я...

Этот человек ради понтов свою ОС написал, на которой теперь весь мир работает.
Ему — можно.
В чём вообще смысл упираться в ecc-memory (и рассказывать какая она нужна и востребованная) если при возникновении проблем человек не видит (и не смотрит, скорее всего) кол-во CE\UE?

сходил по ссылке, журналисты как всегда всё переврали:
PS. And yes, my system is all set up for ECC — except I built it
during the early days of COVID when there wasn't any ECC memory
available at any sane prices


у него система поддерживала ecc, но саму память он не смог купить за разумные деньги, потому обошёлся обычной.
сейчас обнаружился сбой памяти, и она будет таки заменена на ecc.

Мда, короче как обычно)) нюансы которые всё меняют.

Журналисты, месье.

во-первых - почему вы решили, что не видит, это же не винда, на линуксе как-то можно посмотреть

во-вторых - эти ошибки прикреплены, насколько понимаю, не ко всей планки - а к кешлайну. (я с есс не работал и могу ошибаться, но насколько представляю, это может быть сделано только так) Соответсвенно, если встречается ue - то это исключение, по которому линукс что-то делает, а если повторное ue то это kernel panic

... потратил впустую изрядное количество времени, пока выяснил, что у него не работает планка памяти

То есть в данном случае пользы от ЕСС оказалось фактически ноль? Вместо того, чтобы исправлять ошибки, или обнаружить и сообщить системе о начавшихся ошибках памяти, что должно быть возможно благодаря битам коррекции, чип просто молча барахлил, давая случайные сбои, как обычная не-ЕСС память. Плохая реклама технологии.

Контроллер и исправлял те ошибки, которые мог, но избыточность же не бесконечная. А чтобы узнать CE/UE надо самому лазить и смотреть, либо заранее позаботиться о каком-то мониторинге и если человек это сам не сделал — при чём тут технологии?

из того что известно не понятно - то ли исправлял ошибки памяти, то ли ошибки в самом контроллере.

но это не важно, важно что Линус, будучи фанатом и адвокатом ECC, тот самый человек кто может и встроить такой мониторинг в систему, чтобы пользователю как-то сообщалось о проблемах, и настроить это для себя. Если ЕСС не помогло Линусу, то для нормального человека польза от технологии точно была бы ноль.

(Конечно, всё это про конкретный случай, думаю ЕСС всё же полезна для основной своей функции - исправлять случайные ошибки вроде вызванных пролетающими космическими частицами, но оказалась бесполезной для диагностирования проблем с самой памятью)

Ну так она и выполняла свою функцию - позволяла отлаживать ядро с меньшим количеством случайных и невоспроизводимых ошибок из-за прилетающих частиц и фоновой радиации. Мониторинг своего состояния - не её основная задача.

Да, это основная но не единственная функция. Системы с ECC умеют репортить обнаруженные неисправимые ошибки тоже, после чего ОС уже решает что делать - может убить одно приложение, или остановить систему если ошибка в системной памяти. Винды обещали что на подходящей системе могут мягко отключить плохой DIMM, перенести память на оставшиеся, и продолжить работать (но это кажется было до тех интеловских изменений на которые Линус жаловался, не знаю, работает ли сейчас). Но понятно что это уже события такие редкие, что отлаживаются в последнюю очередь, поэтому что не сработало не удивлен - но всё же жаль.

Ну, будем надеяться, что теперь-то он обратит внимание и прикрутит нормальный мониторинг.

Посмотрите в комменты выше: учёные изнасиловали журналистов в межушную козюлю и последними было переврано чуть больше, чем всё, текст самого Линуса об этом - "...my system is all set up for ECC — except I built it during the early days of COVID when there wasn't any ECC memory available at any sane prices" (моя система была готова к ЕЦЦ памяти, да я её собрал в начале пандемии, когда таковой за вменяемые деньги не было). У его-то компа как раз ECC и не оказалось.

О, феерично :) Спасибо, я привык проверять детали переводов на Хабре, но чтобы переврали всё полностью ещё не привык :)

АБСОЛЮТНО ВЕРНО

В «новости» написан лютый бред. Как можно было так «перевести» — у меня в голове не укладывается

У Линуса была обычная память, без ЕСС. Из-за чего возникли все эти проблемы. И он заказал память с ЕСС, чтобы ее блок коррекции отлавливал ошибки

denis-19 исправьте этот позор, плиз

Обсуждающие — тоже порадовали.
Ему похер, он даже на сообщения об очепятках не реагирует. Видимо бот.
Boomburum Кто у вас новостями занимается? )
Дай его ник — чтобы более адресно теребонькать)
Спасибо, исправил.

ECC исправляет ошибки возникающие при нормальной работе памяти - эти ошибки memtest не видит потому, что они слишком редкие.

Когда модуль памяти сбоит его нужно менять, теоретически ЕСС может "замаскировать" некоторое кол-во проблем, но его задача не в этом.

Задача ECC следить за тем, что бы из памяти прочиталось, то что туда было записано, а если не получилось, то уведомить пользователя о проблеме, с обычной памятью может быть что угодно: вылететь ОС, программа или продолжить работать с изменёнными данными - это может пройти незаметно или вызвать какой-то спецэффект.

Хабр не жалобная книга (с)

Запасных модулей у него под рукой не оказалось из-за дефицита ECC-памяти на пользовательском рынке.

Поэтому он решил память купить

Дефицит комплектующих же не выражается в их полном отсутствии на рынке.

Если ECC-память на пользовательском рынке сложно найти, то она и стоит недёшево. Очевидно, он не хотел тратить деньги на дорогую память, которая впустую будет лежать на полке, ожидая момента, который может вообще не наступить (следующее поколение Threadripper будет работать уже с DDR5)

Aliexpress в помощь! KLLisre, Envinda, Qiyida!

Да такому человечищу прислать не то что планку памяти, а и целый компьютер посчитает за честь любая компьютерная фирма. "Нашими компьютерами пользуется сам Линус Торвальдс!"

не пришлет. он же обзор не запилит

И к другим новостям.

У автора комментариев на ресурсе Хабр, @Nalivaiпод стекло монитора заполз жук, и он его по глупости раздавил пальцем, пришлось разбирать всю конструкцию. "Надо было наверное игнорировать, пусть сам бы вылез", заметил он.

Примечательно, что в это же время у его жены расклеился корпус ноутбука, однако с этой проблемой справиться было легче.

От дальнейших комментариев чета цифровых коментаторов отказалась.

От дальнейших комментариев чета цифровых коментаторов отказалась.

Вот так всегда, на самом интересном месте!

Ещё один комментатор спешит добавить, что причин для меланхолии никаких нет: жук скоро усохнет и успешно упадет вниз.

О, вафельницу недавно похожую купил.

Забавная история не совсем в тему, но может быть кому-то сбережет кучу сил. Летом две недели методично менял планки памяти местами, чистил контакты, крутил частоты, вольтаж и т.п. пока не выяснилось что это мемтест86 зависает на моём конфиге...

Вот да. Что это он, что не нравится? И чем проверять память, если не им? У меня не осталось машин, на которых memtest86 работал бы без зависания. Собственно memtest86 беру из live образов всяких Debian-based систем, чтобы иметь загрузочную флешку на всякий случай.

а почему не с самого сайта memtest.org?

Потому, что то и дело нужна более полноценная система, чем под одну задачу, но выполняющая её хорошо. Однако Ваша точка зрения тоже имеет право на жизнь.

И чем проверять память, если не им?
Как оказалось, многие ошибки он не ловит. Я в свое время гонял 4 полных круга memtest (или сколько он там дает бесплатно) и не находил ошибок, в то время как приблуды из под Windows находили их в первые секунды работы.
С тех пор для разгона прикупил Karhu RAM Test и бед не знаю.
Из бесплатного есть GSAT и TM5.
А вообще, вот на почитать.
У меня на домашнем сервере были рандомные зависания в среднем раз в пару недель. Мемтест не выявлял ничего, даже при многосуточных прогонах, но проблема была в планке памяти, методом замены комплектующих (полгода потребовалось, пришлось мамку купить еще одну) вычислил ее и заменил, проблема ушла. DDR3 ECC.
Перекомпиляция GCC или Clang по кругу, итераций 10 достаточно для нормального теста.

У меня такая же фигня была, когда искал память для Microserver Gen8. При установке второй планки мемтест вис наглухо, причем даже с оригинальной HP (по отдельности планки без проблем проходили тест в любом слоте). Как потом выяснилось, глючила КОНКРЕТНАЯ версия мемтеста (к сожалению, номер релиза не зафиксировал). Учитывая множество сопутствующих поиску покатушек и ротации денежных средств - матерился долго...

За 10 лет трижды с таким сталкивался. Дважды помогла простая чистка контактов, третий случай - реальный выход из строя чипа памяти. Поэтому после мемтеста в первую очередь нужно прочищать контакты.

Также пару раз сталкивался с аналогичными эффектами по вине сата-кабеля. Портились файлы на дисках. Как это работает её знаю, но степень расшатанности разъема на кабеле играет роль. Поэтому при апгрейдах старые сата-кабели не переиспользую, стараюсь ставить новые кабели под новое железо, чтобы не играть в детектива в очередной раз.

"Для скручивателей SATA кабелей в "пружинку" заготовлен отдельный спиральный прямоточный котёл в аду" (с)

Почему?

Потому что индуктивность

а это актуально для экранированного кабеля? моих познаний в физике недостаточно, чтобы сходу ответить на этот вопрос


Для экранированного не актуально. Вот только не у всех sata кабелей экран имеется.

Экспериментально можете продемонстрировать? У меня разницы в количестве ошибок и скорости не наблюдается.

У меня на работе на парке в несколько сот компьютеров ошибки регулярно встречались практически исключительно на этих спиральках.

И по факту это бикоаксиальный кабель, там ещё и слой диэлектрика искажается; минимальный радиус изгиба для них вполне себе желательно блюсти.

встречались практически исключительно на этих спиральках

Очень субъективно, как опрос среди пользователей интернета, который показал что практически все пользуются интернетом. У меня был только один случай когда глючил sata кабель и он был не скрученным. Гораздо чаще глючила память или проц.
Только для такой скорости/частоты, на которой идет передача в сата кабеле, пружинка должна быть меньше миллиметра диаметра, иначе врядли подействует.

Лучше уж скручивать, чем гнуть. Sata кабели не допускают резкого перегиба.

Так зачем перегибать резко, когда можно плавно? Длины обычно хватает на всё.

Иногда бывает наоборот — слишком длинный кабель, а выводы близко к корзине и надо куда-то его изгибнуть буквой зю, чтобы не телепался по всему корпусу и не перекрывал ток от кулеров

Вот тогда и начинают накручивать всякие спиральки…

На прошлой неделе начали закрываться окна в линуксе.
Threadripper 2970WX. Из 8 планок памяти сгорела одна. Я тоже пару дней тупил, не сразу догадался проверить память.
Сейчас сижу на 6 планках, частоту памяти еще понизил до 2400 МГц. Производительность драматически упала.

Добрый день! Недавно собирал сервер и в мануале увидел строчку "6 DIMM configuration is not recommended for AMD EPYC™ 7002 Series processors." Как я думаю, это относится в том числе и к вашей системе.

Возможно вам стоит использовать 4 планки для повышения производительности.

спасибо. Но мне проще планку купить.
Пришли в гости племянники. Включили игру detroit become human (сам я давно не включал) - у них все лагало, хотя у меня такого не было. В моём мануале вообще было написано отключать часть ядер для игр, так быстрее, но я никогда этим не занимался.

Когда-то народ скидывался Линусу на 386 чтобы он смог продолжить работу над ядром. Похоже, пришла пора скидываться на сервер Эльбрус для сборок. У сервера обычно и с памятью порядок, и ядер побольше, а значит и сборка быстрее. А рулить им можно.... да хоть с ноутбука Эльбрус, скорость управляющей машины вообще не роляет :)

У него Threadripper 3970X, это 32 ядра/64 потока. Теперь и ECC-память поставит. Чем не сервер :)

Не понимаю Линуса. Он не мог для мёрджа зарезервировать на AWS dedicated host на один день? Надо было пердолиться с ноутом?

ядро собирается за две минуты на Threadripper'e.

Новость типа «у Джоан Роулинг перегорела лампочка».
Журналюги опять всё переврали. Не перегорела, а кто-то применил делюминатор, изобретённый Дамблдором.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

ну жалоба.
Маркетологи Интеля придумали рынок где только взрослые процессоры имеют память с ECC. Из-за этого искусственного ограничения страдают все.

У Линуса официальная зарплата в фонде 1 млн долларов в месяц. Цена памяти его не волнует, а геморрой с доставаемостью - да.

Цена памяти его не волнует, а геморрой с доставаемостью — да.
Волнует, как оказалось, ибо переплачивать за ECC он в свое время отказался, из-за чего мы и имеем эту «новость».
Ха… Через 2,5 года.

У нас несколько лет назад ECC-память вышла из строя через 0 лет непрерывной эксплуатации. Просто вставили новые планки в сервер для увеличения памяти, а он не включается. Из 6 новых планок Kingston KVR1333D3D4R9S/16G одна была битая.

Хорошо, что выяснили достаточно быстро причину. А то не запускающийся сервер — это всегда стремно.

невключающийся сервер — это отдельный разговор, это может быть и с обычной памятью.
и причина легко выясняется методом тыка.


тут же речь про то, что обычная память никак не сигнализирует об ошибках, пока вы не запустите многочасовой тест памяти — вы о них не узнаете.


P. S. не понимаю, как можно было включить в ddr5 on-die ecc, и не включить передачу статистики ошибок на процессор. даже дополнительных контактов не надо вводить: канал связи уже есть, spd памяти читается, что мешало?!?

не понимаю, как можно было включить в ddr5 on-die ecc, и не включить передачу статистики ошибок на процессор. даже дополнительных контактов не надо вводить: канал связи уже есть, spd памяти читается, что мешало?!?
Так это же для компенсации ошибок, которые появляются из-за большой частоты. Как и с GDDR6X. Для внутренного, так сказать, использования. Потому что ожидается, что ошибки там будут даже при нормальной работе памяти. Зачем это вываливать пользователю? :)
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Другие новости

Истории