Комментарии 87
Давайте по отдельной новости о том как Линуся покушал, покакал, сходил в сауну и обматерил автора Linux за говнокод.
А давайте. Не самые плохие новости в сравнении со всем остальным. Я бы даже читал. Наверное.
...контрибъютора Linux
Юлия Якубеня Линус Торвальд уронила сосиску плашку ECC-памяти.
Срочно в номер: Линус Торвальдс покакал, чем отсрочил релиз новой версии Linux на 5 минут
А вообще эту "новость" почему то не только на хабре выложили. Очевидно такая сверхважная информация.
Не знаю насколько эта статья передала проблему, но суть событий в том, что Линус критиковал недоступность ECC, из-за чего ему в прошлый раз пришлось купить не-ECC (и он забыл потом купить и заменить на ECC). На днях у него не проходила компиляция патчей, которые ему прислали, и, я так понимаю, он их забраковал из-за невидимого сбоя (с ECC этот сбой сразу бы дал о себе знать) . Т.е., потеря нескольких часов работы его и тех, кто трудится над патчами из-за случайного решения компании Intel: обычным людям ECC не нужен.
Ну по-моему как раз тут у Линуса аргумент, что если бы ECC был бы разрешен чипсетами Интел, то она была бы дешевле и более доступна. Только плюс всем. И вряд ли это что-то Интелу реально стоило. Возможно, даже была бы лучше унификация между чипсетами.
И да, чипы и линии поддержки ECC на плате тоже что-то стоят и не исчезающе мало.
Я не заметил в словах Линуса, что он ожидает, что цена будет та же. Но все мы знаем, что цена сильно зависит от количества производимого и производителей. Понятно, что больше на один чип на них, но это одна восьмая стоимости. Я бегло глянул сейчас, цена на один DIMM 16GB без ECC обычная около £50, а c ECC начинается со £100. Может где-то разница меньше может быть, но, я думаю, Линус это и имел ввиду
ECC влияет на стоимость и производительность модуля
на производительность с чего? вместо 8 микросхем ставится 9, больше дорожек на материнской плате, остальное в процессоре
на стоимость памяти влияет. увеличивает на 1/8, многие готовы платить эту цену.
и да, в ddr5 on-die ecc всё равно сделали обязательной, так что эту цену придётся платить всем.
что же до поддержки со стороны процессора (из-за которой линус бросал камни в сторону интел), тут вообще похоже, что у intel на большинстве десктопных поддержка просто заблокирована из маркетинговых соображений.
у amd на всех ryzen (кроме xxxxG) была неофициальная поддержка ecc, на новых 7xxx она стала официальной.
Линус покушол
Комментарии: 75
Тут не только в статье проблема.
на его основном рабочем ПК на базе AMD спустя 2,5 года непрерывной работы вышла из строя планка памяти ECC DIMM
У суперкомпьютера Frontier возникли проблемы с оборудованием AMD
Кучно пошли.
В чём вообще смысл упираться в ecc-memory (и рассказывать какая она нужна и востребованная) если при возникновении проблем человек не видит (и не смотрит, скорее всего) кол-во CE\UE?
Понты ради понтов вижу я...
Ему — можно.
В чём вообще смысл упираться в ecc-memory (и рассказывать какая она нужна и востребованная) если при возникновении проблем человек не видит (и не смотрит, скорее всего) кол-во CE\UE?
сходил по ссылке, журналисты как всегда всё переврали:
PS. And yes, my system is all set up for ECC — except I built it
during the early days of COVID when there wasn't any ECC memory
available at any sane prices
у него система поддерживала ecc, но саму память он не смог купить за разумные деньги, потому обошёлся обычной.
сейчас обнаружился сбой памяти, и она будет таки заменена на ecc.
Мда, короче как обычно)) нюансы которые всё меняют.
во-первых - почему вы решили, что не видит, это же не винда, на линуксе как-то можно посмотреть
во-вторых - эти ошибки прикреплены, насколько понимаю, не ко всей планки - а к кешлайну. (я с есс не работал и могу ошибаться, но насколько представляю, это может быть сделано только так) Соответсвенно, если встречается ue - то это исключение, по которому линукс что-то делает, а если повторное ue то это kernel panic
... потратил впустую изрядное количество времени, пока выяснил, что у него не работает планка памяти
То есть в данном случае пользы от ЕСС оказалось фактически ноль? Вместо того, чтобы исправлять ошибки, или обнаружить и сообщить системе о начавшихся ошибках памяти, что должно быть возможно благодаря битам коррекции, чип просто молча барахлил, давая случайные сбои, как обычная не-ЕСС память. Плохая реклама технологии.
из того что известно не понятно - то ли исправлял ошибки памяти, то ли ошибки в самом контроллере.
но это не важно, важно что Линус, будучи фанатом и адвокатом ECC, тот самый человек кто может и встроить такой мониторинг в систему, чтобы пользователю как-то сообщалось о проблемах, и настроить это для себя. Если ЕСС не помогло Линусу, то для нормального человека польза от технологии точно была бы ноль.
(Конечно, всё это про конкретный случай, думаю ЕСС всё же полезна для основной своей функции - исправлять случайные ошибки вроде вызванных пролетающими космическими частицами, но оказалась бесполезной для диагностирования проблем с самой памятью)
Ну так она и выполняла свою функцию - позволяла отлаживать ядро с меньшим количеством случайных и невоспроизводимых ошибок из-за прилетающих частиц и фоновой радиации. Мониторинг своего состояния - не её основная задача.
Да, это основная но не единственная функция. Системы с ECC умеют репортить обнаруженные неисправимые ошибки тоже, после чего ОС уже решает что делать - может убить одно приложение, или остановить систему если ошибка в системной памяти. Винды обещали что на подходящей системе могут мягко отключить плохой DIMM, перенести память на оставшиеся, и продолжить работать (но это кажется было до тех интеловских изменений на которые Линус жаловался, не знаю, работает ли сейчас). Но понятно что это уже события такие редкие, что отлаживаются в последнюю очередь, поэтому что не сработало не удивлен - но всё же жаль.
del
Посмотрите в комменты выше: учёные изнасиловали журналистов в межушную козюлю и последними было переврано чуть больше, чем всё, текст самого Линуса об этом - "...my system is all set up for ECC — except I built it during the early days of COVID when there wasn't any ECC memory available at any sane prices" (моя система была готова к ЕЦЦ памяти, да я её собрал в начале пандемии, когда таковой за вменяемые деньги не было). У его-то компа как раз ECC и не оказалось.
О, феерично :) Спасибо, я привык проверять детали переводов на Хабре, но чтобы переврали всё полностью ещё не привык :)
В «новости» написан лютый бред. Как можно было так «перевести» — у меня в голове не укладывается
У Линуса была обычная память, без ЕСС. Из-за чего возникли все эти проблемы. И он заказал память с ЕСС, чтобы ее блок коррекции отлавливал ошибки
denis-19 исправьте этот позор, плиз
Обсуждающие — тоже порадовали.
ECC исправляет ошибки возникающие при нормальной работе памяти - эти ошибки memtest не видит потому, что они слишком редкие.
Когда модуль памяти сбоит его нужно менять, теоретически ЕСС может "замаскировать" некоторое кол-во проблем, но его задача не в этом.
Задача ECC следить за тем, что бы из памяти прочиталось, то что туда было записано, а если не получилось, то уведомить пользователя о проблеме, с обычной памятью может быть что угодно: вылететь ОС, программа или продолжить работать с изменёнными данными - это может пройти незаметно или вызвать какой-то спецэффект.
Хабр не жалобная книга (с)
Запасных модулей у него под рукой не оказалось из-за дефицита ECC-памяти на пользовательском рынке.
Поэтому он решил память купить
Если ECC-память на пользовательском рынке сложно найти, то она и стоит недёшево. Очевидно, он не хотел тратить деньги на дорогую память, которая впустую будет лежать на полке, ожидая момента, который может вообще не наступить (следующее поколение Threadripper будет работать уже с DDR5)
Aliexpress в помощь! KLLisre, Envinda, Qiyida!
Да такому человечищу прислать не то что планку памяти, а и целый компьютер посчитает за честь любая компьютерная фирма. "Нашими компьютерами пользуется сам Линус Торвальдс!"
не пришлет. он же обзор не запилит
Вот ребята собирали Грегу Кроа-Хартману компьютер: https://youtu.be/37RP9I3_TBo
Но, справедливости ради, он сделал своего рода обзор: http://www.kroah.com/log/blog/2020/09/18/fast-kernel-builds/
И к другим новостям.
У автора комментариев на ресурсе Хабр, @Nalivaiпод стекло монитора заполз жук, и он его по глупости раздавил пальцем, пришлось разбирать всю конструкцию. "Надо было наверное игнорировать, пусть сам бы вылез", заметил он.
Примечательно, что в это же время у его жены расклеился корпус ноутбука, однако с этой проблемой справиться было легче.
От дальнейших комментариев чета цифровых коментаторов отказалась.
Забавная история не совсем в тему, но может быть кому-то сбережет кучу сил. Летом две недели методично менял планки памяти местами, чистил контакты, крутил частоты, вольтаж и т.п. пока не выяснилось что это мемтест86 зависает на моём конфиге...
Вот да. Что это он, что не нравится? И чем проверять память, если не им? У меня не осталось машин, на которых memtest86 работал бы без зависания. Собственно memtest86 беру из live образов всяких Debian-based систем, чтобы иметь загрузочную флешку на всякий случай.
Этот пользует Passmark EFI Memtest.
а почему не с самого сайта memtest.org?
И чем проверять память, если не им?Как оказалось, многие ошибки он не ловит. Я в свое время гонял 4 полных круга memtest (или сколько он там дает бесплатно) и не находил ошибок, в то время как приблуды из под Windows находили их в первые секунды работы.
С тех пор для разгона прикупил Karhu RAM Test и бед не знаю.
Из бесплатного есть GSAT и TM5.
А вообще, вот на почитать.
У меня такая же фигня была, когда искал память для Microserver Gen8. При установке второй планки мемтест вис наглухо, причем даже с оригинальной HP (по отдельности планки без проблем проходили тест в любом слоте). Как потом выяснилось, глючила КОНКРЕТНАЯ версия мемтеста (к сожалению, номер релиза не зафиксировал). Учитывая множество сопутствующих поиску покатушек и ротации денежных средств - матерился долго...
За 10 лет трижды с таким сталкивался. Дважды помогла простая чистка контактов, третий случай - реальный выход из строя чипа памяти. Поэтому после мемтеста в первую очередь нужно прочищать контакты.
Также пару раз сталкивался с аналогичными эффектами по вине сата-кабеля. Портились файлы на дисках. Как это работает её знаю, но степень расшатанности разъема на кабеле играет роль. Поэтому при апгрейдах старые сата-кабели не переиспользую, стараюсь ставить новые кабели под новое железо, чтобы не играть в детектива в очередной раз.
"Для скручивателей SATA кабелей в "пружинку" заготовлен отдельный спиральный прямоточный котёл в аду" (с)
Потому что индуктивность
а это актуально для экранированного кабеля? моих познаний в физике недостаточно, чтобы сходу ответить на этот вопрос
У меня на работе на парке в несколько сот компьютеров ошибки регулярно встречались практически исключительно на этих спиральках.
И по факту это бикоаксиальный кабель, там ещё и слой диэлектрика искажается; минимальный радиус изгиба для них вполне себе желательно блюсти.
Лучше уж скручивать, чем гнуть. Sata кабели не допускают резкого перегиба.
Так зачем перегибать резко, когда можно плавно? Длины обычно хватает на всё.
На прошлой неделе начали закрываться окна в линуксе.
Threadripper 2970WX. Из 8 планок памяти сгорела одна. Я тоже пару дней тупил, не сразу догадался проверить память.
Сейчас сижу на 6 планках, частоту памяти еще понизил до 2400 МГц. Производительность драматически упала.
Добрый день! Недавно собирал сервер и в мануале увидел строчку "6 DIMM configuration is not recommended for AMD EPYC™ 7002 Series processors." Как я думаю, это относится в том числе и к вашей системе.
Возможно вам стоит использовать 4 планки для повышения производительности.
Когда-то народ скидывался Линусу на 386 чтобы он смог продолжить работу над ядром. Похоже, пришла пора скидываться на сервер Эльбрус для сборок. У сервера обычно и с памятью порядок, и ядер побольше, а значит и сборка быстрее. А рулить им можно.... да хоть с ноутбука Эльбрус, скорость управляющей машины вообще не роляет :)
Не понимаю Линуса. Он не мог для мёрджа зарезервировать на AWS dedicated host на один день? Надо было пердолиться с ноутом?
ну жалоба.
Маркетологи Интеля придумали рынок где только взрослые процессоры имеют память с ECC. Из-за этого искусственного ограничения страдают все.
У Линуса официальная зарплата в фонде 1 млн долларов в месяц. Цена памяти его не волнует, а геморрой с доставаемостью - да.
У нас несколько лет назад ECC-память вышла из строя через 0 лет непрерывной эксплуатации. Просто вставили новые планки в сервер для увеличения памяти, а он не включается. Из 6 новых планок Kingston KVR1333D3D4R9S/16G одна была битая.
Хорошо, что выяснили достаточно быстро причину. А то не запускающийся сервер — это всегда стремно.
невключающийся сервер — это отдельный разговор, это может быть и с обычной памятью.
и причина легко выясняется методом тыка.
тут же речь про то, что обычная память никак не сигнализирует об ошибках, пока вы не запустите многочасовой тест памяти — вы о них не узнаете.
P. S. не понимаю, как можно было включить в ddr5 on-die ecc, и не включить передачу статистики ошибок на процессор. даже дополнительных контактов не надо вводить: канал связи уже есть, spd памяти читается, что мешало?!?
не понимаю, как можно было включить в ddr5 on-die ecc, и не включить передачу статистики ошибок на процессор. даже дополнительных контактов не надо вводить: канал связи уже есть, spd памяти читается, что мешало?!?Так это же для компенсации ошибок, которые появляются из-за большой частоты. Как и с GDDR6X. Для внутренного, так сказать, использования. Потому что ожидается, что ошибки там будут даже при нормальной работе памяти. Зачем это вываливать пользователю? :)
Линус Торвальдс пожаловался, что на его рабочем ПК спустя 2,5 года непрерывной работы вышла из строя планка памяти