Комментарии 97
Если ваш вопрос действительно требует ответа — гуглите изобретение твердотельного тразистора.
Силиконовый транзистор — это самое то для бинарного кода! И обязательно в корпусе из железиума и ванадиума, да стоимостью в биллион!
</зануда>
К черту золото, скупаем тантал
< /ирония>
А кстати, интересно. Кремния у нас на планете хоть пятой точкой ешь, все равно хватит еще ну ооооочень надолго. А вот тантала. боюсь, маловато. Какова будет цена итоговая?
Вопрос в том, как это собираются делать, чтобы это действительно использовалось в компьютерах. И когда.
Может тогда процессор из него сделают?
Еще больше:
https://gist.github.com/jboner/2841832 "Latency Numbers Every Programmer Should Know"
Кэш L1 — 0.5 нс (на самом деле 4-5 тактов)
Кэш L2 — 7 нс (на практике 12 тактов)
Кэш L3 — ?? (30-36 тактов)
Память — 100 нс (порядка 60 нс, ~150-200 тактов)
Чтение 4 КБ с SSD — 150 000 нс (~полмиллиона тактов; лучшие на NVMe — ~60 000 нс)
Чтение с HDD — 10 000 000 нс (~30 миллионов тактов, ждем ~1 поворота пластин)
Даже если единичные элементы памяти будут записывать бит за 1 пс, потребуется к каждому добавить селектор (транзистор, диод, какой-то нелинейный элемент; у DRAM/NAND/NOR — транзистор, у SRAM — пары транзисторов) для возможности организации массивов с выбором элементов. Затем — организовывать элементы с селекторами в массив, создать схемы адресации, записи, вычитывания. В массивах с необходимой для практического использования емкостью (доли гигабита — несколько гигабит), чтобы служебные схемы занимали не более десятков процентов от площади будут использоваться длинные линии адресации/вычитывания в большом количестве, их придется точно так же заряжать через мощные ключи перед чтением. На это уйдет заметное время. Считанные из массива данные необходимо пересылать по крайней мере на несколько сантиметров, любые шины добавят задержек (на сериализацию/десериализацию и физическую передачу на 2/3 c). Данные попадут в Uncore, затем в кэш L3, и задержка L3 прибавится к задержкам памяти.
У меня на AMD Phenom II, т.е. полностью другая платформа от другого производителя и на несколько лет старше — задержки почти такие же как у sumanai на скриншоте выше: 0,9/2,7/8,4/53 нс для L1/L2/L3/RAM. Или 3/9/29/180 тактов ЦП
Так что можно считать их типовыми для более-менее свежих поколений х86.
Все оптимизации, которые нам буквально пару недель назад демонстрировали и которым обучали, — направлены на сокращение количества обращений к памяти как таковой. Ускорение за счет оптимизации такого рода даже в моих неумелых руках на некоторых задачах достигало 30x.
У других слушателей на тестовой задаче было и 100x, и больше.
1 пикосекунда на переключение — это порядка 1ТГц тактовой частоты?
Нет, даже если один транзистор переключается за 1 пс, то это еще не позволяет достичь тактовой частоты схемы в 1 ТГц. Для применяемых на практике схем за такт должен переключиться целый каскад логических элементов (см FO4; Horowitz also cited claims of ~7 FO4 for a fast 64 bit adder… The multiplier is reported here as possessing a multiplication latency of 23.3 FO4).
Транзисторы, изготовленные по тонким техпроцессам уже имеют скорости переключения порядка единиц пс: http://www.siliconcr.com/images/siliconcr_finfet_design_sept12_2015.pdf "Peak fT (transition frequency)… 10nm FinFET has a peak fT in excess of 500GHz!", длительность каждого FO4 — порядка 10 пс "The typical FO4 delay in the most advanced processes is <10ps!".
Правда, насколько я слышал, что то похожее было в приснопамятном четвертом пне, где какие-то блоки внутри работали на удвоенной частоте, правда это привело только к росту производительности тепла и только, значит ли это что идея не верна?
habrahabr.ru/company/intel/blog/282570
«Above 165 K, these fluctuations disappear and the switching ratio RHI/RLO eventually disappears completely above 195 K. »
То есть что то вроде сверхпроводимости по применимости в технике?
(вскрыть в 2026 году и проверить правильность прогноза)
(вскрыть в 2026 году и проверить правильность прогноза)
(вскрыть в 2026 году и проверить правильность прогноза)
p.s. частникам для приватности придется довольствоваться старой тормозной техникой а юрики свои минидатацентры будут заказывать (именно под ключ, как сейчас мини ядерные реакторы 'делают' — привезли, закопали и 20 лет гарантия с обслуживанием)
Нет, будут очень компактные вычислительные устройства, объединённые в распределённую сеть. В т.ч. носимые, в виде тех же украшений хотя бы. Толстые сервера будут, конечно, но они будут решать несколько другие задачи.
Это если из нас скрепок не понаделают, конечно =).
К сожалению 10 лет слишком маленький срок для решения более сложной проблемы — сетевого (а в вашем случае, беспроводного) доступа.
Если оконечный терминал имеет очень низкие требования к качеству связи (не очень широкий канал даже по нынешним меркам и низкие требования к латенси, за исключением шлемов VR конечно, но это особая ниша как раз в следующие 10 лет) то нода распределенной вычислительной сети требует очень высокие параметры, как пропускной способности так и латенси.
И электропитание конечно!
Хотя десятикратное преимущество элементарно съедается дальнейшей цепочкой. Дальше дело за технологией, а еще дальше — за рынком.
Пусть память будет в десять раз быстрее, и будет стоить в два раза дороже — сколько раз подумает потенциальный покупатель?
Хотя для серверного и HPC сегментов — однозначно полезно.
Самое главное, что смущает — что это сделано у нас, а не в недрах Самсунга или IBM. Т.е. довести изобретение до промышленности у нас вряд ли смогут. Самое эффективное для развития этой идеи — увы — всей научной группе продаться какой-либо конторе и там доводить до ума. Или если все опубликовано — то в той же IBM могут быстренько воспроизвести и возможно запатентовать. Что печально.
Это не отменяет того факта, что фразы «ускорит работу памяти» и «ускорит работу компьютера» не являются взаимозаменяемыми.
Только логика рассуждений ошибочная.
Пусть X — суммарное время простоя, Y — время полезной нагрузки в течение 1 сек. Т.е. X + Y = 1 (или Y = 1 — X)
Если X уменьшить в 10 раз, то получим X/10 + Y = 1 (или Y = 1 — X/10)
Т.е. новый Y отличается от старого Y в (1 — X/10) / (1 — X) раз. Вот и найдите, каким должен быть X, что бы эта дробь равнялась 10.
X = 10/11.
Вывод: когда процессор простаивает 10/11 времени, а трудится 1/11 времени, только в этом случае уменьшение простоя в 10 раз увеличит работу в 10. Не беретесь же вы утверждать, что такое соотношение труда и безделия — норма в целом?
В современных процессорах даже на сложных задачах достигается скорость до 50-70% от теоретически возможной. Куча кэшей разных уровней, буферов и предсказателей ветвлений/анализаторов кода, внеочереодное исполнение инструкций и т.д. не зря больше половины кристалла занимают — все они как раз нужны для максимальной загрузки исполняющих устройство и минимизации ожидания(задержек) памяти.
Т.е. даже ускорение работы памяти в 100 раз не может дать увеличения скорости вычислений более чем в 2 раза.
Другое дело, что при такой быстрой памяти можно будет большую часть кэша и буферов из процессора выкинуть и освободившуюся площадь и "транзисторный бюджет" потратить на что-то более полезное в следующих поколениях процессоров. Хотя бы еще ядер налепить на том же размере кристалла как самый простой вариант.
Но и в этом случае эффект от 10 кратного ускорения памяти будет намного меньше 10 раз.
Эта технология могла бы иметь преимущество перед упомянутой MRAM, у которой есть фатальный недостаток — разрушаеющее чтение, но адресация все портит.
Скрытое состояние вещества ускорит работу компьютера в 10 раз