All streams
Search
Write a publication
Pull to refresh
4
0
Да робот я! @lexa

User

Send message
10G IB карточки (SDR 4x) я покупал на ebay по $23 :)
В драйверной части IB сделано очень много такого, чтобы не ходить по уровням модели OSI, заворачивая-разворачивая пакеты, а избавиться лишнего (и задержек-оверхеда). RDMA, GPUDirect, SRP и так далее.

Из перечисленного, поверх ether есть, вроде бы, только RDMA.
Всякий странный софт для цифровых фотографов. www.libraw.su/ и www.rawdigger.ru/ из видимого публично.
Интел *очень* много сделал в области RAM bandwidth
То есть вот реально Sandy Bridge 2-канальный быстрее i7 (первого) трехканального на одной и той же памяти (одни и те же диммы).

С латентностью, понятно, ничего не сделаешь, а bw растет офигенно.
У меня в тестах на двух каналах DDR-1800 получалось 22761Mb/sec: blog.lexa.ru/2011/09/08/opyat_pro_movntps.html

Примерно столько же получается тестированием AIDA64, потому я этой бенчмарке доверяю.

Что вдвое больше реальной скорости вылива данных в GTX680.
Ну так каналов то больше одного.
В десктопных процессорах — два, в сокете 2011 — четыре.
Где догнала?
PCIe3 текущий — 16Gb/sec по спекам, 11Gb/sec намеривают на реальных картах.

Память: 24-27Gb/sec на двухканальном 1155, под 50Gb/sec — на 4-канальном 2011.
В вычислениях памяти регулярно не хватает.
Оттого во всякие теслы ставят больше памяти, чем в игровые карты.
Реальные карты упираются в собственные ограничения, а не в пропускную способность шины.

Реально я видел чуть меньше 6Gb/sec на PCIe2 (x16) на AMD6990 и чуть больше 5 на GTX480. Все — PCIe2.

На новом поколении карт/шины намеривают больше, но смысл от этого не меняется. Для задач низкой арифметической интенсивности (вроде сложения векторов), прочитать из памяти — сложить — записать в память *всегда* будет эффективнее чем «прочитать из памяти в PCIe — что-то поделать на внешнем устройстве — прочитать из PCIe в память».

Смысл в таких упражнениях все равно может быть, но не ради скорости, а ради offload: читаем туда-сюда через DMA, CPU свободен, может показывать скринсейвер.
Сделают — посмотрим. В данной новости обсуждается нечто за $99, а не платы с десятками.

У десятков процессоров — будут те же проблемы, что и у SMP с десятками «обычных» процессоров
Ну как не узкое? ~6Gb/sec на практике. Ну может сейчас уже 8.

А два вектора можно складывать со скоростью памяти. На socket 2011 — около 50Gb/sec.
На десктопе время пользователя дороже поэкономленных 75 ватт (77 хасвелловских на полном ходу минус 2 ватта этого чипа).
Потому что 75 ватт-часов стоят, грубо, один цент в час. А время пользователя — десятки баксофф т.е. в *тысячи* раз дороже.

То есть если 77-ваттный CPU экономит несколько секунд юзерского ожидания в рабочий час — он уже окупился.
Видеокарты имеют смысл, если количество операций на элемент — большое. Потому что у них горлышко (PCIe) узкое, пересылать два вектора на видеокарту чтобы их там сложить — нет смысла.

Но таки да — хотите эффективно использовать CPU — используйте SSE/AVX. Благо, кроме векторных сложений-умножений-итп, туда постепенно много всего интересного суют (strcmp, crc32, aes, dot product и так далее).
Но не на десктопе же!
10-ядерные Xeon E7 вышли весной 2011 года.
Отсчитываем 5 (не 10) лет назад — попадаем в Xeon серии 5000. Два ядра (Pentium-4, даже не Core2), правда частоты повыше раза в полтора.

За эти пять лет: стало в 5 раз больше ядер и стало в ~4 раза больше флопсов на такт (У westmere 2 SSE операции на такт, а P4 одно SSE-сложение или умножение делал за два такта). Делим на полтора (тактовая), получаем что серверные CPU за 5 лет ускорились в ~12 раз на массовых операциях.

Если мотать вперед от E7 (к 16-му году) — то предсказывать конечно сложно, но 4x по флопсам на такт предсказать можно уже сейчас (т.к. AVX удлинил вектор вдвое, а FMA — удвоило флопсы одной операции). Но скорее всего к 16-му году будет уже 512-битный AVX (как он уже есть в Xeon Phi)
По-моему, обсуждение зашло куда-то не туда. На десктопе (обработка фотографий) 60 гигафлопс не смотрятся. В «мае 2013» у Haswell этих гигафлопсов будет под 400 на CPU и сколько-то (по порядку — еще столько же) на его GPU. В ~70 ваттах.
Да, флопсов на ватт меньше, зато самих флопсов — на порядок больше.

То есть эти большие флопсы на ватт интересны там, где ~100 ватт на системный блок не подашь. Или нет столько питания, или нет столько охлаждения. То есть это мобильные решения во всех смыслах (носимые с аккумулятором, возимые вроде автомобильных). Ну и «встроенные в кухонный шкаф»

И таки да, всякий продвинутый Computer Vision для автомобилей, систем видеонаблюдения — будет востребован. На носимых решениях — не знаю, на тех же планшетах (мне) не хватает в первую очередь RAM, а не CPU.
Дело же не в конфигурации, а в том что алгоритм может начать портится с ростом размера библиотеки.
И по качеству портится и по времени работы.
А что происходит при росте библиотеки лиц?

Скажем, если при выдаче паспорта в 25 и 45 лет — всех сканировать (все население), справится ли существующая реализация с библиотекой в 100М лиц?
У современного IB латентность сильно лучше, чем у 10G Ether (Mellanox клянется, что 0.7мкс в 56G).
У 10-гигабитного старого IB — микросекунд 6, что лучше чем 10G Ether, но непринципиально.
От блестящего будущего на мобильных устройствах эту ОС отделяет сущая ерунда. Ее придется полностью переписать.

Потому что 386-й ассемблер на мобильных устройствах (подавляющей их части) — совершенно неактуален.

Information

Rating
Does not participate
Location
Албания
Date of birth
Registered
Activity