Comments 107
Когда я первый раз встретил в прессе эту фразу, там было написано про Intel и архитектуру 80386.
Очень сомневаюсь насчет такой скорой сингулярности. Большой процент человечества будет всегда тормозить прогресс, как сейчас можно запросто заметить на примере правительства почти любой страны на планете. Везде постоянно запрещается что-то что иначе заставило бы вывести многих запрещателей из их зоны комфорта. Еще хорошим примером терминального консерватизма головного мозга можно рассматривать использование нефти и угля когда рядом целые пустыни и океаны площади для размещения солнечных ЭС, ГЭС и ветроэлектростанций. Но ведь ветер и солнце не продашь…
Очень сомневаюсь насчет такой скорой сингулярности.
Она куда ближе, чем вы думаете. По большому счету, нам осталось алгоритмизировать ТРИЗ, чтобы машины могли совершенствовать сами себя.
Ну а потом остается сделать где-нибудь в Гренландии огромный кластер и автоматический завод по производству процессоров + подвозить сырье. Система будет понемногу становиться умнее, изредка переходя на новый техпроцесс или апгрейдясь, используя технологии от людей.
Взяли один Xenon и сравнили его с DGX-1.
1 А сколько этих Xenon можно купить за 130к$?
2 Я так понимаю там терафлопсы такие же как от видеокарт? Тогда почему там не сравнить c R9 295x2 у неё 11.5 терафлопс.
Стоят они меньше 1к$ так что за 130k$ можно думаю собрать много чего.
Я так понимаю там терафлопсы такие же как от видеокарт.
Нет. Это на половинной точности. А на видеокартах на обычной.
nvidianews.nvidia.com/news/nvidia-launches-world-s-first-deep-learning-supercomputer
and new half-precision instructions to deliver more than 21 teraflops of peak performance for deep learning
А во сколько обойдется готовый продукт из связанных между собой 50 ксеонов со сходной суммарной мощьностью и с примерно равными прочими возможностями по пропускной способности обмена данными и доступной памяти? CPU-шные аналоги точно не конкуренты в данном случае. Особенно учитывая расход энергии на единицу вычислений.
Слух это резать не должно и уж тем более доводить Зиночку до слез. Ведь, например, та же «ксенофобия» никого не смущает, верно?
Если уж и брать AMD, то чипы от R9 Fury / Nano.
По FP32 скорости это прямой аналог R9 295x2, только энергоэффективнее и лучше приспособлен для построения кластеров/суперкомпьютеров. С десятикратным ценником за это.
2.
en.wikipedia.org/wiki/List_of_AMD_graphics_processing_units
Radeon Pro Duo 1500$ (Внимание, это самая дорогая карта, если комплектовать Radeon R9 Nano получится и дешевле и меньше потребления)
16.3 TFLOPs (честных float)
Покупаем 10 шт.
Получаем 163 TFLOPs 15k$
Стоит меньше, по питанию потребляет столько же (на preview там было 3 8pin контроллера, 350-400 вт), пропускной способности гораздо больше, памяти тоже больше.
Обвязку сделать… ну не стоит это дополнительных 100k$
Мое нескромное мнение — расходимся нас обманули.
Добавить сюда систему охлаждения, питания, компактность — вероятно, дешевле все же обойдется DGX-1, чем лепить огород из видеокарт, настраивать чтобы оно все работало, да еще и SKD для этого есть, а там придется писать все ручками.
Хотя не исключаю, что цену они могли задрать уж слишком сильно.
www.quora.com/Data-Centers-How-do-colocation-companies-price-their-single-server-1U-spots
100$ + 40$ за каждый ампер сверху базовых 0,5 А.
Nvidia
3500/220*40+100*3
936$
AMD
3500/220*40+200*10
2*1636$ т.к. 2U
Разница 2*700$ в месяц = 2*8400$ в год. Сколько нужно лет чтобы окупить аренду+электричество?
Настраивать чтобы оно все работало
Открою большой секрет. Чем более экзотичное оборудование вы покупаете, тем больше его придется настраивать. DGX-1 — экзотика, а видеокарты от AMD — +- обыденность.
Ок. Вы наймете штат из 10 человек и заплатите каждому по 2000$ в месяц и за месяц они настроят вам AMD. Запишите 20k$ в счет. Опять не вижу чем решение NVidia лучше. (Кроме того, что указал снизу)
Боле-мене живым выглядит только OpenCL'ный бэкенд к torch7...caffe, tensorflow, cntk — де факто с opencl не дружат.
Причем не чистый PR/маркетинг, а снабжение удобными инструментами разработчика, готовыми библиотеками, проведение обучающих курсов/семинаров и т.д. В результате в производительных GPGPU обычно рулит CUDA и NV, хотя никаких особых технических преимуществ у этой связки нет — все упирается в программирование — умеющих хорошо писать под CUDA намного больше, чем в случае c открытым OpenCL.
Что доказывается HTC РВ проектами — там где «дареному коню в зубы не смотрят» и надо работать с тем железом какое предоставили (добровольцы — волонтеры) иначе его просто потеряешь, то на OpenCL под AMD получают результаты не хуже, а зачастую даже лучше чем на CUDA под NV.
И я считаю, имхо, открытые решения типа OpenCL таки коммерчески выгодней на перспективу, привязываться к вендору не лучшая перспектива для бизнеса, который, например, систематически наращивает вычислительные ресурсы, а гарантию что при очередном апгрейде конкуренты не выпустят на голову лучший продукт на выгодных условиях никто не даст.
И да и нет. Если смотреть так, то не появилось бы C#, кучи новых фреймворков и других технологий.
Речь идет конкрено про ИИ и смежные дисциплины (Deep Learning etc.), а не IT-индустрия в целом.
- В разработку тех-же caffe/torch уже вложено куча человеко-часов для разработки текущей версии фреймворка с GPU параллелизмом на CUDA. Смысл развивающимся компаниям вкладывать деньги (которых у них не факт что много) на повторение уже кем-то проделаных и выложеных в паблик шагов? Сейчас в DL сосредотачиваются на решении конкретных задач, а не полировке фреймворков и портировании подо все существующие архитектуры. Проще купить пару TitanX'ов, чем написать свой caffe на OpenCL.
И я считаю, имхо, открытые решения типа OpenCL таки коммерчески выгодней на перспективу, привязываться к вендору не лучшая перспектива для бизнеса, который, например, систематически наращивает вычислительные ресурсы, а гарантию что при очередном апгрейде конкуренты не выпустят на голову лучший продукт на выгодных условиях никто не даст.
Нет никаких гарантий, что под прорывное железо сразу выпустят нормально работающий OpenCL (вон под видяхи adreno вроде бы его до сих пор нету, да и в NEON фиг знает как оно транслируется). И придется портировать код с использованием каких-то низкоуровневых API конкретной железяки
- Также для получения лучших X-ов ускорения придется оптимизировать под конкретное железо, а не в целом на обстрактный зоопарк.
Речь идет конкрено про ИИ и смежные дисциплины (Deep Learning etc.), а не IT-индустрия в целом.
Не смотря на громкий заголовок все же Pascal — это чип общего назначения, никаких специальных инструкций для ИИ они не закладывали кроме поддержки FP16, на что и ставится акцент. Т.е. они по сути порезали точность и логично получили много много флопсов.
В разработку тех-же caffe/torch уже вложено куча человеко-часов для разработки текущей версии фреймворка с GPU параллелизмом на CUDA.
Незачем писать свои велосипеды, выше упомянутые фреймворки вполне обзаводятся поддержкой OpenCL, вот порт от самой AMD для caffe (https://github.com/amd/OpenCL-caffe), есть также и для torch и для остальных.
Нет никаких гарантий, что под прорывное железо сразу выпустят нормально работающий OpenCL
Согласен, но это уже на совести производителя, который реализовывает поддержку оного в своих драйверах. Собственно последние зачастую и подводят во всех аспектах новой железки пока их нормально допилят.
Незачем писать свои велосипеды, выше упомянутые фреймворки вполне обзаводятся поддержкой OpenCL, вот порт от самой AMD для caffe (https://github.com/amd/OpenCL-caffe), есть также и для torch и для остальных.
Порт слегка мертвый(последние коммиты чуть ли не полгода назад были), и что у него с перформансами — не известно. А мейнстримная ветка caffe активно развивается.
б: Экзотика то экзотикой, только с готовым sdk. Решение ± коробочное, всяко дешевле, чем штат сотрудников, которые смогут заставить работать кластер из 10 видеокарт без простоев, проблем с синхронизацией и кучу других задач. Так говорить — можно сразу в ASIC свою сеть зашить, и ничего. Максимальная производительность будет, правда обойдется, конечно, дороговато.
в: почти уверен, что производительность видеокарт растет далеко не линейно с увеличением их количества. Даже если удвоив одну видеокарту вы получите х2 по производительности, то удвоив еще раз — уже не будет х4. В лучшем случае, х3. 8 видеокарт не дадут 800% прироста скорости, пальцем в небо — всего лишь 400% (и что-то мне подсказывет, что это еще оптимистичная оценка)
д: нейронные сети имеют специфику доступа в произвольную точку. Пытаясь настроить работу видеокарт таким образом, чтобы обращение от одной к другой не заставляло ждать это время все другие рано или поздно упретесь в канал между ними. Как ни крутите. Если так разобраться — решение не такое уж и плохое для компаний, которые хотят получать результат, а не проводить рискованный эксперимент, нанимать штат на решение уже решенных задач, а потом упереться во что-то, переплатив несколько раз.
Другими словами проще отдать эту приличную сумму и практически сразу приступить к работе, имея при этом гарантию и поддержку производителя, обновляемый SDK и другие фишки.
Но все не так и плохо, уверен что за 5 лет стоимость их нового решения упадет раз так в 10, может даже больше. При этом за 5 лет еще и новые версии выйдут и тоже будут несколько дешевле.
если взять допустим майнинг, там очень долго балом правили видеокарты от амд(я сейчас даже не про биткоин) потом в один прекрасный день появилась реинкарнация скрипт алгоритма, не на sha + salsa, а aes + ещё чёта, уже плохо помню, два дня обсуждений в чате одного пула, и на вторичном рынке пропали 480 и 580 видюхи нвидии, их архетектура оказалась весьма подходящей под такой вот коин.
Надо полагать, что те кто закупают такие дорогие игрушки знают об альтернативах.
http://evm.vstu.ru/index.php/labs/hpc-lab/about-hpc
Причем, утверждается, что «Стоимость высокопроизводительных кластеров, поставляемых под заказ, обычно в разы или на порядок больше.».
Для обучения нейросети достаточно 4096 CU и 4 Гб памяти. В разные видеокарты запихиваем разные части обучающей выборки. Раздаем задания, собираем результаты, синхронизируем результаты, на второй такт. При правильной организации накладные расходы на синхронизацию будут меньше 1% времени. Т.к. выполнение kernel'а можно довести до >1 сек. Что нуждается в синхронизации — настроечные веса. Сколько их? 1 мб (скорее всего да)? 10? 100? Да пусть 1 Гб настроечных весов даже будет.
Синхронизация будет занимать меньше 1 Гб/с. По PCI-E это ничто. 10G сеть — тоже не экзотика.
Потому как раз эта задача не нуждается во всякого рода ухищрениях по большому маппингу памяти, NVlink'у и прочему.
В комментариях я не увидел молекулярной симуляции, которая в принципе сейчас на видеокарты не переносится пока не будет 128 Гб памяти. Вот это действительно контрпример. Но NVidia почему-то решила взять тем, что сейчас у всех на слуху.
В общем сегмент для «микро-суперкопьютеров».
Ну и по поводу "… я стал искренне переживать, что в моем любимом iMac стоит видеокарта от AMD.", не холивара ради, а просто разобраться, но разве опыт майнинга криптовалют не показывал до этого преимущество AMD над NVIDIA в вычислениях?
И наконец насчет DGX-1, вообще не понятно что с чем сравнили, какого "… аналога предыдущего поколения"? Двухпроцессорный компьютер на Xeon с GPU? Так это и так понятно что GPU обгонит CPU в флопсах.
Последнее: «Удалось добиться, не предусмотренного никаким законом Мура, рекордного ускорения в 12 раз.». Разве закон Мура не за удвоение числа транзисторов говорит, не понятно причем тут конкретно ускорение (хоть эти параметры и связаны)? И если так, то пройдя по ссылке в статье видно что закон Мура превосходно сработал:
Tesla M40 (GM200 (Maxwell)) — Transistors 8 billion
Tesla P100 (GP100 (Pascal)) — 15.3 billion
У карт AMD есть инструкция просчёта хеша SHA256, а Nvidia не захотела её добавлять — вот и всё преимущество AMD для криптовалюты Bitcoin (которую давно уже невыгодно считать на обычных GPU — не окупите видеокарту и электроэнергию).
А для deep learning нейросетей, пока что более высокоуровневый AMD OpenCL в два-три раза медленнее низкоуровневого NVidia CUDA. Поэтому даже числовое преимущество теоретически возможных терафлопсов AMD даёт максимум равенство в практических задачах (при большем расходе электроэнергии у AMD — закладывайте в цену для европы и америки). Поэтому 95% специалистов считают нейросети именно на видеокартах от NVidia.
В последующих поколения NV серьезно нарастила вычилительную мощность перейдя на архитектуру шейдеров очень похожую на ту, что первой начала использовать AMD.
Насколько помню она позволяла где-то раза в 1.5 расчет конкретно SHA256 ускорить.
И еще в 2-3 раза разница была за счет преимущества в чистой вычислительной мощности: число исполнительных блоков х частоту.
Я хотел сказать, что была инструкция, ускоряющая просчёт хеша SHA256.
https://en.bitcoin.it/wiki/Why_a_GPU_mines_faster_than_a_CPU#Why_are_AMD_GPUs_faster_than_Nvidia_GPUs.3F
По ссылке ровно что вы и написали, только чуть больше подробностей.
Просто нейросети сейчас это очень модно, и, хотя нейросети 100%-качественно ни одну задачу пока решить не могут, а обучаются медленнее, чем могли бы, увеличение качества по сравнению с альтернативными решениями всё же очень заметно.
А в глобальном плане, вообще непонятно, вдруг через пару лет резистивные (мемристорные) архитектуры и специализированное железо типа TrueNorth смогут вытеснить видеокарты для нейросетей.
TrueNorth — по мне, мертвое дитя. Он позиционируется, как аналог работы мозга, но мозг даже близко не похож на то, что там.
>по прогнозам через несколько лет именно сегмент нейросетевого использования будет порядка 100 миллиардов долларов
Вот тогда AMD и подтянется. Они почему-то не захотели занимать долю на маленьком рынке в надежде на рост.
>сегмент нейросетевого использования будет порядка 100 миллиардов долларов
Всё может быть. Картинку про экстраполяцию из XKCD помните? https://xkcd.com/605/
Разве нельзя его программировать на любые другие нейронные алгоритмы или близкие к ним?
Мне казалось, что это дальнейшее развитие идей архитектуры наподобие Spinnaker, где вообще используется большое количество стандартных простые ARM ядер, на которых при желании можно считать вообще все что угодно. Но за счет низкой частоты работы + низкого напряжения + локальной памяти + сетевой (а не шинной) структуре связи и оно очень эффективно для обработки нейронных сетей и других алгоритмов требующих гигантского параллелизма, но не критичным к высоким(по меркам классических компьютеров) задержкам. И неэффективно для традиционных вычислительных задач.
Описание TrueNorth — http://paulmerolla.com/merolla_main_som.pdf (см. S1 Neurosynaptic Core Operation с 18-й страницы).
Описание Corelet — концепции программирования TrueNorth — http://www.research.ibm.com/software/IBMResearch/multimedia/IJCNN2013.corelet-language.pdf
Делали симулятор Compass, но исходников не видно — http://www.modha.org/blog/SC12/SC2012_Compass.pdf
http://meseec.ce.rit.edu/722-projects/spring2015/2-1.pdf — Limitations
• No Unsupervised Learning; • Limitation of Connectivity; • Network Scalability; • Low GSOPS
PS: на ARM это ядро совсем не похоже: http://www.research.ibm.com/software/IBMResearch/image/IBMSyNAPSE_core_array.jpg
А про ARM ядра это я про нейроморфные чипы SpiNNaker: https://spinnaker.cs.manchester.ac.uk/tiki-index.php?page=SpiNNaker%20Datasheet
На первый взгляд, структура и подход организации похожи. И даже основное применение — моделирование в ~реалтайме спайковых нейронных сетей. Так что подумал, что TrueNorth дальнейшее развитие подобной архитектуры, только на новых техпроцессах (SpiNNaker еще на древнем 130 нм делался) и с более специализированным и оптимизированным выч. ядром.
Переход от 130 нм на 28 нм + увеличение физических размером (площади) + оптимизация/упрощение ядер, как раз позволило бы вместо 18 больше 1000 простых, но относительно универсальных ядер на каждый чип укладывать.
У меня сейчас, действительно, готова революционная архитектура, которая очень скоро похоронит и глубинное обучение, и сверточные сети (это мое мнение).
По каким критериям эта "архитектура" превосходит deep learning?
Желтизна желтухой погоняет, серьезно.
Тупое перечисление трендов и корпораций. Возвеличивание всех достижений Nvidia, от очень до не очень. Куча эпитетов. «Сам Возняк, создатель „первого“ компьютера с нами поболтал!», «Закон Мура уделали в разы!»
Что вы там уделали? Где ТТХ? Где размеры чипа? Где его особенные фишки, которые делают его интересным именно для ИИ, а не просто хорошей числодробилке? Сколько вообще ватт ест это чудо?
Ни на один из этих вопросов ответов не найти, даже если дочитать до конца этого шедевра маркетолога. Я не хочу казаться занудой конечно, но для «гиковской новости» тут даже этого самого «гика» почти нет — информации 1%, остальное — ярмарка тщеславия компании Nvidia. Тьфу.
NVIDIA представила новую архитектуру Pascal, ориентированную на искусственный интеллект