AMD
3500/220*40+200*10
2*1636$ т.к. 2U
Разница 2*700$ в месяц = 2*8400$ в год. Сколько нужно лет чтобы окупить аренду+электричество?
Настраивать чтобы оно все работало
Открою большой секрет. Чем более экзотичное оборудование вы покупаете, тем больше его придется настраивать. DGX-1 — экзотика, а видеокарты от AMD — +- обыденность.
Ок. Вы наймете штат из 10 человек и заплатите каждому по 2000$ в месяц и за месяц они настроят вам AMD. Запишите 20k$ в счет. Опять не вижу чем решение NVidia лучше. (Кроме того, что указал снизу)
Бонус. По поводу накладных расходов. Пересылку данных можно делать, когда видеокарта занимается просчетами. Что позволяет снизить накладные расходы до последнего слабого звена — запуск kernel'а, а мы и так уже избавились от этого увеличив время выполнения до 1 сек.
Ответ на ряд замечаний в этой ветке.
Для обучения нейросети достаточно 4096 CU и 4 Гб памяти. В разные видеокарты запихиваем разные части обучающей выборки. Раздаем задания, собираем результаты, синхронизируем результаты, на второй такт. При правильной организации накладные расходы на синхронизацию будут меньше 1% времени. Т.к. выполнение kernel'а можно довести до >1 сек. Что нуждается в синхронизации — настроечные веса. Сколько их? 1 мб (скорее всего да)? 10? 100? Да пусть 1 Гб настроечных весов даже будет.
Синхронизация будет занимать меньше 1 Гб/с. По PCI-E это ничто. 10G сеть — тоже не экзотика.
Потому как раз эта задача не нуждается во всякого рода ухищрениях по большому маппингу памяти, NVlink'у и прочему.
В комментариях я не увидел молекулярной симуляции, которая в принципе сейчас на видеокарты не переносится пока не будет 128 Гб памяти. Вот это действительно контрпример. Но NVidia почему-то решила взять тем, что сейчас у всех на слуху.
1. Читаем внимательно релиз. 170 TFLOPs на половинной точности.
2. en.wikipedia.org/wiki/List_of_AMD_graphics_processing_units
Radeon Pro Duo 1500$ (Внимание, это самая дорогая карта, если комплектовать Radeon R9 Nano получится и дешевле и меньше потребления)
16.3 TFLOPs (честных float)
Покупаем 10 шт.
Получаем 163 TFLOPs 15k$
Стоит меньше, по питанию потребляет столько же (на preview там было 3 8pin контроллера, 350-400 вт), пропускной способности гораздо больше, памяти тоже больше.
Обвязку сделать… ну не стоит это дополнительных 100k$
Однако представленный прототип, при создании которого разработчики отказались от традиционной булевой логики, заменив ее вероятностным подходом, в 7 раз быстрее нынешних чипов, и при этом в потребляет в 30 раз меньше энергии.
Другое дело, что полностью вероятностный подход плохо сработает для криптографических функций, т.к. лавинный эффект очень быстро убъет теоретически правильный результат. Т.е. 99% точности для одной операции может быть слишком мало.
новую технологию, то можно выжать из того самого кристалла больше
Да, вы правы. Я немного неправильно выразился. Имелось ввиду не с того самого дизайна кристалла. А с одного и того же самого куска кремния.
Предложенные схемы сумматоров вполне детерминированы
Про более оптимальные сумматоры. Да, конкретно эти работы они о детерминированных реализациях. Я сначала подумал, что там схемы переноса есть, но они работают не всегда (т.е. метастабильное состояние у них есть, но обычно оно скатывается куда надо).
В такой реализации, как есть, на FPGA обкатывать можно, только оно не даст понимания как оно будет в ASIC'е т.к. нужен будет редизайн под ASIC.
P.s. Думаю, если задумались над такого рода оптимизациями, то до того, чтобы пожертвовать стабильностью тоже дойдут. Потому мой комментарий всё-таки немного ошибочный, относительно именно этой статьи, но скорее правильный в общей тенденции.
Так-с. Кажется не все поняли, что именно имел ввиду автор и в чем ценность идеи.
Есть класс вычислительных устройств вероятностные вычислительные устройства. Они достигают повышенной скорости и пониженного энергопотребления за счет отказа от того, что вычисления будут 100% точными. Уже были выставки где показывались такие устройства, пока штучные экземпляры.
В комментариях есть несколько грубых ошибок.
Не будет блоков с неправильно посчитанным хэшем. Их не выпустит клиент bitcoin. И их не примут другие участники сети т.к. верификация все-равно проводится на процессоре.
"Взяли бы FPGA" Нельзя взять FPGA и просто обкатать на них. Как и нельзя взять существующие ASIC'и и пробовать на них. Это должен быть специальный дизайн ASIC'а. В среде разработки для FPGA нельзя контролировать процесс деградации дизайна (например вся схема отстает от идеального тайминга одинаково). Там либо всё проходит тест, либо где-то достаточно большая задержка, которая делает всю схему 50% нерабочей. Т.е. классический случай bottleneck при разгоне.
Теперь почему это на самом деле win:
Если уменьшить потребление чипов, то их можно больше запихнуть в +- стандартный пакет 2 КВт. И это уже будет, может даже больше чем +30% на одно изделие потребляющее фиксированную мощность.
Уже сейчас проблема с 32 nm и ниже. См. статьи про темный кремний. Если задействовать весь чип, то он будет иметь эпичное тепловыделение. Если обкатать новую технологию, то можно выжать из того самого кристалла больше. Чем меньше nm, тем больше будет возможностей применить этот прием. Т.е. на 14 nm вероятностный вычислитель будет приятной альтернативой классическому.
А теперь почему эта новость на самом деле отличная. Благодаря биткоинам появится не в теории, а на практике первый серийный вероятностный вычислитель. Да, это не процессор общего назначения. Без биткоина нам ждать серийных вероятностных вычислительных устройств нужно было бы на 5 или даже 10 лет больше. Ключевое слово "серийных" т.е. хотя бы 100k чипов.
Чем больше будет финансово выгодных проектов с вероятностными вычислителями, тем быстрее обкатают технологию. См. Невозвращаемые инвестиции на дизайн масок для чипов.
N.b. Немного сумбурно, где-то я, возможно, допустил грубые ошибки т.к. я не профессиональный FPGA разработчик и не ASIC разработчик. Также стоило бы привести ссылки на соответствующие статьи (даже на хабре всё уже есть).
riotjs.com/api/#reserved-words
Пока бросилось вот это в глаза. В том же Angular тебя защищают при помощи $$ префикса. Дополнительный способ выстрелить себе в ногу.
Очень жаль, что нету live leaderboard'а.
Мое на 100k sample'ов только 62.67%.
llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch
llanfairpwllgwyngyll
tsktsk
stddmp
bkbndr
Очень замечательные слова.
weltschmerzes
Очень английское
Пока единственным недостатком явлется
http://webpack.github.io/docs/code-splitting.html
Что плохо стыкуется с vue-loader'ом.
Ок. Пускай такое работает.
www.quora.com/Data-Centers-How-do-colocation-companies-price-their-single-server-1U-spots
100$ + 40$ за каждый ампер сверху базовых 0,5 А.
Nvidia
3500/220*40+100*3
936$
AMD
3500/220*40+200*10
2*1636$ т.к. 2U
Разница 2*700$ в месяц = 2*8400$ в год. Сколько нужно лет чтобы окупить аренду+электричество?
Открою большой секрет. Чем более экзотичное оборудование вы покупаете, тем больше его придется настраивать. DGX-1 — экзотика, а видеокарты от AMD — +- обыденность.
Ок. Вы наймете штат из 10 человек и заплатите каждому по 2000$ в месяц и за месяц они настроят вам AMD. Запишите 20k$ в счет. Опять не вижу чем решение NVidia лучше. (Кроме того, что указал снизу)
Для обучения нейросети достаточно 4096 CU и 4 Гб памяти. В разные видеокарты запихиваем разные части обучающей выборки. Раздаем задания, собираем результаты, синхронизируем результаты, на второй такт. При правильной организации накладные расходы на синхронизацию будут меньше 1% времени. Т.к. выполнение kernel'а можно довести до >1 сек. Что нуждается в синхронизации — настроечные веса. Сколько их? 1 мб (скорее всего да)? 10? 100? Да пусть 1 Гб настроечных весов даже будет.
Синхронизация будет занимать меньше 1 Гб/с. По PCI-E это ничто. 10G сеть — тоже не экзотика.
Потому как раз эта задача не нуждается во всякого рода ухищрениях по большому маппингу памяти, NVlink'у и прочему.
В комментариях я не увидел молекулярной симуляции, которая в принципе сейчас на видеокарты не переносится пока не будет 128 Гб памяти. Вот это действительно контрпример. Но NVidia почему-то решила взять тем, что сейчас у всех на слуху.
Нет. Это на половинной точности. А на видеокартах на обычной.
nvidianews.nvidia.com/news/nvidia-launches-world-s-first-deep-learning-supercomputer
2.
en.wikipedia.org/wiki/List_of_AMD_graphics_processing_units
Radeon Pro Duo 1500$ (Внимание, это самая дорогая карта, если комплектовать Radeon R9 Nano получится и дешевле и меньше потребления)
16.3 TFLOPs (честных float)
Покупаем 10 шт.
Получаем 163 TFLOPs 15k$
Стоит меньше, по питанию потребляет столько же (на preview там было 3 8pin контроллера, 350-400 вт), пропускной способности гораздо больше, памяти тоже больше.
Обвязку сделать… ну не стоит это дополнительных 100k$
Мое нескромное мнение — расходимся нас обманули.
Другое дело, что полностью вероятностный подход плохо сработает для криптографических функций, т.к. лавинный эффект очень быстро убъет теоретически правильный результат. Т.е. 99% точности для одной операции может быть слишком мало.
Да, вы правы. Я немного неправильно выразился. Имелось ввиду не с того самого дизайна кристалла. А с одного и того же самого куска кремния.
Про более оптимальные сумматоры. Да, конкретно эти работы они о детерминированных реализациях. Я сначала подумал, что там схемы переноса есть, но они работают не всегда (т.е. метастабильное состояние у них есть, но обычно оно скатывается куда надо).
В такой реализации, как есть, на FPGA обкатывать можно, только оно не даст понимания как оно будет в ASIC'е т.к. нужен будет редизайн под ASIC.
P.s. Думаю, если задумались над такого рода оптимизациями, то до того, чтобы пожертвовать стабильностью тоже дойдут. Потому мой комментарий всё-таки немного ошибочный, относительно именно этой статьи, но скорее правильный в общей тенденции.
Есть класс вычислительных устройств вероятностные вычислительные устройства. Они достигают повышенной скорости и пониженного энергопотребления за счет отказа от того, что вычисления будут 100% точными. Уже были выставки где показывались такие устройства, пока штучные экземпляры.
В комментариях есть несколько грубых ошибок.
Теперь почему это на самом деле win:
N.b. Немного сумбурно, где-то я, возможно, допустил грубые ошибки т.к. я не профессиональный FPGA разработчик и не ASIC разработчик. Также стоило бы привести ссылки на соответствующие статьи (даже на хабре всё уже есть).
The development system has at least 85 gigabytes (GB) of free disk space for software installation.
The development system has at least 24 GB of RAM
Оно запускается в принципе на меньшем количестве ОЗУ? Например 16 Гб.
Пока бросилось вот это в глаза. В том же Angular тебя защищают при помощи $$ префикса. Дополнительный способ выстрелить себе в ногу.