Comments / Profile of vird / Habr

Компактность. Каждую видеокарту из AMD мы развернем в профиль и установим по 2 видеокарты в 2U. Получим итого 20U. Вместо 3U. По электричеству ~ одинаково. Стоимость стойки
www.quora.com/Data-Centers-How-do-colocation-companies-price-their-single-server-1U-spots
100$ + 40$ за каждый ампер сверху базовых 0,5 А.

Nvidia
3500/220*40+100*3
936$

AMD
3500/220*40+200*10
2*1636$ т.к. 2U
Разница 2*700$ в месяц = 2*8400$ в год. Сколько нужно лет чтобы окупить аренду+электричество?

Настраивать чтобы оно все работало

Открою большой секрет. Чем более экзотичное оборудование вы покупаете, тем больше его придется настраивать. DGX-1 — экзотика, а видеокарты от AMD — +- обыденность.
Ок. Вы наймете штат из 10 человек и заплатите каждому по 2000$ в месяц и за месяц они настроят вам AMD. Запишите 20k$ в счет. Опять не вижу чем решение NVidia лучше. (Кроме того, что указал снизу)

Look

NVIDIA представила новую архитектуру Pascal, ориентированную на искусственный интеллект

vird Apr 6 2016 at 18:48

Бонус. По поводу накладных расходов. Пересылку данных можно делать, когда видеокарта занимается просчетами. Что позволяет снизить накладные расходы до последнего слабого звена — запуск kernel'а, а мы и так уже избавились от этого увеличив время выполнения до 1 сек.

Look

NVIDIA представила новую архитектуру Pascal, ориентированную на искусственный интеллект

vird Apr 6 2016 at 18:43

Ответ на ряд замечаний в этой ветке.
Для обучения нейросети достаточно 4096 CU и 4 Гб памяти. В разные видеокарты запихиваем разные части обучающей выборки. Раздаем задания, собираем результаты, синхронизируем результаты, на второй такт. При правильной организации накладные расходы на синхронизацию будут меньше 1% времени. Т.к. выполнение kernel'а можно довести до >1 сек. Что нуждается в синхронизации — настроечные веса. Сколько их? 1 мб (скорее всего да)? 10? 100? Да пусть 1 Гб настроечных весов даже будет.
Синхронизация будет занимать меньше 1 Гб/с. По PCI-E это ничто. 10G сеть — тоже не экзотика.
Потому как раз эта задача не нуждается во всякого рода ухищрениях по большому маппингу памяти, NVlink'у и прочему.

В комментариях я не увидел молекулярной симуляции, которая в принципе сейчас на видеокарты не переносится пока не будет 128 Гб памяти. Вот это действительно контрпример. Но NVidia почему-то решила взять тем, что сейчас у всех на слуху.

Look

NVIDIA представила новую архитектуру Pascal, ориентированную на искусственный интеллект

vird Apr 6 2016 at 16:11

Я так понимаю там терафлопсы такие же как от видеокарт.

Нет. Это на половинной точности. А на видеокартах на обычной.
nvidianews.nvidia.com/news/nvidia-launches-world-s-first-deep-learning-supercomputer

and new half-precision instructions to deliver more than 21 teraflops of peak performance for deep learning

Look

NVIDIA представила новую архитектуру Pascal, ориентированную на искусственный интеллект

vird Apr 6 2016 at 16:04

1. Читаем внимательно релиз. 170 TFLOPs на половинной точности.
2.
en.wikipedia.org/wiki/List_of_AMD_graphics_processing_units
Radeon Pro Duo 1500$ (Внимание, это самая дорогая карта, если комплектовать Radeon R9 Nano получится и дешевле и меньше потребления)
16.3 TFLOPs (честных float)
Покупаем 10 шт.
Получаем 163 TFLOPs 15k$
Стоит меньше, по питанию потребляет столько же (на preview там было 3 8pin контроллера, 350-400 вт), пропускной способности гораздо больше, памяти тоже больше.
Обвязку сделать… ну не стоит это дополнительных 100k$

Мое нескромное мнение — расходимся нас обманули.

Look

Американские инженеры придумали способ увеличить прибыльность майнинга биткоинов на 30%

vird Feb 18 2016 at 01:46

Я ориентировался на вот эту статью https://geektimes.ru/post/51491/

Однако представленный прототип, при создании которого разработчики отказались от традиционной булевой логики, заменив ее вероятностным подходом, в 7 раз быстрее нынешних чипов, и при этом в потребляет в 30 раз меньше энергии.

Другое дело, что полностью вероятностный подход плохо сработает для криптографических функций, т.к. лавинный эффект очень быстро убъет теоретически правильный результат. Т.е. 99% точности для одной операции может быть слишком мало.

Look

Американские инженеры придумали способ увеличить прибыльность майнинга биткоинов на 30%

vird Feb 18 2016 at 01:41

новую технологию, то можно выжать из того самого кристалла больше

Да, вы правы. Я немного неправильно выразился. Имелось ввиду не с того самого дизайна кристалла. А с одного и того же самого куска кремния.

Предложенные схемы сумматоров вполне детерминированы

Про более оптимальные сумматоры. Да, конкретно эти работы они о детерминированных реализациях. Я сначала подумал, что там схемы переноса есть, но они работают не всегда (т.е. метастабильное состояние у них есть, но обычно оно скатывается куда надо).

В такой реализации, как есть, на FPGA обкатывать можно, только оно не даст понимания как оно будет в ASIC'е т.к. нужен будет редизайн под ASIC.

P.s. Думаю, если задумались над такого рода оптимизациями, то до того, чтобы пожертвовать стабильностью тоже дойдут. Потому мой комментарий всё-таки немного ошибочный, относительно именно этой статьи, но скорее правильный в общей тенденции.

Look

Американские инженеры придумали способ увеличить прибыльность майнинга биткоинов на 30%

vird Feb 17 2016 at 15:15

Так-с. Кажется не все поняли, что именно имел ввиду автор и в чем ценность идеи.
Есть класс вычислительных устройств вероятностные вычислительные устройства. Они достигают повышенной скорости и пониженного энергопотребления за счет отказа от того, что вычисления будут 100% точными. Уже были выставки где показывались такие устройства, пока штучные экземпляры.

В комментариях есть несколько грубых ошибок.

Не будет блоков с неправильно посчитанным хэшем. Их не выпустит клиент bitcoin. И их не примут другие участники сети т.к. верификация все-равно проводится на процессоре.
"Взяли бы FPGA" Нельзя взять FPGA и просто обкатать на них. Как и нельзя взять существующие ASIC'и и пробовать на них. Это должен быть специальный дизайн ASIC'а. В среде разработки для FPGA нельзя контролировать процесс деградации дизайна (например вся схема отстает от идеального тайминга одинаково). Там либо всё проходит тест, либо где-то достаточно большая задержка, которая делает всю схему 50% нерабочей. Т.е. классический случай bottleneck при разгоне.

Теперь почему это на самом деле win:

Если уменьшить потребление чипов, то их можно больше запихнуть в +- стандартный пакет 2 КВт. И это уже будет, может даже больше чем +30% на одно изделие потребляющее фиксированную мощность.
Уже сейчас проблема с 32 nm и ниже. См. статьи про темный кремний. Если задействовать весь чип, то он будет иметь эпичное тепловыделение. Если обкатать новую технологию, то можно выжать из того самого кристалла больше. Чем меньше nm, тем больше будет возможностей применить этот прием. Т.е. на 14 nm вероятностный вычислитель будет приятной альтернативой классическому.
А теперь почему эта новость на самом деле отличная. Благодаря биткоинам появится не в теории, а на практике первый серийный вероятностный вычислитель. Да, это не процессор общего назначения. Без биткоина нам ждать серийных вероятностных вычислительных устройств нужно было бы на 5 или даже 10 лет больше. Ключевое слово "серийных" т.е. хотя бы 100k чипов.
Чем больше будет финансово выгодных проектов с вероятностными вычислителями, тем быстрее обкатают технологию. См. Невозвращаемые инвестиции на дизайн масок для чипов.

N.b. Немного сумбурно, где-то я, возможно, допустил грубые ошибки т.к. я не профессиональный FPGA разработчик и не ASIC разработчик. Также стоило бы привести ссылки на соответствующие статьи (даже на хабре всё уже есть).

Look

Самый емкий SSD в мире: 13 ТБ от компании Fixstars

vird Jan 17 2016 at 04:03

Не будет. См. мой коммент выше. Вы не учли стоимость одного слота в серверной. Т.е. в 4 слота можно запихнуть либо 4*1Тб, либо 4*10 Тб.

Look

Самый емкий SSD в мире: 13 ТБ от компании Fixstars

vird Jan 17 2016 at 04:02

Вы не учли стоимость одного слота в серверной. Т.е. в 4 слота можно запихнуть либо 4*1Тб, либо 4*10 Тб.

Look

Altera + OpenCL: программируем под FPGA без знания VHDL/Verilog

vird Nov 9 2015 at 11:08

Ок. Минимальный чип для запуска cyclone v? На stratix iv собрать получится?

Look

Altera + OpenCL: программируем под FPGA без знания VHDL/Verilog

vird Nov 9 2015 at 10:51

www.altera.com/content/dam/altera-www/global/en_US/pdfs/literature/hb/opencl-sdk/aocl_getting_started.pdf

The development system has at least 85 gigabytes (GB) of free disk space for software installation.
The development system has at least 24 GB of RAM

Оно запускается в принципе на меньшем количестве ОЗУ? Например 16 Гб.

Look

Почему именно Vue?

vird Sep 30 2015 at 16:40

Я-то запомню эти девять слов. Но у меня есть большой codebase, который я хочу перенести, например, с angular и мне их придется везде править.

Look

Почему именно Vue?

vird Sep 29 2015 at 22:12

riotjs.com/api/#reserved-words
Пока бросилось вот это в глаза. В том же Angular тебя защищают при помощи $$ префикса. Дополнительный способ выстрелить себе в ногу.

Look

1 2 3 4

6 7