Как стать автором
Обновить

Комментарии 24

«Компания не планирует продавать свои процессоры кому-либо» — обидно, однако
Наверняка так будет ровно до тех пор, пока кто-нибудь другой не выйдет на рынок с аналогичным продуктом.
Правда Google, возможно, сможет задушить конкурентов патентами. Без детального анализа трудо сказать наверняка.
Мы предлагаем ими воспользоваться как сервисом: https://cloud.google.com/ml-engine/. По задумке, использование сервиса будет дешевле, чем запуск аналогичных моделей на CPU. https://cloud.google.com/speech/ тоже использует TPU.

Там похоже только TensorFlow запустится.

Облака не всегда удобны.
Да, да… :) И намного дороже чем использование собственного GPU
Так биткойны теперь продавать или покупать? )

"Специализированный ASIC" — это как "масляное масло". Сама аббревиатура ASIC уже обозначает Application-Specific.

IT-технологии :)

Автомобильный завод АвтоВАЗ)

CD\DVD-диск.
Habra-habr
GNU — GNU's not UNIX.
Протокол TCP/IP
CAD design )
>> до последнего времени, когда внедрила машинное обучение для ряда практических задач, и на эти нейросети начала расти нагрузка с миллиардами запросов от пользователей

А я думал основные мощности во время обучения идут, а потом нет. А тут оказывается от к-ва запросов к обученой сети зависит
Обучение действительно очень вычислительно затратное, но оно делается один раз, а запросы к обученной сети — это уже пользовательский трафик, который идёт постоянно и в огромных объёмах.
>>в то время как в более новой версии Broadwell Xeon E5 v4 количество инструкций на цикл увеличилось на 5% благодаря архитектурным улучшениям, а в версии Skylake Xeon E5 v5, которая ожидается летом количество
инструкций на цикл может увеличиться ещё на 9-10%.

И все? Вот берем Бродвель, сравниваем со Скайлейком и получаем только +10%? Странно что их кто то покупает…
Сравнивают плавающее умножение на CPU и GPU с умножением 8 битных целых на TPU. Конечно, в итоге будет сравнение по теплу будет в сто раз. Но что интересно, заявлено что на Haswell пускали также целочисленное 8 битное умножение и оно дало в два раза большие цифры, чем плавающие операции. Что странно, ибо в AVX2 есть инструкции для умножения векторов с 8 битными элементами, что даёт 4 кратное увеличение пропускной способности по сравнению с 32 битным FP умножением, а не двукратное.

Размышления про Skylake тоже странные, ибо в серверной версии будут AVX512 инструкции, которые дадут вдвое большую ширину вектора, чем доступно в Haswell.

Так нет же native 8-битных операций на железе с которым сравнивали

Думал можно для это использовать VPMADDUBSW из AVX2, но похоже из-за того, что потом результат нужно вручную ужимать из 16 до 8 бит получается просад производительности.
в статье все цифры сравнения производительности только с процессором, но многократно повторяют что превосходит GPU до 70 раз

GPU по сравнению с CPU дает 10-кратный прирост, без какой либо привязке к архитектуре сети (ограничения только на объем памяти, но она измеряется в гигабайтах, а не 64к страничках)

Я не сомневаюсь что ASIC даст очень большой прирост, но сравнивать нужно все же не с процессором
По идее, всё то же самое можно сделать на инстансах F1 в амазоновском EC2. Причём кастомного типа, под свою конкретную задачу.
Как знать, может это не сильно хуже по эффективности будет.
тут все про архитектуру, даже стесняюсь спросить…
Чем жёлтенький тантал от чёрненького на плате отличается?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории